K-Nearest Neighbors

Angol

Főnév

K-Nearest Neighbors (tsz. K-Nearest Neighborses)

(informatika) A K-Nearest Neighbors (KNN) egy egyszerű, mégis erőteljes felügyelt gépi tanulási algoritmus, amelyet osztályozási és regressziós feladatokhoz használnak. A KNN nem épít explicit modellt a tanulási folyamat során, hanem az adatpontok körüli közvetlen szomszédok alapján határozza meg a predikciókat, ezért gyakran nevezik “lusta tanulási algoritmusnak”.

Hogyan működik a KNN algoritmus?

Adatok tárolása: Az algoritmus a teljes tréningadatot elmenti.
Távolságmérés: Új adatpont osztályozásakor a KNN algoritmus kiszámolja a távolságot az új pont és a tréningadatok minden egyes pontja között. A leggyakrabban használt távolságmérési módszer az Euklideszi távolság, de más távolságmérők is használhatók, például Manhattan-távolság vagy Minkowski-távolság.

Az Euklideszi távolság két pont (x₁, y₁) és (x₂, y₂) között:

$d={\sqrt {(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}}$
Legközelebbi szomszédok kiválasztása: A KNN a legközelebbi K adatpontot (szomszédokat) választja ki az új adatpont alapján. Az értékek, amelyeket ezen szomszédok képviselnek, döntik el az új adatpont osztályát (vagy regressziós értékét).
Döntéshozatal:
- Osztályozás esetén: Az új adatpontot azon osztályba sorolja, amely a leggyakoribb osztály a kiválasztott K szomszéd között.
- Regresszió esetén: Az új adatpont értékét a K legközelebbi szomszéd átlagával becsüli meg.

Fontos paraméterek:

K értéke: A K az algoritmus egyik legfontosabb paramétere. Ha K túl kicsi (pl. K=1), akkor az algoritmus hajlamos lehet a zajra, és túlillesztést (overfitting) okozhat. Ha K túl nagy, az algoritmus elmoshatja az adatmintákat, és alulillesztést (underfitting) okozhat.
Távolságmérési módszer: Az Euklideszi távolság mellett más távolságmérési módszerek is használhatók az adatok természetétől függően.

Példa a KNN osztályozási algoritmus használatára Pythonban (Scikit-learn segítségével):

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Iris adatkészlet betöltése
iris = load_iris()
X = iris.data
y = iris.target

# Adatok felosztása tréning és teszt halmazra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# KNN osztályozó létrehozása (K=3)
knn = KNeighborsClassifier(n_neighbors=3)

# Modell illesztése a tréning adatokra
knn.fit(X_train, y_train)

# Előrejelzések a teszt adatokra
y_pred = knn.predict(X_test)

# Pontosság kiértékelése
accuracy = accuracy_score(y_test, y_pred)
print(f"Pontosság: {accuracy:.2f}")

KNN előnyei:

Egyszerűség: Az algoritmus rendkívül könnyen érthető és implementálható.
Nincs szükség explicit tréningre: Nincs szükség komplex modell tanítására, mert az algoritmus egyszerűen az adatok alapján dönti el a predikciókat.
Nem-parametrikus: Nem feltételezi az adatok eloszlását, így különböző eloszlású adatokon is használható.

KNN hátrányai:

Lassú előrejelzés nagy adatokon: Mivel minden új pont esetében minden egyes tréningpont távolságát ki kell számolni, a KNN algoritmus időigényes lehet nagy adatkészleteken.
Súlyozás hiánya: Minden szomszéd egyenlő súllyal járul hozzá az előrejelzéshez, függetlenül attól, hogy milyen közel van a vizsgált pontokhoz.
Közvetlen függés az adatpontoktól: Az algoritmus érzékeny a zajos vagy irreleváns jellemzőkre.

Alkalmazási területek:

Kép- és hangfelismerés: A KNN algoritmust gyakran használják kép- és hangosztályozási feladatokban, mivel ezekben az esetekben a hasonló minták közel helyezkednek el egymáshoz.
Ajánlórendszerek: A KNN használható ajánlórendszerekben, ahol az algoritmus megkeresi a felhasználóhoz hasonló más felhasználókat, és azok alapján ajánl tartalmakat.
Anomáliadetektálás: KNN alkalmazható ritka vagy anomáliás események észlelésére is.

A KNN egy hatékony és rugalmas algoritmus, amely kiválóan alkalmazható kisebb méretű adathalmazok esetén, és ahol fontos a hasonló adatok közelsége alapján történő döntéshozatal.

További információk

K-Nearest Neighbors - Szótár.net (en-hu)
K-Nearest Neighbors - Sztaki (en-hu)
K-Nearest Neighbors - Merriam–Webster
K-Nearest Neighbors - Cambridge
K-Nearest Neighbors - WordNet
K-Nearest Neighbors - Яндекс (en-ru)
K-Nearest Neighbors - Google (en-hu)
K-Nearest Neighbors - Wikidata
K-Nearest Neighbors - Wikipédia (angol)

K-Nearest Neighbors

Angol

Főnév

Hogyan működik a KNN algoritmus?

Fontos paraméterek:

Példa a KNN osztályozási algoritmus használatára Pythonban (Scikit-learn segítségével):

KNN előnyei:

KNN hátrányai:

Alkalmazási területek:

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot