part of a series on |
machine learning and data mining |
---|
statistical classification (tsz. statistical classifications)
A döntés valószínűségi és statisztikai módszerek segítségével történik.
Egy osztályozó függvényt tanítani:
ahol:
A tanítás során mintákból tanuljuk meg, hogy milyen jellemzők jellemzik az egyes osztályokat.
Fogalom | Leírás |
---|---|
Osztály (class) | A lehetséges kategóriák (pl. kutya, macska) |
Címke (label) | A helyes osztály, amelyet tanításkor ismerünk |
Jellemző (feature) | Egy adat tulajdonsága (pl. súly, szín, kor) |
Tanítóhalmaz | Címkézett mintákból álló adathalmaz |
Tesztelés | A modell kiértékelése új (ismeretlen) adatokon |
Módszer | Leírás |
---|---|
Naive Bayes | Egyszerű valószínűségi modell, jellemzők függetlenségét feltételezi |
Logistic Regression | A valószínűséget logisztikus függvénnyel modellezi |
Linear Discriminant Analysis (LDA) | Osztályok közötti lineáris elkülönítés |
Quadratic Discriminant Analysis (QDA) | Hasonló az LDA-hoz, de eltérő kovariancia mátrixokkal |
k-NN | Nem paraméteres, a legközelebbi példák alapján dönt |
SVM (Support Vector Machine) | Optimalizált elválasztó síkot keres (lásd külön bejegyzésben) |
Decision Tree | Hierarchikus szabályrendszer döntésekre |
Használja a Bayes-tételt:
Ahol:
Naive = minden jellemző függetlennek van feltételezve az osztályon belül.
A logisztikus regresszió kimenete nem konkrét címke, hanem egy valószínűség:
A döntési szabály:
Használható bináris és többosztályos problémákra is (one-vs-rest stratégiával).
Mindkettőnél a cél: olyan döntési határt találni, ami szétválasztja az eloszlásokat.
Hátrány | Magyarázat |
---|---|
Túl egyszerű modellek | Nem kezelnek komplex mintázatokat jól |
Feltételezések gyakran nem teljesülnek | Pl. jellemzők függetlensége (Naive Bayes) |
Nem mindig skálázhatók jól | Pl. QDA érzékeny magas dimenzióban |
Nem robusztusak a zajra | Nagy hibákat okozhat kiugró érték |
Metrika | Jelentés |
---|---|
Accuracy | Helyesen osztályozott példák aránya |
Precision | Az összes pozitív predikció közül mennyi volt helyes |
Recall | A tényleges pozitívok közül mennyi lett megtalálva |
F1-score | Precision és recall harmonikus átlaga |
ROC AUC | Osztályozó általános teljesítménye minden küszöbre |
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y)
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
print("Pontosság:", model.score(X_test, y_test))
Terület | Használat |
---|---|
Egészségügy | Diagnózis: beteg vagy nem? |
Szövegfeldolgozás | SPAM felismerés, véleményelemzés |
Pénzügy | Hitelképesség becslése |
Marketing | Vásárlási hajlandóság előrejelzése |
Gyártás | Minőségellenőrzés osztályozása (jó/rossz) |
Tulajdonság | Leírás |
---|---|
Definíció | Adatok besorolása előre meghatározott osztályokba statisztikai eszközökkel |
Típusok | Bináris, többosztályos, probabilisztikus |
Algoritmusok | Naive Bayes, logisztikus regresszió, LDA, QDA, k-NN |
Alkalmazás | Orvosi diagnózis, biztonság, pénzügy, NLP |
Előny | Egyszerű, gyors, jól értelmezhető |
Hátrány | Feltételezések torzíthatják az eredményt, nem komplex mintázatokra való |