statistical classification

Angol

Főnév

statistical classification (tsz. statistical classifications)

(informatika, mesterséges intelligencia) A statistical classification, magyarul statisztikai osztályozás, a gépi tanulás és statisztika egyik alapvető területe. Célja, hogy egy adott bemeneti adatot egy előre meghatározott osztályba soroljon – például:

Egy e-mail SPAM vagy NEM-SPAM?
Egy betegnél jelen van egy betegség vagy sem?
Egy gyümölcs alma, körte vagy banán?

A döntés valószínűségi és statisztikai módszerek segítségével történik.

🎯 A cél

Egy osztályozó függvényt tanítani:

$f(x)=y$

ahol:
- ${\textstyle x}$ : bemeneti vektor (jellemzők)
- ${\textstyle y}$ : kimeneti osztálycímke (pl. 0 vagy 1)
A tanítás során mintákból tanuljuk meg, hogy milyen jellemzők jellemzik az egyes osztályokat.

📚 Alapfogalmak

Fogalom	Leírás
Osztály (class)	A lehetséges kategóriák (pl. kutya, macska)
Címke (label)	A helyes osztály, amelyet tanításkor ismerünk
Jellemző (feature)	Egy adat tulajdonsága (pl. súly, szín, kor)
Tanítóhalmaz	Címkézett mintákból álló adathalmaz
Tesztelés	A modell kiértékelése új (ismeretlen) adatokon

🛠️ Népszerű statisztikai osztályozók

Módszer	Leírás
Naive Bayes	Egyszerű valószínűségi modell, jellemzők függetlenségét feltételezi
Logistic Regression	A valószínűséget logisztikus függvénnyel modellezi
Linear Discriminant Analysis (LDA)	Osztályok közötti lineáris elkülönítés
Quadratic Discriminant Analysis (QDA)	Hasonló az LDA-hoz, de eltérő kovariancia mátrixokkal
k-NN	Nem paraméteres, a legközelebbi példák alapján dönt
SVM (Support Vector Machine)	Optimalizált elválasztó síkot keres (lásd külön bejegyzésben)
Decision Tree	Hierarchikus szabályrendszer döntésekre

📐 Példa: Naive Bayes osztályozó

Használja a Bayes-tételt:

$P(y|x)={\frac {P(x|y)\cdot P(y)}{P(x)}}$

Ahol:

${\textstyle P(y|x)}$ : a keresett feltételes valószínűség (melyik osztály valószínű az adott adatnál)
${\textstyle P(x|y)}$ : jellemzők valószínűsége az adott osztályon belül
${\textstyle P(y)}$ : az osztály prior valószínűsége

Naive = minden jellemző függetlennek van feltételezve az osztályon belül.

📊 Logistic Regression

A logisztikus regresszió kimenete nem konkrét címke, hanem egy valószínűség:

$P(y=1|x)={\frac {1}{1+e^{-(w^{T}x+b)}}}$

A döntési szabály:

ha ${\textstyle P(y=1|x)>0.5}$ , akkor osztály = 1
különben osztály = 0

Használható bináris és többosztályos problémákra is (one-vs-rest stratégiával).

🧠 LDA és QDA

LDA: feltételezi, hogy az osztályok azonos kovariancia mátrixú Gauss-eloszlásból származnak
QDA: lehetővé teszi, hogy az osztályok különböző kovarianciával rendelkezzenek

Mindkettőnél a cél: olyan döntési határt találni, ami szétválasztja az eloszlásokat.

✅ Előnyök

📈 Könnyen értelmezhető döntési szabályok (pl. logisztikus regresszió)
🔍 Statisztikai alapokon nyugszik – magyarázható, átlátható
⚡ Gyors tanulás és predikció
🧮 Kevés adat is elég lehet, ha az eloszlások egyszerűek

⚠️ Hátrányok

Hátrány	Magyarázat
Túl egyszerű modellek	Nem kezelnek komplex mintázatokat jól
Feltételezések gyakran nem teljesülnek	Pl. jellemzők függetlensége (Naive Bayes)
Nem mindig skálázhatók jól	Pl. QDA érzékeny magas dimenzióban
Nem robusztusak a zajra	Nagy hibákat okozhat kiugró érték

🧪 Kiértékelési mutatók

Metrika	Jelentés
Accuracy	Helyesen osztályozott példák aránya
Precision	Az összes pozitív predikció közül mennyi volt helyes
Recall	A tényleges pozitívok közül mennyi lett megtalálva
F1-score	Precision és recall harmonikus átlaga
ROC AUC	Osztályozó általános teljesítménye minden küszöbre

🛠️ Python példa: logisztikus regresszió

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y)

model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
print("Pontosság:", model.score(X_test, y_test))

📚 Alkalmazások

Terület	Használat
Egészségügy	Diagnózis: beteg vagy nem?
Szövegfeldolgozás	SPAM felismerés, véleményelemzés
Pénzügy	Hitelképesség becslése
Marketing	Vásárlási hajlandóság előrejelzése
Gyártás	Minőségellenőrzés osztályozása (jó/rossz)

🧾 Összefoglalás

Tulajdonság	Leírás
Definíció	Adatok besorolása előre meghatározott osztályokba statisztikai eszközökkel
Típusok	Bináris, többosztályos, probabilisztikus
Algoritmusok	Naive Bayes, logisztikus regresszió, LDA, QDA, k-NN
Alkalmazás	Orvosi diagnózis, biztonság, pénzügy, NLP
Előny	Egyszerű, gyors, jól értelmezhető
Hátrány	Feltételezések torzíthatják az eredményt, nem komplex mintázatokra való

További információk

statistical classification - Szótár.net (en-hu)
statistical classification - Sztaki (en-hu)
statistical classification - Merriam–Webster
statistical classification - Cambridge
statistical classification - WordNet
statistical classification - Яндекс (en-ru)
statistical classification - Google (en-hu)
statistical classification - Wikidata
statistical classification - Wikipédia (angol)

statistical classification

Angol

Főnév

🎯 A cél

📚 Alapfogalmak

🛠️ Népszerű statisztikai osztályozók

📐 Példa: Naive Bayes osztályozó

📊 Logistic Regression

🧠 LDA és QDA

✅ Előnyök

⚠️ Hátrányok

🧪 Kiértékelési mutatók

🛠️ Python példa: logisztikus regresszió

📚 Alkalmazások

🧾 Összefoglalás

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot