statistical learning theory

Angol

Főnév

statistical learning theory (tsz. statistical learning theories)

(informatika) A statisztikai tanuláselmélet (SLT) egy matematikai keretrendszer, amely azt vizsgálja, hogyan tudnak a gépek, algoritmusok vagy modellek mintákból tanulni. Az SLT próbál elméleti garanciákat adni arra, hogy ha az algoritmus egy korlátozott számú példán jól teljesít, akkor vajon új, ismeretlen adatokon is jól fog-e teljesíteni.

Egyszerűbben szólva: → Mi garantálja, hogy amit a tanuló modell a tréning adatokon megtanult, az nem csak véletlenül passzol oda, hanem valóban általánosítható?

Ez a kérdés a gépi tanulás egyik alapkérdése, és erre az SLT próbál választ adni.

Motiváció

A gépi tanulás egyik központi célja a generalizáció:

Van egy ismeretlen valós eloszlás ${\textstyle P(X,Y)}$ , ami az adatokat generálja.
Van egy tanuló algoritmusunk, ami kap példákat ebből az eloszlásból: ${\textstyle \{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\}}$ .
A cél: megtanulni egy függvényt ${\textstyle f(x)}$ , ami új adatokra is jól becsüli meg a helyes ${\textstyle y}$ -t.

A gond az, hogy csak egy véges számú példán tanulunk → nem látjuk a teljes eloszlást.

Kérdés: Mennyi adat kell, hogy biztosan jó modellt tanuljunk? Milyen algoritmusokat érdemes választani? Hogyan mérjük a bonyolultságot?

→ SLT ezekre ad válaszokat.

Fő fogalmak

1. Hipotézistér ${\textstyle {\mathcal {H}}}$

A tanuló algoritmus nem minden lehetséges függvényt próbál meg megtanulni, hanem egy hipotézistérből választ.

Példa:

Ha lineáris regressziót tanulunk, akkor a hipotézistér az összes lineáris függvény.
Ha neuronháló tanul, akkor a hipotézistér a paraméterezett neurális hálók osztálya.

2. Loss function (veszteségfüggvény)

A tanuló algoritmus hibát mér a predikcióin:

${\textstyle L(f(x),y)}$

Példák:

Négyzetes veszteség: ${\textstyle (f(x)-y)^{2}}$
Zero-one loss (osztályozás): 1, ha helytelen, 0, ha helyes.

3. Empirikus kockázat (Empirical Risk) ${\textstyle R_{emp}(f)}$

A tanuló algoritmus a rendelkezésre álló adatokon tudja kiértékelni a teljesítményét:

${\textstyle R_{emp}(f)={\frac {1}{n}}\sum _{i=1}^{n}L(f(x_{i}),y_{i})}$

Minél kisebb, annál jobban teljesít az ismert adatokon.

4. Valódi kockázat (True Risk) ${\textstyle R(f)}$

Ami igazán érdekel minket, az az ismeretlen eloszlás szerinti várható hiba:

${\textstyle R(f)=\mathbb {E} _{(X,Y)\sim P}}$

Generalizációs cél → ${\textstyle R(f)}$ legyen alacsony.

Probléma: ${\textstyle P}$ -t nem ismerjük → ${\textstyle R(f)}$ nem számolható ki pontosan.

Tanulási elv: Empirical Risk Minimization (ERM)

A klasszikus tanulási elv az, hogy a rendelkezésre álló adatokon minimalizáljuk az empirikus kockázatot:

${\textstyle {\hat {f}}=\arg \min _{f\in {\mathcal {H}}}R_{emp}(f)}$

Kérdés: vajon ez elég?

→ SLT elemzi, hogy az ${\textstyle {\hat {f}}}$ -nek milyen a valódi kockázata.

Generalizációs hiba

A kulcs kérdés:

${\textstyle R(f)-R_{emp}(f)}$

Ha ez kicsi, akkor az empirikus kockázat minimalizálása jó valódi teljesítményt eredményez.
Ha ez nagy, akkor overfitting történik (túlillesztés).

5. Overfitting vs. underfitting

Overfitting: a modell túlságosan alkalmazkodik a mintához, de rosszul teljesít új adatokon.
Underfitting: a modell nem elég kifejező, ezért az ismert és új adatokon is rosszul teljesít.

→ SLT célja, hogy matematikai módon megértse és kordában tartsa ezt a kompromisszumot.

Model bonyolultságának mérése

Minél bonyolultabb a hipotézistér ${\textstyle {\mathcal {H}}}$ , annál könnyebb overfittetni.

Hogyan mérjük a bonyolultságot?

1. VC-dimenzió (Vapnik–Chervonenkis dimension)

A VC-dimenzió egy klasszikus SLT eszköz, amely megmondja, hogy a hipotézistér mennyire erős.

VC-dimenzió = a legnagyobb minta méret, amit a modell teljesen tetszőlegesen osztályozni tud.

Alacsony VC-dimenzió → kevésbé bonyolult modell → kisebb esély az overfittingre.
Magas VC-dimenzió → nagy bonyolultság → nagyobb overfitting esély.

Példák:

Lineáris döntési felületek 2D-ben → VC-dimenzió = 3
Polinomok → VC-dimenzió a fokszámtól függ

2. Rademacher-komplexitás

Modern alternatíva a VC-dimenzióra, amely adatfüggő bonyolultságmérő.

3. Regularizáció

Az SLT egyik gyakorlati következménye: regularizációt vezetünk be, hogy csökkentsük a bonyolultságot.

L2 regularizáció (Ridge regression)
L1 regularizáció (Lasso)
Dropout neurális hálózatokban

Konvergencia és tanulási garantálták

Az SLT a következő kérdéseket vizsgálja:

Mennyi minta kell ahhoz, hogy ${\textstyle R(f)\approx R_{emp}(f)}$ ?
Milyen gyorsan konvergál ${\textstyle R_{emp}(f)}$ a ${\textstyle R(f)}$ -hez?
Hogyan függ ez a hipotézistér komplexitásától?

Alapvető eredmény (nagyon leegyszerűsítve):

Ha:

${\textstyle n}$ = minta elemszám
${\textstyle d}$ = VC-dimenzió

akkor nagy valószínűséggel:

${\textstyle |R(f)-R_{emp}(f)|\leq O\left({\sqrt {\frac {d}{n}}}\right)}$

→ Minél több adatunk van, annál jobb lesz a generalizáció.

Kapcsolat a modern gépi tanulással

Mélytanulás (Deep Learning)

A klasszikus SLT VC-dimenzió alapú keretrendszere nem jól magyarázza, miért működnek a nagy hálók.
Új kutatási irányok: norma-alapú általánosítási határok, PAC-Bayes elmélet, implicit bias a gradient descent során.

Kernel módszerek

SVM (Support Vector Machines) a margin maximalizálást alkalmazza → közvetlenül SLT-ből következik.
Kerneles módszerek VC-dimenzióval és Rademacher-komplexitással is jól elemezhetők.

Boosting

Boosting algoritmusok (pl. AdaBoost) erős általánosítási eredményeket adnak → bizonyítottan jó ${\textstyle R(f)}$ -t eredményeznek.

Összegzés

Fogalom	Cél
Hipotézistér ${\textstyle {\mathcal {H}}}$	A lehetséges modellek halmaza
Loss function ${\textstyle L}$	A hibamérés módja
Empirikus kockázat ${\textstyle R_{emp}(f)}$	Minta adatokon mért hiba
Valódi kockázat ${\textstyle R(f)}$	Ismeretlen eloszlás szerinti hiba
VC-dimenzió	A modellek bonyolultságának mérőszáma
Regularizáció	Az overfitting elkerülése
Generalizációs hiba	${\textstyle R(f)-R_{emp}(f)}$ , amit szeretnénk minimalizálni

Miért fontos?

Az SLT matematikai alapot ad annak megértéséhez, hogy mikor és hogyan általánosítanak jól a gépi tanulási modellek.
Segít megérteni az adatigényt.
Segít kialakítani bonyolultság és adatméret közötti kompromisszumot.

Modern AI rendszerek sikerének egyik rejtett alapköve a statisztikai tanuláselmélet. A nagy méretű neurális hálózatok működésének jobb megértése ma is aktív kutatási terület az SLT keretein belül.

További információk

statistical learning theory - Szótár.net (en-hu)
statistical learning theory - Sztaki (en-hu)
statistical learning theory - Merriam–Webster
statistical learning theory - Cambridge
statistical learning theory - WordNet
statistical learning theory - Яндекс (en-ru)
statistical learning theory - Google (en-hu)
statistical learning theory - Wikidata
statistical learning theory - Wikipédia (angol)

statistical learning theory

Angol

Főnév

Motiváció

Fő fogalmak

1. Hipotézistér ${\textstyle {\mathcal {H}}}$

2. Loss function (veszteségfüggvény)

3. Empirikus kockázat (Empirical Risk) ${\textstyle R_{emp}(f)}$

4. Valódi kockázat (True Risk) ${\textstyle R(f)}$

Tanulási elv: Empirical Risk Minimization (ERM)

Generalizációs hiba

5. Overfitting vs. underfitting

Model bonyolultságának mérése

1. VC-dimenzió (Vapnik–Chervonenkis dimension)

2. Rademacher-komplexitás

3. Regularizáció

Konvergencia és tanulási garantálták

Kapcsolat a modern gépi tanulással

Mélytanulás (Deep Learning)

Kernel módszerek

Boosting

Összegzés

Miért fontos?

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot

Angol

Főnév

Motiváció

Fő fogalmak

1. Hipotézistér H {\textstyle {\mathcal {H}}}

2. Loss function (veszteségfüggvény)

3. Empirikus kockázat (Empirical Risk) R e m p ( f ) {\textstyle R_{emp}(f)}

4. Valódi kockázat (True Risk) R ( f ) {\textstyle R(f)}

Tanulási elv: Empirical Risk Minimization (ERM)

Generalizációs hiba

5. Overfitting vs. underfitting

Model bonyolultságának mérése

1. VC-dimenzió (Vapnik–Chervonenkis dimension)

2. Rademacher-komplexitás

3. Regularizáció

Konvergencia és tanulási garantálták

Kapcsolat a modern gépi tanulással

Mélytanulás (Deep Learning)

Kernel módszerek

Boosting

Összegzés

Miért fontos?

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot

1. Hipotézistér ${\textstyle {\mathcal {H}}}$

3. Empirikus kockázat (Empirical Risk) ${\textstyle R_{emp}(f)}$

4. Valódi kockázat (True Risk) ${\textstyle R(f)}$