empirical risk minimization (tsz. empirical risk minimizations)
Tegyük fel, hogy szeretnél egy modellt, ami megmondja, hogy egy email spam-e. Ehhez példákat kapsz:
(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)
ahol:
xᵢ
a bemenet (pl. email szöveg jellemzői),yᵢ
a címke (pl. 0 = nem spam, 1 = spam).A cél: olyan függvényt találni, amely az x
bemenethez helyes y
választ ad. Ez azt jelenti, hogy szeretnéd minimalizálni a hibás válaszok számát.
A risk, vagyis kockázat egy függvény, ami megmondja, hogy egy tanulómodell mennyire rossz átlagosan:
Valódi kockázat (true risk)
ahol:
f(x)
a modell által adott válasz,y
a valódi címke,ℓ
a veszteségfüggvény (loss function) – például:
DE: az eloszlás 𝓓 ismeretlen, ezért nem tudjuk kiszámolni a valódi kockázatot.
Ezért becsüljük az eloszlást a tanulási mintán keresztül:
Ez az empirikus kockázat, vagyis a tanulómodell teljesítménye a konkrét tanulási adatokon.
Empirical Risk Minimization = válaszd azt a
f
függvényt, ami minimalizálja az empirikus kockázatot.
Formálisan:
ahol 𝓕
a tanulási függvények osztálya (pl. lineáris modellek, neurális hálók stb.).
Cél: megtanulni f(x) = wᵀx + b
alakú modellt.
Használjuk az MSE veszteséget:
ERM szerint ezt kell minimalizálnunk, ami analitikusan is megoldható (normál egyenletek), vagy gradiens módszerrel.
ERM hajlamos arra, hogy túl jól megtanulja a tanulóadatokat, és rosszul teljesítsen új adatokon (generalizációs hiba nő). Ez az overfitting jelenség.
Bevezetünk egy büntetőtagot, hogy korlátozzuk a modellek komplexitását:
ahol:
Ω(f)
= regularizációs tag (pl. ‖w‖²),λ
= regularizációs súly.Ez az alapja a ridge regression, lasso, és a regularizált neurális hálók (pl. weight decay) módszereknek.
Fogalom | Rövid magyarázat |
---|---|
Loss function | Meghatározza, mennyire rossz egy jóslat. |
Empirical risk | Átlagos veszteség a tanuló mintán. |
True risk | Várható veszteség az egész eloszlás felett. |
Generalization error | A különbség a tanuló és valódi hiba között. |
PAC Learning | Probably Approximately Correct – elméleti keret ERM értelmezéséhez. |
Regularization | Védekezés az overfitting ellen. |
Empirical Risk Minimization (ERM) az a módszer, amely szerint a gépi tanulási modell azt az értékadó függvényt választja, amely a legjobban teljesít a tanulóadatokon. Bár egyszerű és hatékony, túlzott alkalmazása overfittinghez vezethet, ezért gyakran kombinálják regularizációval vagy használják elméletileg megalapozottabb módszerekkel, mint a Structural Risk Minimization. ERM az elméleti gépi tanulás legfontosabb alapköve – ha ezt érted, sokkal jobban megérted a modern mesterséges intelligencia algoritmusait is.