part of a series on |
machine learning and data mining |
---|
problems
|
learning with humans |
model diagnostics |
supervised learning (tsz. supervised learnings)
A supervised learning, vagyis felügyelt tanulás a gépi tanulás egyik legismertebb és legszélesebb körben alkalmazott módszere. Az algoritmus tanulási folyamata során már ismert kimenetű adatokat kap, és célja az, hogy megtanulja az input és output közötti összefüggést, majd ezt az ismeretet új, ismeretlen adatokra alkalmazza.
Ez a módszer kulcsfontosságú olyan alkalmazásokban, mint:
A felügyelt tanulásnál egy tanító adathalmazt (training set) használunk, amelyben minden adatponthoz tartozik egy címke vagy célérték (output label). Az algoritmus ezeken tanul, és a célja egy olyan függvény megtanulása, amely a bemenetből előállítja a helyes kimenetet.
Fogalom | Jelentés |
---|---|
Bemeneti változó (X )
|
Az az adat, amit beviszünk a modellbe (pl. képpontok, szöveg) |
Célváltozó (y )
|
A kívánt kimenet, amit a modellnek meg kell tanulnia előre jelezni |
Modell | A tanulás eredményeként létrejövő „függvény” |
Tanulási fázis | Az az időszak, amikor a modell a meglévő adatok alapján tanul |
Predikció | A modell által adott előrejelzés vagy válasz |
Olyan problémák, ahol a célváltozó diszkrét (véges számú kategória).
Olyan problémák, ahol a célváltozó folyamatos érték.
Algoritmus | Rövid leírás |
---|---|
Lineáris regresszió | Egyenes illesztése adatokra – regressziós problémák megoldására |
Logisztikus regresszió | Két vagy több osztályba sorolás valószínűség alapján |
Döntési fa | Ha-akkor szabályokon alapuló modell |
K-n legközelebbi szomszéd (KNN) | A k legközelebbi példa alapján dönt |
SVM (Support Vector Machine) | Határvonalat keres az osztályok elválasztására |
Neurális hálózatok | Mély tanulási modellek, bonyolult összefüggések modellezésére |
Random Forest | Több döntési fa együttesen dönt (ensemble learning) |
X → y
összefüggést.
Klasszifikációnál:
Regressziónál:
✅ Jól érthető, sok valós alkalmazásra alkalmazható ✅ Megbízható, ha jó minőségű, címkézett adatok állnak rendelkezésre ✅ Könnyen értelmezhető modellek is készíthetők (pl. döntési fa)
❌ Szükség van címkézett adatokra – ezek előállítása drága lehet ❌ Nehezebb alkalmazni ott, ahol az osztályozás határai nem jól definiáltak ❌ Könnyen túlilleszthet (overfitting), ha nem figyelünk a generalizálásra
A felügyelt tanulás az egyik legfontosabb gépi tanulási módszer, amely jól alkalmazható jó minőségű címkézett adatok esetén. Használatával megbízható előrejelzéseket készíthetünk a múltbeli adatok alapján. Bár adatigényes és előfeldolgozást igényel, az egyszerűségéből fakadó értelmezhetőség és széles körű alkalmazhatóság miatt kiemelkedő jelentőségű.