szó jelentését keresi. A DICTIOUS-ban nem csak a
szó összes szótári jelentését megtalálod, hanem megismerheted az etimológiáját, a jellemzőit és azt is, hogyan kell a
szót egyes és többes számban mondani. Minden, amit a
szóról tudni kell, itt található. A
szó meghatározása segít abban, hogy pontosabban és helyesebben fogalmazz, amikor beszélsz vagy írsz. A
és más szavak definíciójának ismerete gazdagítja a szókincsedet, és több és jobb nyelvi forráshoz juttat.
Főnév
training data set (tsz. training data sets)
- (informatika) A training data set, magyarul tanító adathalmaz vagy tanítóadat-készlet, a gépi tanulás (machine learning) és a mesterséges intelligencia (AI) egyik legfontosabb fogalma. Ez az az adathalmaz, amelyet egy algoritmus felhasznál az ismeretek elsajátítására, azaz a modell megtanítására. A tanító adatok alapján a rendszer megtanulja felismerni az összefüggéseket, mintákat, szabályokat, amelyeket később ismeretlen adatokkal is alkalmazni tud.
Mi az a tanító adathalmaz?
A tanítóadat egy olyan strukturált adatcsomag, amely példákon keresztül mutatja meg a modellnek, hogy hogyan néz ki a megoldandó probléma. Minden példa tartalmaz:
- Bemeneti jellemzőket (input features),
- és sokszor kimeneti címkét (label), amit a modellnek meg kell tanulnia.
Példa (felügyelt tanulás):
Magasság (cm)
|
Súly (kg)
|
Nem
|
170
|
65
|
Férfi
|
160
|
55
|
Nő
|
180
|
80
|
Férfi
|
A bemenet: magasság
, súly
A címke (label): nem
→ a modell célja: megtanulni megjósolni a nemet új emberek esetén.
Típusai a felhasználás szerint
Típus
|
Jellemzők
|
Felügyelt tanulás (supervised)
|
Tartalmazza a bemeneteket és a helyes kimeneteket is
|
Felügyelet nélküli tanulás (unsupervised)
|
Csak a bemeneteket tartalmazza, nincs címke
|
Félig felügyelt (semi-supervised)
|
A példák egy része címkézett, a többi nem
|
Megerősítéses tanulás (reinforcement)
|
Közvetett visszacsatolást (jutalmat vagy büntetést) használ tanulásra
|
A tanító adathalmaz szerepe
- Minták megtanítása: a modell statisztikai kapcsolatokat keres a jellemzők és a kimenetek között.
- Általánosítás megtanulása: cél, hogy ne csak az ismert adatokon teljesítsen jól, hanem új példákon is.
- Kimenetbecslés: pl. osztályozás, regresszió, döntéshozatal.
Mi van a tanító adathalmazban?
1. Jellemzők (features)
- Numerikus (pl. kor, súly)
- Kategóriás (pl. ország, szín)
- Szöveges (pl. e-mailek, vélemények)
2. Címkék (labels)
- Osztályozás (pl. kutya / macska)
- Számérték (pl. ház árának becslése)
- Forrás, időbélyeg, szenzor, stb.
Előkészítési lépések
- Adattisztítás
- Hiányzó értékek kezelése
- Zaj eltávolítása
- Skálázás, normalizálás
- Mértékegységek egységesítése
- Kódolás
- Kategóriás változók numerikussá alakítása (pl. one-hot encoding)
- Jellemzők kiválasztása
- Fontos inputok megtartása, irrelevánsak eltávolítása
- Adatok szétosztása
- Tanító adathalmaz (training set) – modell tanítása
- Tesztadat (test set) – a modell ellenőrzése
- Érvényesítő halmaz (validation set) – paraméterhangolás
Tipikus arányok
- 80–20: 80% tanító, 20% teszt
- 70–15–15: tanító–validációs–teszt
- Ezek nem kőbe vésett szabályok, de segítenek az általánosítás értékelésében.
Problémák a tanítóadatokkal
Probléma
|
Következmény
|
Kevés adat
|
A modell nem tud tanulni (underfitting)
|
Túl sok zaj
|
Rossz általánosítás (overfitting)
|
Torzítás (bias)
|
Részrehajló döntések (pl. diszkrimináció)
|
Hiányzó értékek
|
Pontatlan becslések
|
Nem reprezentatív minta
|
A valós világot nem fedi le
|
Példák különböző területekről
Terület
|
Bemeneti jellemzők
|
Kimeneti címke
|
Egészségügy
|
Életkor, vérnyomás, cukorszint
|
Betegség típusa
|
Képfelismerés
|
Pixelértékek (képek)
|
Kategória (kutya, autó, stb.)
|
Természetes nyelv
|
Szövegek (pl. e-mail tárgya)
|
Spam vagy nem spam
|
Pénzügy
|
Jövedelem, hiteltörténet
|
Jóváhagyandó hitel? (igen/nem)
|
Példa Pythonban (gépi tanulási keretrendszerrel – scikit-learn)
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# Bemenet (X) és címke (y)
X = , , ]
y =
# Adatok szétosztása
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)
# Modell tanítása
model = LogisticRegression()
model.fit(X_train, y_train)
# Előrejelzés tesztadatra
print(model.predict(X_test))
Adatkészletek példák gyakorláshoz
Adatkészlet
|
Leírás
|
Hol található
|
Iris dataset
|
Virágok mérései, osztályozás
|
sklearn.datasets
|
MNIST
|
Kézzel írt számjegyek képei
|
tensorflow_datasets
|
Titanic
|
Túlélés becslése
|
Kaggle
|
CIFAR-10
|
Képosztályozás
|
torchvision
|
Összegzés
A tanító adathalmaz az egyik legfontosabb elem a gépi tanulás során. Ez határozza meg, mit tanul meg a modell, hogyan általánosít, és mennyire lesz megbízható. Még a legfejlettebb algoritmus is rossz tanítóadattal gyengén fog teljesíteni, ezért a tanító adatok minősége, mennyisége és reprezentativitása kulcsfontosságú.