training data set

Angol

Főnév

training data set (tsz. training data sets)

(informatika) A training data set, magyarul tanító adathalmaz vagy tanítóadat-készlet, a gépi tanulás (machine learning) és a mesterséges intelligencia (AI) egyik legfontosabb fogalma. Ez az az adathalmaz, amelyet egy algoritmus felhasznál az ismeretek elsajátítására, azaz a modell megtanítására. A tanító adatok alapján a rendszer megtanulja felismerni az összefüggéseket, mintákat, szabályokat, amelyeket később ismeretlen adatokkal is alkalmazni tud.

Mi az a tanító adathalmaz?

A tanítóadat egy olyan strukturált adatcsomag, amely példákon keresztül mutatja meg a modellnek, hogy hogyan néz ki a megoldandó probléma. Minden példa tartalmaz:

Bemeneti jellemzőket (input features),
és sokszor kimeneti címkét (label), amit a modellnek meg kell tanulnia.

Példa (felügyelt tanulás):

Magasság (cm)	Súly (kg)	Nem
170	65	Férfi
160	55	Nő
180	80	Férfi

A bemenet: magasság, súly A címke (label): nem → a modell célja: megtanulni megjósolni a nemet új emberek esetén.

Típusai a felhasználás szerint

Típus	Jellemzők
Felügyelt tanulás (supervised)	Tartalmazza a bemeneteket és a helyes kimeneteket is
Felügyelet nélküli tanulás (unsupervised)	Csak a bemeneteket tartalmazza, nincs címke
Félig felügyelt (semi-supervised)	A példák egy része címkézett, a többi nem
Megerősítéses tanulás (reinforcement)	Közvetett visszacsatolást (jutalmat vagy büntetést) használ tanulásra

A tanító adathalmaz szerepe

Minták megtanítása: a modell statisztikai kapcsolatokat keres a jellemzők és a kimenetek között.
Általánosítás megtanulása: cél, hogy ne csak az ismert adatokon teljesítsen jól, hanem új példákon is.
Kimenetbecslés: pl. osztályozás, regresszió, döntéshozatal.

Mi van a tanító adathalmazban?

1. Jellemzők (features)

Numerikus (pl. kor, súly)
Kategóriás (pl. ország, szín)
Szöveges (pl. e-mailek, vélemények)

2. Címkék (labels)

Osztályozás (pl. kutya / macska)
Számérték (pl. ház árának becslése)

3. Metaadatok

Forrás, időbélyeg, szenzor, stb.

Előkészítési lépések

Adattisztítás
- Hiányzó értékek kezelése
- Zaj eltávolítása
Skálázás, normalizálás
- Mértékegységek egységesítése
Kódolás
- Kategóriás változók numerikussá alakítása (pl. one-hot encoding)
Jellemzők kiválasztása
- Fontos inputok megtartása, irrelevánsak eltávolítása
Adatok szétosztása
- Tanító adathalmaz (training set) – modell tanítása
- Tesztadat (test set) – a modell ellenőrzése
- Érvényesítő halmaz (validation set) – paraméterhangolás

Tipikus arányok

80–20: 80% tanító, 20% teszt
70–15–15: tanító–validációs–teszt
Ezek nem kőbe vésett szabályok, de segítenek az általánosítás értékelésében.

Problémák a tanítóadatokkal

Probléma	Következmény
Kevés adat	A modell nem tud tanulni (underfitting)
Túl sok zaj	Rossz általánosítás (overfitting)
Torzítás (bias)	Részrehajló döntések (pl. diszkrimináció)
Hiányzó értékek	Pontatlan becslések
Nem reprezentatív minta	A valós világot nem fedi le

Példák különböző területekről

Terület	Bemeneti jellemzők	Kimeneti címke
Egészségügy	Életkor, vérnyomás, cukorszint	Betegség típusa
Képfelismerés	Pixelértékek (képek)	Kategória (kutya, autó, stb.)
Természetes nyelv	Szövegek (pl. e-mail tárgya)	Spam vagy nem spam
Pénzügy	Jövedelem, hiteltörténet	Jóváhagyandó hitel? (igen/nem)

Példa Pythonban (gépi tanulási keretrendszerrel – scikit-learn)

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# Bemenet (X) és címke (y)
X = , , ]
y = 

# Adatok szétosztása
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

# Modell tanítása
model = LogisticRegression()
model.fit(X_train, y_train)

# Előrejelzés tesztadatra
print(model.predict(X_test))

Adatkészletek példák gyakorláshoz

Adatkészlet	Leírás	Hol található
Iris dataset	Virágok mérései, osztályozás	`sklearn.datasets`
MNIST	Kézzel írt számjegyek képei	`tensorflow_datasets`
Titanic	Túlélés becslése	Kaggle
CIFAR-10	Képosztályozás	torchvision

Összegzés

A tanító adathalmaz az egyik legfontosabb elem a gépi tanulás során. Ez határozza meg, mit tanul meg a modell, hogyan általánosít, és mennyire lesz megbízható. Még a legfejlettebb algoritmus is rossz tanítóadattal gyengén fog teljesíteni, ezért a tanító adatok minősége, mennyisége és reprezentativitása kulcsfontosságú.

További információk

training data set - Szótár.net (en-hu)
training data set - Sztaki (en-hu)
training data set - Merriam–Webster
training data set - Cambridge
training data set - WordNet
training data set - Яндекс (en-ru)
training data set - Google (en-hu)
training data set - Wikidata
training data set - Wikipédia (angol)