part of a series on |
machine learning and data mining |
---|
unsupervised learning (tsz. unsupervised learnings)
Az unsupervised learning, magyarul felügyelet nélküli tanulás a gépi tanulás egyik alapvető típusa, amelynél a rendszer címkézetlen adatokon tanul. Ez azt jelenti, hogy nincsenek előre meghatározott válaszok, a modellnek magának kell felfedeznie a rejtett mintázatokat, struktúrákat vagy csoportokat az adatokban.
Ez szemben áll a supervised learninggel, ahol bemenet–kimenet párok alapján tanítjuk a modellt.
Nem a „helyes válasz” megtanulása, hanem:
Feladat | Leírás |
---|---|
Clustering (klaszterezés) | Az adatok csoportokra osztása hasonlóság alapján |
Dimenziócsökkentés | Az adatok tömörítése (pl. vizualizáció vagy gyorsítás céljából) |
Anomáliadetektálás | Ritka vagy szokatlan minták azonosítása |
Generatív modellek | Új adatok létrehozása a tanult eloszlás alapján |
Alkalmazás: vásárlói szokások szerinti szegmentálás, képfeldolgozás, biológiai adatelemzés.
Amikor nagyon sok jellemzőnk van (pl. képeknél 1000+ pixel), szeretnénk ezeket alacsonyabb dimenziójú térbe leképezni, hogy:
Módszer | Leírás |
---|---|
PCA | Lineáris transzformáció, a variancia maximálására épül |
t-SNE | Nemlineáris, helyi hasonlóságokra optimalizál |
UMAP | Gyors és globálisan konzisztens vizualizációs eszköz |
Az anomáliák olyan adatok, amelyek nem illenek a többi mintához.
Modell | Leírás |
---|---|
Autoencoder | A bemenetet tömöríti, majd újraépíti – kényszerítve a hálót a lényeg megtanulására |
GAN (Generative Adversarial Network) | Képes új képeket, zenéket, szövegeket generálni |
VAE (Variational Autoencoder) | Statikus eloszlás alapján tanul reprezentációt generálni |
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
X, _ = make_blobs(n_samples=300, centers=3, cluster_std=0.60)
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
plt.scatter(X, X, c=y_kmeans)
plt.scatter(kmeans.cluster_centers_, kmeans.cluster_centers_, c='red')
plt.show()
Tulajdonság | Részletek |
---|---|
Definíció | Olyan tanulás, ahol nincs címkézett kimenet – a rendszer maga talál struktúrákat |
Fő módszerek | K-means, PCA, autoencoder, t-SNE, GAN |
Felhasználás | Klaszterezés, tömörítés, anomáliák, új minta generálás |
Előny | Címkézetlen adatokkal működik, minta-felfedező képesség |
Hátrány | Az eredmény nehezen ellenőrizhető, gyakran homályos értelmezés |