k-means clustering

Angol

Főnév

k-means clustering (tsz. k-means clusterings)

(informatika) K-means clustering – magyarul: k-közép klaszterezés – egy felügyelet nélküli tanulási (unsupervised learning) algoritmus, amely azt a célt szolgálja, hogy egy adathalmazt K darab, egymástól jól elkülöníthető csoportba (klaszterbe) soroljon. Az algoritmus egyszerű és hatékony, és széles körben használják adatbányászatban, mintázatfelismerésben, képfeldolgozásban és piackutatásban.

🧠 1. Alapötlet

Az algoritmus úgy rendezi a pontokat, hogy minden pont ahhoz a klaszterhez tartozzon, amelynek középpontja (centroidja) a legközelebb van.

🔁 2. Működés lépései

Válaszd ki K értékét – azaz hány klasztert keresel
Inicializáld K darab klaszterközéppontot (pl. véletlenszerűen)
Hozzárendelés – minden adatpontot rendelj ahhoz a klaszterhez, amelynek centroidja a legközelebb van
Centroid-frissítés – számítsd ki minden klaszter új középpontját az adott csoportba tartozó pontok átlaga alapján
Ismétlés, amíg a klaszterközéppontok nem változnak jelentősen (konvergencia)

📐 3. Matematikai célfüggvény

A k-means algoritmus az alábbi inercia (SSE) függvényt minimalizálja:

$J=\sum _{i=1}^{k}\sum _{x_{j}\in C_{i}}||x_{j}-\mu _{i}||^{2}$

Ahol:

${\textstyle k}$ : klaszterek száma
${\textstyle C_{i}}$ : i-edik klaszter
${\textstyle \mu _{i}}$ : i-edik klaszter centroidja
${\textstyle x_{j}}$ : adatpont
${\textstyle ||\cdot ||}$ : Euklideszi távolság

📊 4. Példa (2D)

Képzeld el, hogy pontokat ábrázolsz egy 2D-s síkon (pl. vásárlók vásárlási szokásai alapján). A k-means algoritmus csoportokat hoz létre úgy, hogy minden pont a legközelebbi klaszterközépponthoz tartozzon, és az átfedés minimális legyen.

⚠️ 5. Hátrányok és kihívások

❌ Érzékeny:

K értékére (előre meg kell adni)
Kezdeti pontokra (lokális minimumokba eshet)
Nem gömb alakú klasztereknél vagy különböző méretű/sűrűségű csoportoknál rosszul működhet

🧪 6. Előnyök

✅ Gyors, egyszerű ✅ Könnyen implementálható ✅ Hatékony nagy adathalmazok esetén ✅ Jó kiindulási algoritmus klaszterezési problémákra

🛠️ 7. Python példa (scikit-learn)

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# Mesterséges adatok generálása
X, y = make_blobs(n_samples=300, centers=3, random_state=42)

# K-means modell tanítása
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_

# Ábrázolás
plt.scatter(X, X, c=labels, cmap='viridis')
plt.scatter(kmeans.cluster_centers_, kmeans.cluster_centers_, color='red', marker='x')
plt.title("K-means klaszterezés")
plt.show()

❓ 8. Hogyan válasszuk meg a K értéket?

Elbow-módszer:

Ábrázoljuk az SSE-t (inercia) különböző K értékekre
Ahol az “elbow” (könyök) van, ott van az optimális K

Silhouette-score:

Méri, hogy mennyire jól illeszkednek a pontok a klasztereikbe

📚 9. Összefoglalás

A k-means clustering:

Egy felügyelet nélküli gépi tanulási algoritmus, amely K darab csoportot keres az adatokban
Gyors és hatékony, de érzékeny a beállításokra és az adatok eloszlására
Széles körben használják piackutatásban, képfeldolgozásban, ügyfélszegmentálásban, bioinformatikában

További információk

k-means clustering - Szótár.net (en-hu)
k-means clustering - Sztaki (en-hu)
k-means clustering - Merriam–Webster
k-means clustering - Cambridge
k-means clustering - WordNet
k-means clustering - Яндекс (en-ru)
k-means clustering - Google (en-hu)
k-means clustering - Wikidata
k-means clustering - Wikipédia (angol)

k-means clustering

Angol

Főnév

🧠 1. Alapötlet

🔁 2. Működés lépései

📐 3. Matematikai célfüggvény

📊 4. Példa (2D)

⚠️ 5. Hátrányok és kihívások

❌ Érzékeny:

🧪 6. Előnyök

🛠️ 7. Python példa (scikit-learn)

❓ 8. Hogyan válasszuk meg a K értéket?

Elbow-módszer:

Silhouette-score:

📚 9. Összefoglalás

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot