szó jelentését keresi. A DICTIOUS-ban nem csak a
szó összes szótári jelentését megtalálod, hanem megismerheted az etimológiáját, a jellemzőit és azt is, hogyan kell a
szót egyes és többes számban mondani. Minden, amit a
szóról tudni kell, itt található. A
szó meghatározása segít abban, hogy pontosabban és helyesebben fogalmazz, amikor beszélsz vagy írsz. A
és más szavak definíciójának ismerete gazdagítja a szókincsedet, és több és jobb nyelvi forráshoz juttat.
Főnév
data mining (tsz. data minings)
- (informatika, mesterséges intelligencia) adatbányászat
Az adatbányászat (angolul data mining) az a folyamat, amely során nagy adathalmazokból automatikusan vagy félautomatikusan hasznos mintákat, szabályszerűségeket, trendeket és ismereteket tárunk fel. Az adatbányászat az adatokból történő tudásfelfedezés (KDD – Knowledge Discovery in Databases) folyamatának egyik lépése, és kulcsfontosságú a modern döntéstámogatás, üzleti intelligencia, mesterséges intelligencia és statisztika területén.
1. Mi az adatbányászat célja?
Az adatbányászat célja olyan rejtett összefüggések megtalálása, amelyek nem nyilvánvalóak még akkor sem, ha az adat halmaz könnyen elérhető. A módszer lényege, hogy a meglévő, gyakran strukturált (pl. adatbázisban) vagy strukturálatlan (pl. szövegek, logok) adatokból olyan mintákat és modelleket hozzunk létre, amelyek segítenek jóslatok, döntések, vagy folyamatoptimalizálás kialakításában.
2. Az adatbányászat fő lépései
Az adatbányászat általában a következő lépésekből áll:
- Adatelőkészítés (preprocessing):
- Hiányzó adatok kezelése
- Zaj kiszűrése
- Normalizálás, skálázás
- Releváns attribútumok kiválasztása
- Adattárház és adatok integrációja:
- Több forrásból származó adatok integrálása (pl. CRM, ERP)
- Adatbázisok, logfájlok, webes adatok egyesítése
- Adatbányászati algoritmus kiválasztása és futtatása:
- A célhoz leginkább illeszkedő módszer kiválasztása (pl. klaszterezés, döntési fa)
- Eredmények értelmezése és kiértékelése:
- Modell pontosságának mérése
- Felhasználhatóság vizsgálata üzleti célokra
- Tudás beépítése:
- A nyert ismeretek gyakorlati alkalmazása (pl. marketingkampány optimalizálása)
3. Főbb adatbányászati módszerek
a) Osztályozás (Classification)
Felcímkézett adatok alapján egy modellt tanítunk, amely új példák osztályozására képes. Pl. e-mail → spam / nem spam.
- Gyakori algoritmusok: döntési fák (C4.5, CART), Naive Bayes, kNN, SVM, neurális hálózatok
b) Klaszterezés (Clustering)
Olyan technika, amely címkézetlen adatokat csoportosít úgy, hogy a csoporton belüli elemek hasonlók legyenek. Például vásárlók szegmentálása viselkedés alapján.
- Gyakori algoritmusok: k-means, hierarchikus klaszterezés, DBSCAN
c) Asszociációs szabályok (Association Rule Learning)
Olyan szabályokat keres, mint pl. „ha valaki tejet vesz, akkor valószínűleg kenyeret is vesz”.
- Ismert algoritmus: Apriori, FP-growth
- Pl. {tej, tojás} → {kenyér}
d) Regresszió (Regression)
Számszerű értékek előrejelzésére szolgál. Például: „Mi lesz a jövőbeli árbevétel?”
- Lineáris, logisztikus regresszió, döntési fa regresszió
e) Anomália detektálás (Anomaly Detection)
Rendellenes minták észlelése. Pl. csaláskeresés banki tranzakciókban.
f) Idősor-elemzés (Time-series analysis)
Időben változó adatok vizsgálata és előrejelzése. Pl. készletkezelés, árfolyamelemzés.
4. Alkalmazási területek
● Üzleti élet
- Vásárlói viselkedés elemzése
- Kosárelemzés
- Csalásfelderítés
- Hűségprogramok optimalizálása
● Egészségügy
- Diagnosztikai döntéstámogatás
- Betegség előrejelzése
- Gyógyszerhatás-elemzés
● Pénzügy
- Hitelképesség becslése
- Kockázatelemzés
- Pénzmosás azonosítása
● Webes alkalmazások
- Ajánlórendszerek (Netflix, YouTube)
- Keresőoptimalizálás
- Weblog elemzés
● Tudomány és kutatás
- Genomikai adatok klaszterezése
- Kísérleti eredmények automatizált elemzése
5. Adatbányászati eszközök és szoftverek
- Weka: oktatási célokra kiváló Java-alapú keretrendszer
- RapidMiner: vizuális adatbányászati környezet
- KNIME: nyílt forráskódú, moduláris adatelemző platform
- R és Python könyvtárak:
scikit-learn
, pandas
, mlr
, caret
, XGBoost
, TensorFlow
- SQL + OLAP rendszerek: lekérdezés és multidimenzionális elemzés
6. Kapcsolódó területek
● Gépi tanulás (Machine Learning)
Az adatbányászat egyik motorja – felügyelt és felügyelet nélküli tanulási algoritmusokat használ.
● Statisztika
Az adatok jellemzésében és modellek validálásában kulcsfontosságú.
● Big Data
Az adatbányászat skálázhatóvá tétele hatalmas adathalmazokon (Hadoop, Spark).
● Mesterséges intelligencia
Önfejlesztő rendszerek tanítása adatbányászati eszközökkel.
7. Etikai kérdések és adatvédelem
Az adatbányászat során fontos kérdés az adatbiztonság és a GDPR szerinti megfelelés. Nem minden információ „bányászható ki” anélkül, hogy megsértenénk a felhasználók jogait. Példák:
- Arcfelismerés etikai problémái
- Egészségügyi adatok anonimizálása
- Hozzájárulás nélküli adatelemzés problémái
8. Kihívások és jövőbeli irányok
- Adatminőség: zajos, hiányos vagy irreleváns adatok nehezítik a modellek működését.
- Skálázhatóság: az adatbányászati algoritmusokat folyamatosan fejleszteni kell a Big Data világában.
- Valós idejű adatfeldolgozás: streaming rendszerek (pl. Apache Kafka) integrációja az új trend.
- AutoML: automatikus modellkiválasztás és optimalizálás gépi tanulással.
Összefoglalás
Az adatbányászat a modern adatalapú döntéshozatal egyik alappillére, amely ötvözi a statisztikát, mesterséges intelligenciát és számítástechnikát. Segítségével a nyers adatokat hasznos tudássá alakítjuk. Legyen szó vásárlási szokások elemzéséről, betegségek előrejelzéséről vagy pénzügyi visszaélések felderítéséről, az adatbányászat hatékony eszközt kínál az információs társadalom számára.