part of a series on |
artificial intelligence (ai) |
---|
![]() |
computer vision (tsz. computer visions)
A computer vision, magyarul számítógépes látás, a mesterséges intelligencia egyik ága, amelynek célja, hogy a gépek értelmezni tudják a vizuális világot – azaz képekből, videókból vagy élő kameraképekből információt nyerjenek ki, hasonlóan ahhoz, ahogyan az emberi látás működik.
Ez nem csupán „képfeldolgozás”, hanem magas szintű értelmezés: például mi van a képen, hol található, mit csinál, stb.
Feladat | Leírás |
---|---|
Képklasszifikáció | Melyik kategóriába tartozik a kép? (pl. macska vagy kutya) |
Objektumdetektálás | Mi van a képen, és hol? (pl. autó és hol található a képen) |
Szegmentálás | Melyik képpont melyik objektumhoz tartozik? (pixel-pontos lehatárolás) |
Pózbecslés | Emberi test (csontváz) helyzete a képen |
Arcfelismerés | Kinek az arca szerepel a képen? |
OCR (optikai karakterfelismerés) | Szöveg kiolvasása képből |
3D rekonstrukció | Képek alapján 3D modell létrehozása |
Mozgáskövetés | Objektum követése több képkockán keresztül |
Terület | Alkalmazás |
---|---|
Ipari automatizálás | Minőségellenőrzés, robotvezérlés |
Egészségügy | Röntgen, MRI, CT képek automatikus értelmezése |
Autonóm járművek | Útjelzések, gyalogosok, járművek észlelése |
Közbiztonság | Tömegfigyelés, rendszámfelismerés |
Kiskereskedelem | Polcfelismerés, vásárlói viselkedés elemzése |
AR/VR | Térbeli jelenetek elemzése valós időben |
Mezőgazdaság | Beteg növények azonosítása, hozambecslés |
Sportelemzés | Játékosok, labda, mozgáskövetés videóból |
A konvolúciós neurális hálók (CNN) különösen hatékonyak képek feldolgozására:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
model = Sequential([
Conv2D(32, kernel_size=3, activation='relu', input_shape=(64, 64, 3)),
MaxPooling2D(pool_size=2),
Flatten(),
Dense(64, activation='relu'),
Dense(1, activation='sigmoid') # bináris osztályozás
])
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=)
Név | Cél |
---|---|
OpenCV | Klasszikus képfeldolgozás |
TensorFlow, PyTorch | Mélytanulás modellek |
Detectron2 | Objektumdetektálás és szegmentálás |
YOLO | Valós idejű objektumfelismerés |
MediaPipe | Arckövetés, kézmozgás, pózbecslés |
Tesseract | OCR (szövegfelismerés képből) |
Feladat | Metrika |
---|---|
Képklasszifikáció | Accuracy, top-k accuracy |
Objektumdetektálás | mAP (mean average precision) |
Szegmentálás | IoU (Intersection over Union), Dice score |
OCR | Karakter / szó hibaarány (CER, WER) |
Probléma | Magyarázat |
---|---|
Adatéhség | Nagyon sok címkézett kép kell a tanításhoz |
Számításigény | GPU szükséges a mély modellekhez |
Általánosítás | Egy új kamera, fényviszony már tönkreteheti a modellt |
Etikai kérdések | Arcazonosítás, adatvédelem, diszkrimináció veszélye |
Valós idejű követelmények | Nagy sebesség, kis késleltetés |
Tulajdonság | Leírás |
---|---|
Definíció | Képekből és videóból történő automatikus információkinyerés |
Cél | Felismerés, követés, elemzés, vezérlés |
Fő technikák | Klasszikus képfeldolgozás, gépi tanulás, CNN |
Alkalmazások | Orvosi képalkotás, önvezetés, gyártás, biztonság |
Eszközök | OpenCV, TensorFlow, YOLO, MediaPipe |
Előnyök | Automatikus értelmezés, sok területre alkalmazható |
Hátrányok | Adatigényes, számításigényes, érzékeny a változásokra |