OpenAI Whisper

Üdvözlöm, Ön a OpenAI Whisper szó jelentését keresi. A DICTIOUS-ban nem csak a OpenAI Whisper szó összes szótári jelentését megtalálod, hanem megismerheted az etimológiáját, a jellemzőit és azt is, hogyan kell a OpenAI Whisper szót egyes és többes számban mondani. Minden, amit a OpenAI Whisper szóról tudni kell, itt található. A OpenAI Whisper szó meghatározása segít abban, hogy pontosabban és helyesebben fogalmazz, amikor beszélsz vagy írsz. AOpenAI Whisper és más szavak definíciójának ismerete gazdagítja a szókincsedet, és több és jobb nyelvi forráshoz juttat.

Főnév

OpenAI Whisper (tsz. OpenAI Whispers)

  1. (informatika)

Az OpenAI Whisper egy nyílt forráskódú, automatizált beszédfelismerő (ASR - Automatic Speech Recognition) modell, amelyet az OpenAI fejlesztett. Az alábbiakban bemutatom részletesen a modellt, funkcióit, működését és használatát, valamint egy egyszerű Python példát adok hozzá.



1. Mi az OpenAI Whisper?

Az OpenAI Whisper egy mélytanulási alapú beszédfelismerő modell, amely képes különféle nyelveken szöveggé alakítani hangfájlokat. Támogatja az automatikus nyelvfelismerést, fordítást és feliratozást is.



2. Főbb képességei

  • Többnyelvű támogatás: A modell több mint 90 nyelvet ismer.
  • Automatikus nyelvfelismerés: Nem szükséges előre megadni a hanganyag nyelvét.
  • Feliratozás: Használható videók és hanganyagok feliratozására.
  • Fordítás: Lehetőség van nem angol szövegek angolra fordítására.
  • Robusztus zajos adatokkal szemben: A modell jól teljesít háttérzaj jelenlétében is.
  • Különböző méretek: A Whisper elérhető 5 méretben: tiny, base, small, medium, és large.



3. Működése

A Whisper egy Transformer-alapú modell, amelyet nagy mennyiségű hangadat segítségével tanítottak. A tréning során a modell:

  • Különböző nyelvű szövegeket és szintetikus adathalmazokat használt.
  • Nemcsak a beszédfelismerésre, hanem a háttérzajokkal és kihagyásokkal való megbirkózásra is optimalizálták.

A működési elv:

  1. A hangadatokat bemeneti spektrumokká alakítják.
  2. Az encoder feldolgozza a hanginformációt.
  3. A decoder generálja a megfelelő szöveget a feldolgozott adatokból.



4. Telepítés

A Whisper használatához a következő lépéseket kell követni Python környezetben:

Szükséges csomagok telepítése

Először telepítsd a openai-whisper csomagot és a függőségeit:

pip install -U openai-whisper
pip install ffmpeg-python

Az ffmpeg csomag a hangfájlok feldolgozásához szükséges. Ha nincs telepítve, letölthető a hivatalos FFmpeg oldalról.


5. Egyszerű Python példa

Az alábbi kód bemutatja, hogyan lehet a Whisper segítségével egy hangfájlból szöveget generálni.

import whisper

# Modell betöltése
model = whisper.load_model("base")

# Hangfájl elemzése
result = model.transcribe("minta_hang.mp3")

# Felismert szöveg kiírása
print("Felismert szöveg:", result)

Magyarázat:

  1. Modell betöltése: Az whisper.load_model() segítségével betöltjük a kiválasztott modellt (tiny, base, small, stb.).
  2. Hangfájl elemzése: A transcribe() metódus elemzi a megadott fájlt és visszaadja a felismert szöveget.
  3. Szöveg kiírása: Az eredményt a result szótár tartalmazza, amelyből a "text" kulcs alatt találjuk a szöveget.



6. További beállítások

A transcribe() függvény különböző beállításokat támogat:

result = model.transcribe(
    "minta_hang.mp3",
    language="hu",  # Magyar nyelv megadása
    verbose=True,   # Részletes információk megjelenítése
    task="translate" # Fordítás angolra
)
  • language: Nyelv manuális megadása (pl.: "hu" magyar nyelv esetén).
  • verbose: Ha True, részletes információkat ír ki a futtatás során.
  • task: Feladat típusának megadása:
    • "transcribe": Szöveggé alakítás (alapértelmezett).
    • "translate": Nem angol nyelvek fordítása angolra.



7. Kimeneti formátum

A transcribe() metódus eredménye egy szótár, amely az alábbi kulcsokat tartalmazza:

{
  "text": "Felismert szöveg...",
  "segments": [
      {"start": 0.0, "end": 5.0, "text": "Első részlet..."},
      {"start": 5.1, "end": 10.0, "text": "Második részlet..."}
  ],
  "language": "hu"
}

8. Modellméretek és erőforrásigény

A Whisper modellek különböző méretekben érhetők el. A választás függ az erőforrásoktól (CPU/GPU) és a sebesség-pontosság igénytől:

Méret Sebesség GPU memória Pontosság
Tiny Nagyon gyors ~1 GB Alacsony
Base Gyors ~1.5 GB Közepes
Small Lassabb ~2.5 GB
Medium Lassú ~5 GB Nagyon jó
Large Leglassabb ~10 GB Kiváló

A large modell a legjobb pontosságot kínálja, de jelentős erőforrásokat igényel.


9. Alkalmazási lehetőségek

  1. Automatikus feliratozás YouTube videókhoz vagy podcastokhoz.
  2. Beszédfelismerés telefonos ügyfélszolgálatoknál.
  3. Nyelvi elemzés kutatási célokra.
  4. Fordítás többnyelvű hanganyagok esetén.



10. Összegzés

Az OpenAI Whisper egy sokoldalú, pontos és robusztus beszédfelismerő modell, amely könnyen integrálható különböző alkalmazásokba. Pythonban néhány sor kóddal használható, és támogatja a magyar nyelvet is.