transformer architecture

Üdvözlöm, Ön a transformer architecture szó jelentését keresi. A DICTIOUS-ban nem csak a transformer architecture szó összes szótári jelentését megtalálod, hanem megismerheted az etimológiáját, a jellemzőit és azt is, hogyan kell a transformer architecture szót egyes és többes számban mondani. Minden, amit a transformer architecture szóról tudni kell, itt található. A transformer architecture szó meghatározása segít abban, hogy pontosabban és helyesebben fogalmazz, amikor beszélsz vagy írsz. Atransformer architecture és más szavak definíciójának ismerete gazdagítja a szókincsedet, és több és jobb nyelvi forráshoz juttat.

Főnév

transformer architecture (tsz. transformer architectures)

  1. (informatika) A Transformer egy mesterséges neurális hálózati architektúra, amelyet 2017-ben mutattak be a híres “Attention is All You Need” című tanulmányban. Ez azóta a gépi tanulás, különösen a természetes nyelvfeldolgozás (NLP) egyik legfontosabb alapköve lett – minden modern nagy nyelvi modell (GPT, BERT, T5, stb.) alapját képezi.

Fő újítása: teljesen elhagyja a visszacsatolásos (RNN) és konvolúciós (CNN) elemeket, és helyettük önfigyelésen (self-attention) alapul.



📦 Miért fontos?

  • Párhuzamosítható: az RNN-ekkel ellentétben egyszerre képes teljes mondatokkal dolgozni.
  • Skálázható: hatékonyan tanítható nagy adathalmazon, sok réteggel.
  • Általános: nem csak nyelvre, hanem képre, hangra, kódra is alkalmazható.



🧱 Fő építőelemei

A Transformer két fő komponensből áll:

  1. Encoder (kódoló) – beolvassa és értelmezi a bemenetet
  2. Decoder (dekódoló) – előállítja a kimenetet

GPT-szerű modellek csak decoder részt használják (unidirekcionális), míg BERT-szerű modellek csak encoder részt (bidirekcionális).


🧠 Bemenetfeldolgozás

1. Tokenizálás

A szöveg darabolása tokenekre (szavak, szórészek). Példa: "ChatGPT is smart"

2. Embedding

A tokenekből vektorokat csinál (pl. 768 dimenzió).

3. Positional Encoding

Mivel nincs RNN, a sorrendet külön pozíciós vektorokkal adja hozzá:



✨ A self-attention mechanizmus

A Transformer self-attention (önfigyelés) mechanizmusa teszi lehetővé, hogy a modell minden bemeneti tokenre figyeljen, függetlenül attól, hol helyezkedik el a mondatban.

Self-Attention működése:

Minden tokenből 3 vektor képződik:

  • Q = query (kérdés)
  • K = key (kulcs)
  • V = value (érték)

A token figyelmét más tokenekre így számítja:



🔄 Több figyelem: Multi-Head Attention

Nem csak egy figyelmet számolnak, hanem több figyelmi fejet (head) párhuzamosan:

  • Jobb reprezentációt ad: különböző aspektusokat „figyelnek” (pl. nyelvtan, jelentés)
  • Ezeket utána összefűzik és egy lineáris réteg követi



📐 Az encoder blokk

Egy encoder blokk jellemző felépítése:


   ↓

   ↓ (residual + norm)

   ↓ (residual + norm)

Ebből egymásra építenek többet (pl. 6, 12 vagy 96 réteg is lehet).



📐 A decoder blokk

Dekóderben hasonló a felépítés, de:

  • Van benne self-attention (előző kimenetre)
  • Van benne cross-attention (figyelem az encoder kimenetére)
  • Képes autoregresszíven tokenenként generálni szöveget



🧪 Teljes pipeline példa (szövegfordítás)

  1. Bemenet: "Hello, how are you?"
  2. Tokenizálás + embedding + positional encoding
  3. Encoder feldolgozza a bemenetet → kódolt reprezentáció
  4. Decoder: a kódolt vektorokat és korábbi kimeneteket figyelembe véve generál új tokeneket
  5. Kimenet: "Bonjour, comment ça va ?"



📚 Transformer-alapú modellek

Modell Leírás
GPT Csak decoder, szöveg generálás
BERT Csak encoder, szövegértés, osztályozás
T5 Encoder-decoder, kérdés-válasz, fordítás
Vision Transformer (ViT) Képosztályozásra átdolgozva
CodeBERT / StarCoder Kódalapú transformer-modellek



✅ Előnyök

  • 🔁 Nincs visszacsatolás: teljes bemenetre képes figyelni
  • Párhuzamos végrehajtás: gyorsabb tanítás, mint RNN
  • 📐 Skálázhatóság: több milliárd paraméter is lehetséges
  • 🔀 Általánosítható: bármilyen szekvenciális adatra



⚠️ Hátrányok

  • 🧠 Nagy számításigény: GPU és sok memória szükséges
  • 🧱 Pozíciós információ nem tanulható (de alternatívák vannak)
  • 🧮 Kvadratikus időbonyolultság: O(n²) a self-attention miatt



🔧 Egyszerű Transformer kódvázlat (PyTorch)

import torch.nn as nn

model = nn.Transformer(
    d_model=512,
    nhead=8,
    num_encoder_layers=6,
    num_decoder_layers=6,
    dim_feedforward=2048
)

🧾 Összefoglalás

Fogalom Leírás
Transformer Neurális hálózat architektúra, amely csak figyelmet használ
Alapmechanizmus Self-attention + positional encoding + feed-forward
Alkalmazás NLP, képfeldolgozás, kódgenerálás, zene
Modellek GPT, BERT, T5, ViT, CodeBERT
Előnye Párhuzamosítható, rugalmas, nagy teljesítmény
Hátránya Magas erőforrásigény, kvadratikus skálázás