szó jelentését keresi. A DICTIOUS-ban nem csak a
szó összes szótári jelentését megtalálod, hanem megismerheted az etimológiáját, a jellemzőit és azt is, hogyan kell a
szót egyes és többes számban mondani. Minden, amit a
szóról tudni kell, itt található. A
szó meghatározása segít abban, hogy pontosabban és helyesebben fogalmazz, amikor beszélsz vagy írsz. A
és más szavak definíciójának ismerete gazdagítja a szókincsedet, és több és jobb nyelvi forráshoz juttat.
Főnév
Markov decision process (tsz. Markov decision processes)
- (informatika, mesterséges intelligencia) Markov-döntési folyamat
A Markov Decision Process (MDP) egy matematikai modell, amelyet az optimális döntéshozatal leírására használnak olyan rendszerekben, ahol a következő állapot a jelenlegi állapottól és a meghozott döntéstől (akciótól) függ, és ez a változás bizonytalan („statisztikus”). Az MDP-k alkalmazási területei közé tartozik a robotika, az automatikus vezérlés, a pénzügyi döntések, a játékelmélet és a mesterséges intelligencia egyaránt.
1. Az MDP elemei
Egy MDP-t négyes számpárként szokás definiálni:
ahol
Állapotok (
) A rendszer lehetséges „helyzeteinek” halmaza. Például egy robot pozíciói egy rácson, vagy egy befektetési portfólió különböző állapotai.
Akciók (
) Minden állapotban elérhető döntések („lépések”) halmaza. Ez lehet diszkrét (pl. „fel”, „le”, „balra”, „jobbra”) vagy folytonos (pl. kormánykerék elfordításának mértéke).
Átmeneti valószínűségek (
)

Az a valószínűség, hogy az aktuális állapot
és az ott választott akció
hatására a következő időlépésben
állapotba kerülünk.
Jutalmak (
)

Az a valós érték, amit a döntéshozó az
állapotban
akció végrehajtása és
állapotba jutás közben kap. Gyakran egyszerűsít az
vagy akár
formára, ha a jutalom csak a jelenlegi állapottól és/vagy akciótól függ.
Diszkontfaktor (
) Egy
valós szám, ami a jövőbeni jutalmak jelenértékét adja meg. A teljes jövőbeni haszon:

Ha
közelebb van 1-hez, a hosszú távú jutalmak is erősen számítanak; ha közelebb 0-hoz, a stratégia inkább rövidtávra fókuszál.
2. Politika és értékfüggvények
2.1 Politika (
)
A politika egy leképezés, ami megadja, hogyan választunk akciót minden állapotban.
- Determinista politika:
.
- Vegyes (stochastic) politika:
, azaz adott állapotban az akciókat valószínűségi eloszlás szerint választjuk.
2.2 Értékfüggvények
Az optimális politika megtalálásához először definiáljuk az értékfüggvényeket:
State-value function

Megadja az
állapotból indulva a politika követése esetén várt (diszkontált) összjutalmat.
Action-value function

Megadja, ha az
állapotban
akciót választunk, majd utána a politikát követjük, milyen várt jutalomra számíthatunk.
3. Bellman-egyenletek
Az értékfüggvényekre teljesülnek a Bellman-rekurziók, amelyek az MDP optimális megoldásának alapját képezik:
Bellman-egyenlet politikára

Bellman-egyenlet optimális értékfüggvényre

Ennek hasonló párja
-ra:

Az optimális politika
pedig:
4. Megoldási módszerek
4.1 Értékiteráció (Value Iteration)
Lépés: minden állapotra ismételten alkalmazzuk a Bellman-optimális frissítést:

Konvergencia:
konvergens
-hez, ezután
.
4.2 Politikaiteráció (Policy Iteration)
- Politikaértékelés: egy aktuális
esetén oldjuk meg lineáris egyenletrendszerrel a Bellman-egyenleteket
-re.
- Politikaváltás: új, javított politikát építünk:
.
- Ismétlés, amíg a politika nem változik.
4.3 Modellmentes megközelítések
Ha nem ismerjük
-t és
-et explicit módon, élő interakció során tanulhatunk:
Q‐learning:

SARSA (on‐policy tanulás):

5. Egyszerű példa: Rács-világ (Grid World)
- Egy
rácson a kezdőpont bal felső, a cél jobb alsó sarok.
- Akciók: fel, le, balra, jobbra.
- Kimeneti jutalom: minden lépés −1, cél elérésekor +10.
- Diszkontfaktor:
.
Érték‐ vagy politikaiterációval kiszámíthatjuk a cellánkénti
értékeket, majd ebből a legjobb útvonalat (policy) követve a legrövidebb, legkevesebb büntetőpontot eredményező útba jutunk a célhoz.
6. Alkalmazások és kiterjesztések
- Robotika és vezérlés – Autonóm járművek útvonaltervezése, manipulátorok mozgásának optimalizálása.
- Játékok és szimuláció – Sakk- és Go‐játszók, bármilyen szimulált környezetben való stratégiatanulás.
- Pénzügyi döntések – Portfólió‐rebalance, opcióárazás, kockázatkezelés.
- ellátási lánc – Készletszint‐kezelés, rendelési döntések dinamikus kereslet mellett.
Kiterjesztések
- Partially Observable MDP (POMDP): részlegesen megfigyelhető állapotok, belső meggyőződés (belief state) használatával.
- Hierarchikus MDP: több szintű feladatokra komponálható döntési folyamatok.
- Multi‐agent MDP (Markov Game): több döntéshozó, játék‐elméleti kiterjesztés.
7. Összefoglalás
A Markov Decision Process keretet ad a sorozatos döntések optimalizálásához bizonytalan környezetben. Megadja, hogyan lehet formálisan meghatározni az állapotokat, akciókat, átmeneti valószínűségeket és jutalmakat, majd Bellman-egyenletek és iteratív algoritmusok (érték‐, politikaiteráció) segítségével kiszámítani a legjobb stratégiát. Modell‐mentes módszerekkel, mint a Q‐learning, pedig akkor is tanulhatunk jó politikát, ha a környezet paraméterei ismeretlenek. Az MDP-k és azok kiterjesztései alapvető eszközei a mesterséges intelligencia, automatizálás és optimalizáció modern alkalmazásainak.