Markov decision process

Angol

Főnév

Markov decision process (tsz. Markov decision processes)

(informatika, mesterséges intelligencia) Markov-döntési folyamat

A Markov Decision Process (MDP) egy matematikai modell, amelyet az optimális döntéshozatal leírására használnak olyan rendszerekben, ahol a következő állapot a jelenlegi állapottól és a meghozott döntéstől (akciótól) függ, és ez a változás bizonytalan („statisztikus”). Az MDP-k alkalmazási területei közé tartozik a robotika, az automatikus vezérlés, a pénzügyi döntések, a játékelmélet és a mesterséges intelligencia egyaránt.

1. Az MDP elemei

Egy MDP-t négyes számpárként szokás definiálni:

$({\mathcal {S}},{\mathcal {A}},P,R,\gamma ),$

ahol

Állapotok ( ${\textstyle {\mathcal {S}}}$ ) A rendszer lehetséges „helyzeteinek” halmaza. Például egy robot pozíciói egy rácson, vagy egy befektetési portfólió különböző állapotai.
Akciók ( ${\textstyle {\mathcal {A}}}$ ) Minden állapotban elérhető döntések („lépések”) halmaza. Ez lehet diszkrét (pl. „fel”, „le”, „balra”, „jobbra”) vagy folytonos (pl. kormánykerék elfordításának mértéke).
Átmeneti valószínűségek ( ${\textstyle P}$ )

$P(s'\mid s,a)$

Az a valószínűség, hogy az aktuális állapot ${\textstyle s\in {\mathcal {S}}}$ és az ott választott akció ${\textstyle a\in {\mathcal {A}}}$ hatására a következő időlépésben ${\textstyle s'\in {\mathcal {S}}}$ állapotba kerülünk.
Jutalmak ( ${\textstyle R}$ )

$R(s,a,s')$

Az a valós érték, amit a döntéshozó az ${\textstyle s}$ állapotban ${\textstyle a}$ akció végrehajtása és ${\textstyle s'}$ állapotba jutás közben kap. Gyakran egyszerűsít az ${\textstyle R(s,a)}$ vagy akár ${\textstyle R(s)}$ formára, ha a jutalom csak a jelenlegi állapottól és/vagy akciótól függ.
Diszkontfaktor ( ${\textstyle \gamma }$ ) Egy ${\textstyle 0\leq \gamma <1}$ valós szám, ami a jövőbeni jutalmak jelenértékét adja meg. A teljes jövőbeni haszon:

$G_{t}=\sum _{k=0}^{\infty }\gamma ^{k}\,R_{t+k+1}.$

Ha ${\textstyle \gamma }$ közelebb van 1-hez, a hosszú távú jutalmak is erősen számítanak; ha közelebb 0-hoz, a stratégia inkább rövidtávra fókuszál.

2. Politika és értékfüggvények

2.1 Politika ( ${\textstyle \pi }$ )

A politika egy leképezés, ami megadja, hogyan választunk akciót minden állapotban.

Determinista politika: ${\textstyle \pi (s)=a}$ .
Vegyes (stochastic) politika: ${\textstyle \pi (a\mid s)=P(a\mid s)}$ , azaz adott állapotban az akciókat valószínűségi eloszlás szerint választjuk.

2.2 Értékfüggvények

Az optimális politika megtalálásához először definiáljuk az értékfüggvényeket:

State-value function

$V^{\pi }(s)=\mathbb {E} _{\pi }{\Bigl }.$

Megadja az ${\textstyle s}$ állapotból indulva a politika követése esetén várt (diszkontált) összjutalmat.
Action-value function

$Q^{\pi }(s,a)=\mathbb {E} _{\pi }{\Bigl }.$

Megadja, ha az ${\textstyle s}$ állapotban ${\textstyle a}$ akciót választunk, majd utána a politikát követjük, milyen várt jutalomra számíthatunk.

3. Bellman-egyenletek

Az értékfüggvényekre teljesülnek a Bellman-rekurziók, amelyek az MDP optimális megoldásának alapját képezik:

Bellman-egyenlet politikára

$V^{\pi }(s)=\sum _{a}\pi (a\mid s)\sum _{s'}P(s'\!\mid s,a){\bigl }.$
Bellman-egyenlet optimális értékfüggvényre

$V^{*}(s)=\max _{a}\sum _{s'}P(s'\!\mid s,a){\bigl }.$

Ennek hasonló párja ${\textstyle Q^{*}(s,a)}$ -ra:

$Q^{*}(s,a)=\sum _{s'}P(s'\!\mid s,a){\bigl }.$

Az optimális politika ${\textstyle \pi ^{*}}$ pedig:

$\pi ^{*}(s)=\arg \max _{a}Q^{*}(s,a).$

4. Megoldási módszerek

4.1 Értékiteráció (Value Iteration)

Lépés: minden állapotra ismételten alkalmazzuk a Bellman-optimális frissítést:

$V_{k+1}(s)\leftarrow \max _{a}\sum _{s'}P(s'\!\mid s,a){\bigl }.$
Konvergencia: ${\textstyle V_{k}}$ konvergens ${\textstyle V^{*}}$ -hez, ezután ${\textstyle \pi ^{*}(s)=\arg \max _{a}\!\sum _{s'}}$ .

4.2 Politikaiteráció (Policy Iteration)

Politikaértékelés: egy aktuális ${\textstyle \pi }$ esetén oldjuk meg lineáris egyenletrendszerrel a Bellman-egyenleteket ${\textstyle V^{\pi }}$ -re.
Politikaváltás: új, javított politikát építünk: ${\textstyle \pi _{\text{new}}(s)=\arg \max _{a}\sum _{s'}P(s'\!\mid s,a)}$ .
Ismétlés, amíg a politika nem változik.

4.3 Modellmentes megközelítések

Ha nem ismerjük ${\textstyle P}$ -t és ${\textstyle R}$ -et explicit módon, élő interakció során tanulhatunk:

Q‐learning:

$Q(s,a)\leftarrow Q(s,a)+\alpha {\bigl }.$
SARSA (on‐policy tanulás):

$Q(s,a)\leftarrow Q(s,a)+\alpha {\bigl }.$

5. Egyszerű példa: Rács-világ (Grid World)

Egy ${\textstyle 4\times 4}$ rácson a kezdőpont bal felső, a cél jobb alsó sarok.
Akciók: fel, le, balra, jobbra.
Kimeneti jutalom: minden lépés −1, cél elérésekor +10.
Diszkontfaktor: ${\textstyle \gamma =0.9}$ .

Érték‐ vagy politikaiterációval kiszámíthatjuk a cellánkénti ${\textstyle V^{*}}$ értékeket, majd ebből a legjobb útvonalat (policy) követve a legrövidebb, legkevesebb büntetőpontot eredményező útba jutunk a célhoz.

6. Alkalmazások és kiterjesztések

Robotika és vezérlés – Autonóm járművek útvonaltervezése, manipulátorok mozgásának optimalizálása.
Játékok és szimuláció – Sakk- és Go‐játszók, bármilyen szimulált környezetben való stratégiatanulás.
Pénzügyi döntések – Portfólió‐rebalance, opcióárazás, kockázatkezelés.
ellátási lánc – Készletszint‐kezelés, rendelési döntések dinamikus kereslet mellett.

Kiterjesztések

Partially Observable MDP (POMDP): részlegesen megfigyelhető állapotok, belső meggyőződés (belief state) használatával.
Hierarchikus MDP: több szintű feladatokra komponálható döntési folyamatok.
Multi‐agent MDP (Markov Game): több döntéshozó, játék‐elméleti kiterjesztés.

7. Összefoglalás

A Markov Decision Process keretet ad a sorozatos döntések optimalizálásához bizonytalan környezetben. Megadja, hogyan lehet formálisan meghatározni az állapotokat, akciókat, átmeneti valószínűségeket és jutalmakat, majd Bellman-egyenletek és iteratív algoritmusok (érték‐, politikaiteráció) segítségével kiszámítani a legjobb stratégiát. Modell‐mentes módszerekkel, mint a Q‐learning, pedig akkor is tanulhatunk jó politikát, ha a környezet paraméterei ismeretlenek. Az MDP-k és azok kiterjesztései alapvető eszközei a mesterséges intelligencia, automatizálás és optimalizáció modern alkalmazásainak.

További információk

Markov decision process - Szótár.net (en-hu)
Markov decision process - Sztaki (en-hu)
Markov decision process - Merriam–Webster
Markov decision process - Cambridge
Markov decision process - WordNet
Markov decision process - Яндекс (en-ru)
Markov decision process - Google (en-hu)
Markov decision process - Wikidata
Markov decision process - Wikipédia (angol)

Markov decision process

Angol

Főnév

1. Az MDP elemei

2. Politika és értékfüggvények

2.1 Politika ( ${\textstyle \pi }$ )

2.2 Értékfüggvények

3. Bellman-egyenletek

4. Megoldási módszerek

4.1 Értékiteráció (Value Iteration)

4.2 Politikaiteráció (Policy Iteration)

4.3 Modellmentes megközelítések

5. Egyszerű példa: Rács-világ (Grid World)

6. Alkalmazások és kiterjesztések

7. Összefoglalás

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot

Angol

Főnév

1. Az MDP elemei

2. Politika és értékfüggvények

2.1 Politika ( π {\textstyle \pi } )

2.2 Értékfüggvények

3. Bellman-egyenletek

4. Megoldási módszerek

4.1 Értékiteráció (Value Iteration)

4.2 Politikaiteráció (Policy Iteration)

4.3 Modell­mentes megközelítések

5. Egyszerű példa: Rács-világ (Grid World)

6. Alkalmazások és kiterjesztések

7. Összefoglalás

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot

2.1 Politika ( ${\textstyle \pi }$ )

4.3 Modellmentes megközelítések