stochastic dynamic programming

Angol

Főnév

stochastic dynamic programming (tsz. stochastic dynamic programmings)

(informatika) A sztochasztikus dinamikus programozás olyan matematikai-optimalizációs keretrendszer, amelyben a döntési folyamat több lépésben zajlik, a rendszer állapota pedig mind a múltbeli döntésektől, mind véletlen eseményektől függ. Ezzel ellentétben a determinisztikus dinamikus programozásnál a jövő pontosan előre jelezhető. A stochasztikus esetben viszont valószínűségi átmeneteket és várható értékeket alkalmazunk, így alkalmasunk olyan valós problémák modellezésére, ahol a bizonytalanság kulcsszerepet játszik (például készletszintek, portfóliókezelés, sorban álló rendszerek).

1. A stochasztikus dinamikus programozás alapjai

Állapotok ( ${\textstyle {\mathcal {S}}}$ ) A rendszer lehetséges konfigurációinak halmaza. Egy inventory-problémánál ez lehet a raktárkészlet szintje, pénzügyi portfólió esetén pedig a vagyontételek értéke.
Akciók ( ${\textstyle {\mathcal {A}}}$ ) Minden időpillanatban elérhető döntések, például mekkora mennyiséget rendelünk, vagy milyen arányban allokáljuk az eszközöket.
Átmeneti valószínűségek ( ${\textstyle P}$ )

$P(s'\mid s,a)$

Azt adja meg, hogy ha a jelen állapot ${\textstyle s}$ -ben az ${\textstyle a}$ akciót hajtjuk végre, a következő időpontban ${\textstyle s'}$ állapotba kerülünk–e mekkora valószínűséggel. Mivel a rendszer stochasztikus, e valószínűségek jellemzik a bizonytalanságot.
Jutalom- vagy költségfüggvény ( ${\textstyle r}$ )

$r(s,a,s')$

A rendszer az ${\textstyle s}$ állapotból az ${\textstyle s'}$ állapotba lépve az ${\textstyle a}$ akció következtében kapott (vagy fizetett) jutalom/költség. Gyakran egyszerűsítünk és ${\textstyle r(s,a)}$ vagy akár ${\textstyle r(s)}$ formában dolgozunk.
Diszkontfaktor ( ${\textstyle \gamma }$ ) Egy ${\textstyle 0\leq \gamma <1}$ valós szám, amely a jövőbeni jutalmak jelenértékét adja. A teljes várható, diszkontált jutalom

$\mathbb {E} {\Bigl }$

maximalizálása a cél.

2. A Bellman-egyenlet és visszafelé kalkuláció

A stochasztikus dinamikus programozás központi eszköze a Bellman-egyenlet, amely rekurzívan összekapcsolja az egyes állapotok optimális értékét:

$V^{*}(s)\;=\;\max _{a\in {\mathcal {A}}(s)}\;\sum _{s'\in {\mathcal {S}}}P(s'\mid s,a)\,{\bigl }.$

Itt

${\textstyle V^{*}(s)}$ az optimális értékfüggvény: a maximális várható, diszkontált jutalom, ha az ${\textstyle s}$ állapotból indulunk és optimális döntéseket hozunk.
A maximálás azokon az akciókon fut, amelyek az adott állapotban engedélyezettek.

A dinamikus programozás során visszafelé („backward induction”) lépünk a lehetséges időpillanatokon: ha végponti feltételként megadtuk ${\textstyle V_{T}(s)}$ értékeit (például terminális költség vagy jutalom a leállásnál), onnan lépünk vissza a korábbi állapotokra, és számítjuk ki sorban a ${\textstyle V_{T-1},V_{T-2},\dots ,V_{0}}$ értékeket.

3. Véges és végtelen horizon

Vége horizon (T időlépés) Ilyenkor a Bellman-egyenletet a terminális időpontban ${\textstyle t=T}$ kezdeti feltételekkel indítjuk ( ${\textstyle V_{T}(s)}$ ismert), majd visszafelé iterálva kapjuk ${\textstyle V_{0}}$ -t, ahonnan a döntést meghozzuk.
Végtelen horizon Ha ${\textstyle T\to \infty }$ és ${\textstyle \gamma <1}$ , az értékiteráció konvergál egy fixpontra, ahol

$V_{k+1}(s)=\max _{a}\sum _{s'}P(s'\mid s,a){\bigl },$

és ${\textstyle V_{k}\to V^{*}}$ .

4. Számítási módszerek

Értékiteráció Egyszerű, de gyakran lassú: minden állapotra minden akciót és átmenetet végig kell számolni minden iterációban. Konvergencia: monotón növekvő (vagy csökkenő) sorozatként éri el az optimális ${\textstyle V^{*}}$ -et.
Politikaiteráció
- Politikaértékelés: adott politika ${\textstyle \pi }$ mellett megoldjuk a lineáris egyenletrendszert
  
  $V^{\pi }(s)=\sum _{s'}P(s'\!\mid s,\pi (s)){\bigl }.$
- Politikaváltás: ${\textstyle \pi _{\text{new}}(s)=\arg \max _{a}\sum _{s'}P(s'\mid s,a)}$ . A két lépést ismételjük, amíg a politika nem változik (jellemzően kevesebb iteráció szükséges, de egy-egy iteráció drágább).
Lineáris programozás Közvetlenül megoldhatjuk egy LP-formulációval:

$\min \sum _{s}\alpha (s)\,V(s)\quad {\text{s.t.}}\quad V(s)\geq r(s,a)+\gamma \sum _{s'}P(s'\mid s,a)\,V(s')\quad \forall s,a.$

Itt ${\textstyle \alpha (s)}$ súlyozott kiinduló állapot-gyakoriság.

5. Gyakorlat: készletgazdálkodás

Legyen ${\textstyle s_{t}}$ a raktárkészlet szintje nap elején, ${\textstyle a_{t}}$ a rendelési mennyiség. A kereslet ${\textstyle D_{t}}$ stochasztikus, ismert eloszlással. A modell:

Állapot: ${\textstyle s\in \{0,1,\dots ,S_{\max }\}}$ .
Akció: ${\textstyle a\in \{0,1,\dots ,A_{\max }\}}$ .
Átmenet:

$s_{t+1}=\min\{s_{t}+a_{t}-D_{t+1},\,S_{\max }\},$

vagy 0, ha kifogy.
Jutalom:

$r(s,a,s')=\underbrace {p\min(s+a,D)} _{\text{bevételek}}-\underbrace {c\,a} _{\text{beszerzés költsége}}-\underbrace {h\max(0,s+a-D)} _{\text{tárolási költség}}-\underbrace {\pi \max(0,D-s-a)} _{\text{hiány költség}}.$

A visszafelé kalkulációval az egyes készlet- és rendelési döntésekhez tartozó optimális várható haszon kiszámítható.

6. Kihívások és „átok”

A stochasztikus dinamikus programozás fő nehézsége a dimenziókátka:

Állapottér nagysága gyorsan nő a változók számával.
Akciótér is hasonlóan növeli a komplexitást. Ez korlátozza a módszer közvetlen alkalmazhatóságát nagy rendszerekre.

Megoldási irányok

Approximate Dynamic Programming (ADP) – Funkcióillesztés (pl. lineáris/bázisfüggvényes, neurális hálózatokkal).
Monte Carlo Tree Search (MCTS) – Kérdezgetés-szimuláció (pl. Go-játék).
Reinforcement Learning – Q-learning, SARSA, Deep Q-Network (DQN) – modellmentes megközelítések.
Hierarchikus felbontás – A nagy feladatot több, kisebb DP-problémára bontjuk.

7. Alkalmazási példák

Energiagazdálkodás – Akkumulátor töltési–kisütési stratégia, ha a villamosenergia-ár stochasztikus.
Portfólióoptimalizálás – Részvény–kötvény allokáció időben változó piaci környezetben.
Robotikai mozgástervezés – Bizonytalan környezetben a legjobb irányítást keressük (POMDP kiterjesztés).
Epidemiamodellezés – Vakcina-elosztás dinamikus sztochasztikus fertőzésmodell mellett.

8. Összefoglalás

A stochasztikus dinamikus programozás gazdag elméleti hátteret és univerzális keretet nyújt olyan problémákhoz, ahol a döntések sorozata és a bizonytalanság kölcsönhatása kulcsfontosságú. A Bellman-egyenlet adják a módszer magját, és visszafelé kalkuláció vagy iteratív eljárások alkalmazhatóak a véges vagy végtelen horizonú esetekre. A dimenziókátka miatt azonban gyakran approximate és hierarchikus módszerekkel egészítjük ki, illetve a reinforcement learning modern eszköztárával oldjuk meg a nagy állapot- és akcióterű feladatokat. A keretrendszer sikerrel alkalmazható logisztikától a pénzügyön át a robotikáig, és ma is aktív kutatási terület a hatékonyabb közelítések és skálázható algoritmusok fejlesztése.

További információk

stochastic dynamic programming - Szótár.net (en-hu)
stochastic dynamic programming - Sztaki (en-hu)
stochastic dynamic programming - Merriam–Webster
stochastic dynamic programming - Cambridge
stochastic dynamic programming - WordNet
stochastic dynamic programming - Яндекс (en-ru)
stochastic dynamic programming - Google (en-hu)
stochastic dynamic programming - Wikidata
stochastic dynamic programming - Wikipédia (angol)

stochastic dynamic programming

Angol

Főnév

1. A stochasztikus dinamikus programozás alapjai

2. A Bellman-egyenlet és visszafelé kalkuláció

3. Véges és végtelen horizon

4. Számítási módszerek

5. Gyakorlat: készletgazdálkodás

6. Kihívások és „átok”

7. Alkalmazási példák

8. Összefoglalás

További információk

Enciclo

Wikious

Sapientia

Scientia

Boobota

Anandapedia

Sagapedia

Wikithot