multi-agent reinforcement learning (tsz. multi-agent reinforcement learnings)
Az RL legfontosabb elemei:
A multi-agent reinforcement learning (MARL) ennek a bővítése, ahol nem egyetlen ügynök, hanem több egymással interakcióban lévő ügynök tanul és cselekszik. Ezek az ügynökök:
Ez sokkal komplexebb, mint az együgynökös RL, mivel az egyik ügynök viselkedése hatással van a másik tanulására is.
Minden ügynök ugyanazt a jutalomfüggvényt követi. Cél: közösen maximalizálni a teljesítményt.
Példa: több drón együtt szállít csomagokat, elkerülve az ütközéseket.
Az ügynökök ellentétes célokkal rendelkeznek, például zero-sum játékban. Az egyik ügynök nyeresége a másik vesztesége.
Példa: sakk, go, póker – ahol két ügynök ellen játszik.
Az ügynökök részben együttműködnek, részben versengenek.
Példa: önvezető autók – együttműködnek a forgalomban, de egyénileg optimalizálják az útvonalukat.
Példa algoritmus: MADDPG (Multi-Agent Deep Deterministic Policy Gradient).
Minden ügynök csak a saját nézetét és tapasztalatát használja. Nincs globális koordináció.
Gyakori szimulációban, de a valóságban ritkán alkalmazható (pl. robotflották szinkron vezérlése).
A többi ügynök folyamatosan tanul és változik → az adott ügynök környezete nem-stacionárius, vagyis folyamatosan változik.
Ahogy nő az ügynökök száma, exponenciálisan nő az állapottér és a cselekvéstér.
Az ügynökök közti kommunikáció hatékony formája kulcsfontosságú, különösen együttműködés esetén.
Nash-egyensúly, Pareto-optimum megtalálása több játékos esetén nehéz – nem biztos, hogy létezik stabil megoldás.
Minden ügynök külön Q-táblát tanul, a többiek viselkedését részben figyelmen kívül hagyva. Gyorsan alkalmazható, de nem stabil.
Actor-critic alapú algoritmus, amelyben az „actor” minden ügynökön fut, de a „critic” központosított.
Kooperatív környezetekre tervezett módszer, amely Q-értékeket egy nemlineáris függvénnyel „kever össze” úgy, hogy a globális Q maximalizálása egyenértékű legyen a lokálisak maximalizálásával.
Szintén actor-critic elvű, de a „counterfactual baseline” segítségével kiküszöböli az egyéni hozzájárulások torzítását.
Több robot koordinált mozgása – például raktári rendszerek, drónrajok.
Önvezető autók, amelyek más autókkal való interakció alapján döntenek.
Több cég, piaci szereplő tanulása és versenye (pl. aukciós algoritmusok).
StarCraft II, Dota 2 – komplex, részben kooperatív, részben versengő szimulációs világok.
Okos hálózatok, ahol az alállomások ügynökökként optimalizálnak.
Hogyan lehet több ezer ügynökkel hatékonyan tanulni?
Az ügynök tudjon új helyzetekben is jól teljesíteni – ne csak tanult környezetben.
Hogyan tanulják meg az ügynökök a hasznos kommunikációt (protokollt), nem csak előre megadott nyelven?
Együttműködés vs. versengés emberekkel szemben. Mikor és hogyan használjunk ilyen rendszereket?
A multi-agent reinforcement learning területe gyorsan fejlődő kutatási irány, amely a mesterséges intelligencia egyik legösszetettebb problémáját próbálja megoldani: hogyan tanuljanak és működjenek együtt egymást befolyásoló intelligens ügynökök?
A MARL képes modellezni és optimalizálni:
A való világ ritkán áll egyetlen ügynökből – így a MARL megértése és fejlesztése kulcsfontosságú a jövő technológiáihoz: okos városok, autonóm rendszerek, decentralizált gazdaságok, és adaptív mesterséges intelligencia megoldások.