Az RL-lel tanított verseny-drónok legyőzték a bajnok emberi pilótát egy valós teszten
A University of Zurich és a Google DeepMind kutatói nemrégiben áttörést értek el a mesterséges intelligencia fizikai világban történő alkalmazása terén: megerősítéses tanulással (RL) képzett drónjaik valós körülmények között győzték le a többszörös bajnok emberi pilótát. A nagy sebességű kvadrokopter-versenyzés során az AI ágensek nem csupán gyorsabbnak bizonyultak, hanem stratégiai manőverezésben és az ütközések elkerülésében is felülmúlták az embert. A tesztek során a drónok 22 m/s feletti sebességgel száguldottak, miközben olyan precizitást és koherens mozgást mutattak, amely messze meghaladja az emberi pilóták reflexeire jellemző szaggatott mozdulatokat. A kísérletben részt vevő Marvin Schaepper, ötszörös svájci bajnok, komoly nyomás alatt végül alulmaradt a gépi intelligenciával szemben, ami új korszakot jelez az autonóm rendszerek fejlődésében.
A technikai megvalósítás hátterében egy kifinomult tanítási folyamat áll, amely során az ágenseket kizárólag szimulált környezetben készítették fel. A kutatók a népszerű PPO algoritmust alkalmazták, a többi versenyző modellezéséhez pedig a Perceiver kódolót hívták segítségül. A rendszer mindössze 27 órányi tanítás alatt, egyetlen NVIDIA RTX 4090 GPU-t használva mintegy 200 millió interakciót dolgozott fel. Az önálló játék, vagyis a self-play módszer révén az AI olyan összetett taktikákat sajátított el, mint a riválisok blokkolása, az elsőbbségadás kritikus helyzetekben, vagy az aerodinamikai légörvények hatásainak tudatos kihasználása. Annak érdekében, hogy a szimulációban tanultak a valóságban is működjenek, domain randomization eljárást használtak, így a 220 grammos versenydrónok képesek voltak zökkenőmentesen átültetni a digitális stratégiákat a fizikai térbe.
Bár a rendszer jelenleg még nem a drónok fedélzeti hardverén fut, hanem egy hálózaton keresztül csatlakozó külső számítógépen keresztül irányítja azokat, az eredmények így is megdöbbentőek. Míg az emberi pilóta a kiélezett versenyhelyzetben mindössze 53,33 százalékos versenybefejezési arányt produkált, addig az AI ágensek 100 százalékos megbízhatósággal teljesítették a pályákat. Emellett az ütközések számát is sikerült 50 százalékkal csökkenteni a korábbi, egyágenses alapmodellekhez képest. Ez a szintű fizikai optimalizáció rávilágít arra, hogy a mesterséges intelligencia képes a legapróbb aerodinamikai interakciókat is a maga javára fordítani, amit egy emberi agy és idegrendszer képtelen lenne ilyen sebesség mellett és ilyen rövid reakcióidővel feldolgozni.
A kutatás jelentősége messze túlmutat a sportversenyek világán. A technológia rávilágít arra, mire képesek a jól optimalizált intelligenciák, ha közvetlen interakcióba lépnek a fizikai környezettel. Ugyanakkor az eredmények baljóslatú kérdéseket is felvetnek a hadviselés jövőjével kapcsolatban. Ahogy ezek az algoritmusok egyre hatékonyabbá válnak és miniatürizálódnak, a hálózatba kötött központi vezérlést felválthatják a teljesen autonóm fedélzeti eszközök. Az a tény, hogy az emberi pilóta ilyen látványosan alulmaradt egy közvetlen fizikai összecsapásban, előrevetíti egy olyan jövő képét, ahol a konfliktusok kimenetelét már nem az emberi bátorság vagy ügyesség, hanem a nanoszekundumok alatt döntést hozó AI rendszerek precizitása határozza meg.
- Az ágenseket szimulációban, PPO eljárással tanították, a többi játékos modellezéséhez a „Perceiver” kódolót használva.
- Az ágensek önálló játékkal (self-play) olyan elővételező viselkedéseket tanultak meg, mint a blokkolás, az elsőbbségadás és az aerodinamikai légörvények figyelembevétele.
- A tanításhoz körülbelül 27 órára volt szükség egyetlen NVIDIA RTX 4090 GPU-n (200 millió interakció).
- Legyőzték Marvin Schaeppert, az ötszörös svájci drónverseny-bajnokot a vegyes ember-AI versenyeken.
- Az emberi pilóta nyomás alatt 53,33%-os versenybefejezési arányt ért el, míg az AI 100%-on maradt.
- Tartomány-randomizációt (domain randomization) alkalmaztak annak biztosítására, hogy a stratégiák sikeresen átkerüljenek a szimulációból az azonos, 220 grammos versenydrónokra.
Ez a kutatás lehetővé teszi, hogy lássuk, mire képesek a jól optimalizált intelligenciák a fizikai világban. Kérdéseket vet fel a jövőbeli konfliktusokkal kapcsolatban, ahogy ezek a képességek miniatürizálódnak, és a hálózatba kötött számítógépekről a fedélzeti eszközökre kerülnek át. ---