ROBOTIKA
Megerősítéses tanuláson alapuló drónrendszer győzte le a profi emberi pilótákat a versenyzésben
Egy autonóm AI-rendszer által irányított drón legyőzte az emberi pilótákat egy profi szintű, belső nézetű (FPV) drónversenyen, ami jelentős mérföldkő a „való világbeli megerősítéses tanulás” (real-world reinforcement learning) számára. A Zürichi Egyetem és az Intel Labs kutatói megalkották a Swiftet, egy olyan rendszert, amely a szimulációban végzett mély megerősítéses tanulást a fizikai világból gyűjtött adatokkal ötvözi egy drón irányításához, amely három magasan képzett emberi pilótával versenyzett egy kihívást jelentő FPV pályán.
A Swift több versenyt is megnyert minden egyes emberi pilóta ellen, és az események során rögzített leggyorsabb köridőt is elérte. Bár a drónt részben szimulációban tanították, a kutatók a gyakorló futamokról valós világbeli adatokat is gyűjtöttek egy mozgáskövető rendszer segítségével, hogy segítsenek a drónnak kalibrálni az érzékelése és a póza közötti különbségeket. Emellett a drónrendszer közvetlen hozzáféréssel rendelkezett a fedélzeti tehetetlenségi mérőegységből (IMU) származó adatokhoz, míg az emberek tisztán vizuális információk alapján repültek.
- Az érzékelőrendszer a vizuális és tehetetlenségi információkat alacsony dimenziós reprezentációkká alakítja egy konvolúciós háló (convnet) alapú kapudetektor segítségével.
- Az irányítási stratégia hosszabb időtávon optimalizálja a pályagörbéket, mint az emberi pilóták, ami gyorsabb gyorsulást tesz lehetővé.
- A Swift a tehetetlenségi adatokra és a vizuális odometriára támaszkodva hajt végre manővereket, míg az emberek számára a kapuk látótérben tartása az elsődleges.
- A rendszert szimulációban tanították, de a fizikai futamokból származó mozgáskövető adatokat használtak a valóság és a szimuláció közötti szakadék (reality gap) áthidalására.
- A Swift érte el a verseny során rögzített leggyorsabb köridőt a profi pilóták ellenében.
Miért fontos?
Tíz évvel ezelőtt az RL képes volt a Space Invaders-szel játszani. Hét évvel ezelőtt már az olyan táblajátékokban is remekelt, mint a Go. Öt évvel ezelőtt már az olyan többegységes stratégiai játékokban is bizonyított, mint a Starcraft és a Dota. Most az RL már a VALÓ VILÁGBAN is képes folyamatos irányítási kihívások teljesítésére, és következetesen le tudja győzni az emberi szakértőket egy embert próbáló sportágban. Mindannyian krónikusan alulbecsüljük az AI fejlődésének ütemét. ---