ROBOTIKA
A DeepMind szimuláció és transzfer tanulás segítségével tanította meg focizni a kétlábú robotokat
A DeepMind robotokat tanított be teljes egészében szimulációs környezetben a futballozásra, majd az eredményeket valódi robotokra ültette át, amelyek meglepően jól teljesítenek. A siker kulcsa két különálló viselkedésmód betanításában rejlik, amelyeket aztán egyetlen hálózatba egyesítettek. Először a DeepMind arra tanította a robotokat, hogy képesek legyenek a) felállni a földről esés után, és b) gólokat lőni a szimulált fociban. Ezeket a stratégiákat egyetlen új irányelvbe desztillálták, majd a robotok „self-play” (önmaguk elleni játék) módszerrel fejlődtek tovább, folyamatosan önmaguk ellen játszva és új készségeket elsajátítva. Végül a DeepMind valódi robotokra portolta a szoftvert, a szimulált adathalmazt pedig olyan technikákkal bővítették, mint a domain randomization. A robotok képesek járni, rúgni, felállni a földről, gólt lőni és védekezni – ráadásul mindezt rendkívül szórakoztató módon teszik.
- Különálló készségek betanítása az esésből való felálláshoz és a gólszerzéshez
- Epizód-lezárások alkalmazása annak megakadályozására, hogy az ágensek guruljanak a labda felé járás helyett
- Több stratégia desztillálása egyetlen hálózatba a robot számára
- Domain randomization alkalmazása a szimuláció és a valóság közötti szakadék áthidalására
- 20 szervomotorral működtetett OP3 robotokon való alkalmazás
Miért fontos?
Az összetett transzfer tanulás életjelei: Ez a munka ígéretes eredményeket mutat a bonyolult viselkedésformák szimulált környezetből a való világba történő átültetésére. A leglenyűgözőbb a zero-shot adaptáció – a modellek képesek alkalmazkodni a való világhoz, bár jelenleg külső kamerák segítik a tájékozódásukat. A következő lépésben a robotok saját, beépített látórendszerüket használhatják majd a játékhoz. ---