A Next Token Predictionnel tanított humanoid mozgás skálázási potenciált mutat
Az UC Berkeley kutatói olyan robotvezérlő rendszert tanítottak, amely könnyen átültethető a való világba, és segítségével az Agility Robotics egyik kétlábú robotját San Francisco utcáin sétáltatták. A kutatás rávilágít, hogy sokkal olcsóbbá vált a nagyméretű adathalmazok gyűjtése a robotvezérlési szabályrendszerek (policy-k) tanításához, hogy az alapvető transformer architektúrák jól működnek erre a célra, és hogy a robotikában is mutatkoznak a skálázási törvények jelei. Mindez azt jelzi, hogy nagy változások előtt áll a robotika világa, mivel ami korábban nehéz volt, az most könnyűvé válik.
Ebben a tanulmányban a kutatók a humanoid vezérlést szenzomotoros trajektóriák nagy gyűjteményének adatmodellezéseként fogták fel, a fizikai világ „mondataiként” tekintve rájuk. A nyelvhez hasonlóan egy általános transformer modellt tanítanak arra, hogy autoregresszív módon jósolja meg az eltolt bemeneti szekvenciákat. Rendszerük tanításához teljes bemeneti szekvenciákat jósolnak meg, beleértve a szenzoros és motoros tokeneket is, modellezve a közös adateloszlást.
- Kb. 10 000 neurális háló trajektóriát (egyenként 10 mp) használtak egy szimulátorban futó RL policy-ból.
- 20 000 modellalapú trajektóriát gyűjtöttek sík talajon való járásról Agility Robotics vezérlőkből.
- Beépítettek ~1 000 emberi mozgásrögzítési (MoCap) trajektóriát, amelyeket inverz kinematikával alakítottak robotpózokká.
- PHALP számítógépes látásalgoritmus segítségével 3D emberi trajektóriákat nyertek ki YouTube videókból.
- Valós világban is bemutatták a járást különféle felületeken, például járdákon, betonon, aszfalton és homokos utakon.
- Megállapították, hogy a követési hiba monoton módon csökken a modellméret és a tanítási adatok növelésével.
- Megfigyelték, hogy a nagyobb kontextusablakok javítják a vezérlés teljesítményét a kontextuson belüli adaptáció révén.
Miért fontos?
Hosszú évekig a robotok tanítása nehézkes volt a „sim2real” szakadék vagy a lassú, valós világbeli tanítás miatt. Most új paradigmák emelkednek ki, ahol a kutatók „egyszerűen beágyaznak mindent és tanítanak egy predikciós modellt”, hasonlóan az LLM-ekhez. Ez azt sugallja, hogy a kétlábú, való világban mozgó robotok nagyon gyorsan nagyon jók lesznek, ahogy az olyan cégek, mint a Tesla és a Figure, követik ezeket a skálázási görbéket. ---