A robotok megtanulnak 'álmodni' a gyorsabb K+F érdekében
A Stanford Egyetem és a Tsinghua Egyetem kutatói létrehozták a Ctrl-World-öt, egy világmodellt, amely segít a robotoknak elképzelni, hogyan hajtsanak végre feladatokat, és szintetikus adatokat is generáljanak saját teljesítményük javítására. Egy világmodell lényegében egy olyan módszer, amellyel az AI rendszerek egy adott környezetről "álmodhatnak", egy tanult adateloszlást dinamikus és reszponzív interaktív világgá alakítva, amelyben AI ügynököket lehet kiképezni és finomítani. A világmodelleket valószínűleg végtelen, procedurális játékok létrehozására fogják használni, mint például a Mirage 2 (Import AI #426) vagy a DeepMind Genie 3 (Import AI #424).
A Ctrl-World egy előre képzett 1,5 milliárd paraméteres Stable-Video-Diffusion (SVD) modellből inicializálódik, majd „egy szabályozható, időben konzisztens világmodellt hoztak létre belőle a következő módszerekkel: (1) Több nézetből származó bemenet és együttes előrejelzés az egységes információértelmezéshez. (2) Memória-visszakereső mechanizmus, amely ritka előzménykockákat ad hozzá a kontextushoz, és képkocka-szintű kereszt-figyelem mechanizmuson keresztül vetíti ki a pózinformációt minden képkockára, a jóslatokat hasonló múltbeli állapotokhoz rögzítve. (3) Képkocka-szintű cselekvési kondicionálás a magas frekvenciájú cselekvés vizuális dinamikával való jobb összehangolásához.” Az eredmény egy szabályozható világmodell robotmanipulációhoz, egyetlen megfogó és különféle kamerák használatával. „Kísérletekben azt találtuk, hogy ez a modell új, képzeleten alapuló munkafolyamatot tesz lehetővé, amelyben a policy-k értékelhetők – a valós futtatásokkal való rangsorolási összehangolással – és javíthatók is – célzott szintetikus adatok segítségével, amelyek növelik a sikerességi arányt.”
Mint mindenki tudja, a robotok valós világban történő tesztelése rendkívül lassú és fáradságos. A Ctrl-World lehetőséget ad az embereknek, hogy ehelyett a robotokat a saját elképzelt világmodelljükben teszteljék. Erről a GitHub oldalon található demó kipróbálásával kaphatunk képet. A kutatók azt tapasztalták, hogy magas fokú egyezés van a szimulált világmodelljük és a valós világban elért feladat-siker között, ami azt jelenti, hogy a világmodellt proxyként lehet használni a valós világban történő teszteléshez. Azt is megállapították, hogy a világmodell segítségével szintetikus poszt-tréning adatokat lehet generálni, amelyek felhasználhatók a robotok teljesítményének szelektív javítására. „A [Ctrl-World] szintetikus adatokon végzett poszt-tréning átlagosan 44,7%-kal javítja a policy utasításkövetését” – írják.
Miért fontos?
Ahhoz, hogy az AI valóban megváltoztassa a gazdaságot, kifinomult módon kell működnie a fizikai világban. Az ehhez hasonló tanulmányok megmutatják, hogy az olyan eszközök, mint a világmodellek, hogyan gyorsíthatják fel a robot K+F ciklus egy részét. „Úgy gondoljuk, hogy a generatív világmodellek átalakíthatják azt, ahogyan a robotok új képességeket szereznek, lehetővé téve a skálázható policy értékelést, és lehetővé téve számukra, hogy ne csak a valós tapasztalatokból, hanem biztonságosan és hatékonyan a generált tapasztalatokból is tanuljanak” – írják.