AI SZIMULÁCIÓ
Az UniSim univerzális szimulátort hoz létre a való világbeli AI ágensek tanításához
Az UC Berkeley, a Google DeepMind, az MIT és az University of Alberta kutatói kifejlesztettek egy UniSim nevű „univerzális szimulátort”, amely széles körű adatokból tanul, többek között tárgyakról, jelenetekről, emberi tevékenységekről és mozgásokról. Számos adatforrást ötvöznek – az internetes szöveg-kép pároktól kezdve a navigációból, robotikából és szimulációkból származó, mozgásban és akcióban gazdag adatokig – egy feltételes videógeneráló keretrendszerben. A különböző irányultságú adatok összehangolásával az UniSim sikeresen képes egyesíteni a különböző tapasztalatokat és általánosítani az adatokon túl, lehetővé téve az interakciót egyébként statikus jelenetek finomhangolt mozgásvezérlésén keresztül.
- Olyan videó-akció szimulátorok adatait használja, mint a Habitat és a Language Table, a vezérlő akciókat pedig nyelvi beágyazásokkal kódolja.
- Beépíti a valódi robotadatokat a Bridge Data-ból, valamint a Google RT-1 és RT-2 modelljeihez használt adatkészleteket.
- Tartalmaz emberi tevékenységi adatokat, mint az Ego4D és az EPIC-KITCHENS, hogy bemutassa az első személyű perspektívából végzett tevékenységeket.
- 3D környezeti adatkészleteket (mint a Matterport3D) használ a kamerás alapú műveletek, például a balra fordulás felépítéséhez.
- Ügyesen kezeli a statikus internetes szöveg-kép párokat (LAION/ALIGN), egykockás videókként tekintve rájuk mozgásalapú szöveges címkékkel.
- Az UniSim lehetővé teszi olyan irányelvek (policy) tanítását, amelyek közvetlenül, zero-shot módon képesek hosszú távú feladatokat végrehajtani a való világban.
Miért fontos?
Az UniSimhez hasonló rendszerek végső soron csökkentik a való világbeli AI rendszerek fejlesztési költségeit, mivel olcsóbbá és gyorsabbá teszik bizonyos készségek szimulációban történő elsajátítását. Elképzelhető, hogy az UniSim eszközként szolgál a különféle tanított nagy modellek képességeinek bővítéséhez vagy javításához, rendkívül valósághű élményeket szimulálva az emberekkel való interakcióhoz.