A Google DeepMind és a 33 Labs létrehozta a hatalmas Open X-Embodiment robotikai adatkészletet
A Google DeepMind és 33 akadémiai laboratórium egyesítette a világ 22 különböző robotjától származó adatokat egy rendkívül nagy adatkészlet létrehozásához. Bebizonyították, hogy a robotvezérlő modellek ezen az adatkészleten történő tanítása jelentősen javíthatja azok teljesítményét. A kutatás részeként a vállalat közzéteszi az adatkészletet, valamint néhány rajta betanított pre-trained modellt is. „Szándékunk szerint ezek az erőforrások alapul szolgálnak majd a robotok tanulásával kapcsolatos X-embodiment kutatásokhoz” – írták a kutatók.
A DeepMind néhány modellt két meglévő, nagyléptékű robotmodellre építve tanított be: az RT-1 robotvezérlő modellre és az RT-2 vision-language action modellre. Az RT-2 lényegesen nagyobb modell, mint az RT-1. A kutatók megállapították, hogy a nagy kapacitású modellek jobb eloszláson belüli (in-distribution) teljesítményt nyújtanak heterogén adatokkal, és a heterogén adatok segítenek az eloszláson kívüli (out-of-distribution) generalizációban is.
- Az Open X-Embodiment 22 robot-testalkat (embodiment) adataiból áll, több mint 500 készséget és 150 000 feladatot bemutatva.
- Az adatkészlet 60 meglévő robotikai adatkészletet von össze a világ 34 robotikai kutatólaboratóriumából.
- Az RT-2-X (55B paraméteres) modellek jelentősen túlszárnyalják a kisebb modelleket az eloszláson belüli teszteken.
- A más platformokról származó adatokkal végzett közös tanítás (co-training) olyan extra készségekkel ruházza fel a modelleket, amelyek nem szerepeltek a platform eredeti adatkészletében.
- A nagy kapacitású modell kritikus fontosságú a kialakuló (emergent) készségek sikeréhez a kisebb, 5B paraméteres modellekhez képest.
Miért fontos?
Ez a munka azt mutatja meg, hogy ha rendelkezésre áll a megfelelő alapanyag (adat) a megfelelő eloszlással, és ezen egy nagy kapacitású neurális hálót tanítunk be, akkor a részek összegénél valami nagyobbat kapunk – egy olyan modellt, amely meglepően jó eloszláson kívüli generalizációra képes az adatok, az architektúra és a komplexitás kombinációja révén fellépő kritikus reakció eredményeként. ---