DexDrummer: A robot dobolásnak még van hova fejlődnie
Amikor kissé aggódni kezdek az AI fejlődésének üteme miatt, átváltok az arXiv „robotika” alrovatába, elolvasok néhány tanulmányt, és hatalmas megkönnyebbülést érzek. A robotokat, mint mindenki tudja, rendkívül nehéz jól megvalósítani, a valóság még a legfejlettebb technikákat is hajlamos meghiúsítani. A robotika még nehezebb változata a finom szemcsés, alacsony késleltetésű ügyes vezérlés, ahol egy robotkezet kell rávenni valamire. Ezért olvastam el egyszerre mulatsággal és empátiával a DexDrummer című tanulmányt, amely azt vizsgálja, hogy a kortárs AI megközelítések mennyire képesek rávenni egy robotkezet a dobolásra. A rövid válasz: a robotkezek elég szörnyű dobosok!
- Amit tettek: Létrehozták a DexDrummer-t, egy „hierarchikus, kétlépcsős dobolási irányelvet” (policy), amely egy magas szintű RL (Reinforcement Learning) irányelvet, valamint egy alacsony szintű ügyes irányelvet tartalmaz. Rendszerüket szimulált környezetben képezték, amely egy kétkarú robotfelépítést és egy teljes dobszettet (snare, tom, ride, hi-hat és crash) tartalmaz. A fő rendszer egy ütőpályát generál a feladattérben (task space), majd egy alacsony szintű rendszer megpróbálja irányítani a kezet – ez a rész összetett, és magában foglalja a hüvelyk- és mutatóujj ösztönzését a dobverő közepének megragadására, párosulva egy „kar büntetési korláttal” (arm penalty constraint), amely csökkenti a túlzott karmozgásokat. Dolgoztak a jutalmak formálásán is, hogy a robot több dobütést is egymás után tudjon láncolni – ezt egy „érintkezési tanterv” (contact curriculum) segítségével érték el, amely lehetővé teszi az ügynök számára, hogy szabad térben gyakorolja a pályakövetést, miközben követi a pályajutalmat.
- Valós tesztelés: A betanított irányelvet valóságban két 7-DOF Franka Panda karon és két 20-DOF Tesollo DG-5F kézen tesztelték. Ez egy olyan terület, ahol erősen bátorítanám az embereket, hogy nézzék meg a videókat online, hogy képet kapjanak arról, milyen ördögien nehéz ez a feladat – a robotok képesek ütni a dobokat, de fájdalmasan esetlen nézni, és az az érzésem, hogy még sok időbe telik, amíg egy emberi dobosnak a „válla fölött kellene néznie”.
Miért fontos?
A robotika dinamikus, gyorsan változó környezetben (például élő zenekarral való improvizatív dobolás) az AI egyik utolsó határterületének tűnik – és amint ez a kutatás is mutatja, hasonlóan a modern computer vision kutatáshoz, az AI jó teljesítményéhez rendkívül bonyolult, „kézműves” irányelvek kidolgozására van szükség. Nagyon messze vagyunk még a betanított nyelvi modellek (pretrained language models) általánosíthatóságától.