A Physical Intelligence elindította a Robotolimpiát az általános robot-irányelvek tesztelésére
A Physical Intelligence úgy döntött, hogy befejezi a parttalan vitákat, és az egészet egy tesztté alakítja. Az új Robotolimpiájuk alapvetően a házimunkák olimpiája: ugyanazok a feladatok, ugyanazok a korlátok, rengeteg hibalehetőség és egy fájdalmasan őszinte eredménylista arról, mennyire állunk valójában közel a hasznos robotokhoz. Az „olimpia” keretrendszert először Benjie Holson „Humanoid Olympic Games” projektjében vetették fel, és a PI ezt nyíltan el is ismerte az induláskor; a kesztyű felvéve! A PI állítása szerint minden videó autonóm; ami azt jelenti, hogy a robot lebontja a feladatot, érintésgazdag mozdulatokat végez, és korrigál, ha a dolgok félremennek, anélkül, hogy egy ember irányítaná a botokat a vágások között.
Természetesen van egy nagy bökkenő: a „lenyűgöző futam” nem ugyanaz, mint a „megbízható termék”. Ezek még mindig sérülékeny, érintésgazdag feladatok, ahol a siker függhet a megvilágítástól, a tárgyak elhelyezésétől vagy egy kicsit túl nedves szivacstól. Néhány kudarc pusztán hardveres: egy túl széles fogókar elbukja az ingujj-kifordító versenyszámot, bármilyen okos is legyen az irányelv. A benchmarkok csak a kezdetet jelentik, nem a véget – ami számít, az az ismételhetőség sok kísérlet során, sok különböző konyhában. Amit érdemes figyelni: vajon ez az „alapmodell + finomhangolás + valós életbeli értékelés” körfolyamat elkezdi-e úgy sokszorozni a hatását, ahogy a nyelvi modelleknél történt. Ha igen, a gyakorlati megvalósítás idővonala kevésbé lesz sci-fi, és inkább unalmasan elkerülhetetlenné válik.
- Ajtón való bejutás: navigálás egy önzáró, kilincses ajtón keresztül anélkül, hogy maga az ajtó lökne fel.
- Textíliák: egy zokni kifordítása (és annak beismerése, hogy a fogókar túl széles az ingujjakhoz).
- Eszközhasználat: egy apró kulcs behelyezése a zárba és elfordítása; azaz „precizitás, nyomaték és nincs második esély”.
- Takarítás: egy serpenyő elmosása szappannal és vízzel, mint egy valódi ember, aki nem akar mocsokban élni.
- Deformálható tárgyak: egy vékony műanyag kutyagumi-zacskó kinyitása (ami kényelmesen elvakítja a csuklókamerákat a legrosszabb pillanatban).
Mert a PI két olyan világot próbál egyesíteni, amelyek általában nem beszélnek egymással: a valós élethez hasonlító benchmarkokat (ajtók, kutyás zacskók, mosás) a steril laboratóriumi rejtvények helyett, és az alapmodell-alapú skálázást (egyszer nagyot tanítani, majd finomhangolni az új feladatokra) a minden új tárgyhoz készített egyedi irányelvek helyett. Ez közvetlenül kapcsolódik a PI legújabb, ember-robot transzferrel kapcsolatos kutatásaihoz. Az állítás az, hogy amint a VLA-kat elegendő változatos robottapasztalaton előtanítják, elkezdenek „igazodni” az emberi egocentrikus videókhoz a reprezentációs térben. Ezután a robotok olcsó emberi felvételekből is taníthatók, rengeteg explicit összehangolási trükk nélkül. ---