A Physical Intelligence elindította a Robotolimpiát az általános robot-irányelvek tesztelésére

2025. december 24. · MI Történik? · 2 perc olvasás

A Physical Intelligence úgy döntött, hogy befejezi a parttalan vitákat, és az egészet egy tesztté alakítja. Az új Robotolimpiájuk alapvetően a házimunkák olimpiája: ugyanazok a feladatok, ugyanazok a korlátok, rengeteg hibalehetőség és egy fájdalmasan őszinte eredménylista arról, mennyire állunk valójában közel a hasznos robotokhoz. Az „olimpia” keretrendszert először Benjie Holson „Humanoid Olympic Games” projektjében vetették fel, és a PI ezt nyíltan el is ismerte az induláskor; a kesztyű felvéve! A PI állítása szerint minden videó autonóm; ami azt jelenti, hogy a robot lebontja a feladatot, érintésgazdag mozdulatokat végez, és korrigál, ha a dolgok félremennek, anélkül, hogy egy ember irányítaná a botokat a vágások között.

Természetesen van egy nagy bökkenő: a „lenyűgöző futam” nem ugyanaz, mint a „megbízható termék”. Ezek még mindig sérülékeny, érintésgazdag feladatok, ahol a siker függhet a megvilágítástól, a tárgyak elhelyezésétől vagy egy kicsit túl nedves szivacstól. Néhány kudarc pusztán hardveres: egy túl széles fogókar elbukja az ingujj-kifordító versenyszámot, bármilyen okos is legyen az irányelv. A benchmarkok csak a kezdetet jelentik, nem a véget – ami számít, az az ismételhetőség sok kísérlet során, sok különböző konyhában. Amit érdemes figyelni: vajon ez az „alapmodell + finomhangolás + valós életbeli értékelés” körfolyamat elkezdi-e úgy sokszorozni a hatását, ahogy a nyelvi modelleknél történt. Ha igen, a gyakorlati megvalósítás idővonala kevésbé lesz sci-fi, és inkább unalmasan elkerülhetetlenné válik.

Ajtón való bejutás: navigálás egy önzáró, kilincses ajtón keresztül anélkül, hogy maga az ajtó lökne fel.
Textíliák: egy zokni kifordítása (és annak beismerése, hogy a fogókar túl széles az ingujjakhoz).
Eszközhasználat: egy apró kulcs behelyezése a zárba és elfordítása; azaz „precizitás, nyomaték és nincs második esély”.
Takarítás: egy serpenyő elmosása szappannal és vízzel, mint egy valódi ember, aki nem akar mocsokban élni.
Deformálható tárgyak: egy vékony műanyag kutyagumi-zacskó kinyitása (ami kényelmesen elvakítja a csuklókamerákat a legrosszabb pillanatban).

Miért fontos?

Mert a PI két olyan világot próbál egyesíteni, amelyek általában nem beszélnek egymással: a valós élethez hasonlító benchmarkokat (ajtók, kutyás zacskók, mosás) a steril laboratóriumi rejtvények helyett, és az alapmodell-alapú skálázást (egyszer nagyot tanítani, majd finomhangolni az új feladatokra) a minden új tárgyhoz készített egyedi irányelvek helyett. Ez közvetlenül kapcsolódik a PI legújabb, ember-robot transzferrel kapcsolatos kutatásaihoz. Az állítás az, hogy amint a VLA-kat elegendő változatos robottapasztalaton előtanítják, elkezdenek „igazodni” az emberi egocentrikus videókhoz a reprezentációs térben. Ezután a robotok olcsó emberi felvételekből is taníthatók, rengeteg explicit összehangolási trükk nélkül. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Heti cél ellenőrző sablon létrehozása ChatGPT-vel

1 órája

A Claude Opus 5 lenyűgöz egy 8 oldalas munkafüzet elemzésével

3 órája

Egy Redditor 1020 Dollárt Spórolt Claude Segítségével Orvosi Számla Tárgyalásakor

4 órája