Az OSUniverse benchmark az AI ágensek képességeit teszteli számítógépes környezetben
A Kentauros AI startup létrehozta az OSUniverse-t, egy benchmarkot annak tesztelésére, hogy az AI-rendszerek mennyire jól tudják használni a számítógépet összetett feladatok elvégzésére. „A benchmark itt bemutatott első verziójában úgy kalibráltuk a tesztesetek összetettségét, hogy a jelenlegi SOTA (State of the Art) ágensek ne érjenek el 50%-nál jobb eredményt, miközben egy átlagos irodai dolgozó tökéletes pontossággal képes elvégezni ezeket a feladatokat” – írják. (A teszteken az OpenAI Computer Use ágense 47,8%-ot, a Claude 3.5 Sonnet pedig 28,36%-ot ért el).
A benchmark öt nehézségi fokozatú feladatokat tartalmaz, és minden fokozat növeli a megoldáshoz szükséges lépések számát, valamint a számítógépen kombinálandó különböző elemek mennyiségét. Az öt szint elnevezése: Papír, Fa, Bronz, Ezüst és Arany.
- Papír: Az aktuális dátum leolvasása az asztalról.
- Fa: A GIMP képszerkesztő megnyitása, egy üres fájl létrehozása és mentése az asztalra.
- Bronz: Az Airbnb-n egy adott bejelentkezési dátummal rendelkező lisszaboni szállás keresése és az eredmény visszaadása.
- Ezüst: Egy online játék megnyitása és a felhasználói felület (UI) manipulálása egy alapvető művelet elvégzéséhez.
- Arany: Egy kód szó felfedése egy weboldalon egy 7x7-es kirakós játék (jigsaw puzzle) megoldásával.
Miért fontos?
Ahogy sokan várják, hogy az emberszerű kezekkel rendelkező kétlábú robotok megjelenése fordulópontot jelent majd a robotikai piacon, ugyanez valószínűsíthető a szoftverpiacon is az olyan AI-rendszerek érkezésével, amelyek úgy tudják használni a számítógépet, mint a hús-vér emberek. Gondoljunk csak a számítógépen végzett feladatainkra – a produktív munka nagyon kis része zajlik egyetlen alkalmazásban; ehelyett folyamatosan váltogatunk a programok között, és adatokat mozgatunk terminálparancsok és GUI-műveletek keverékével. Az OSUniverse-hez hasonló benchmarkok segítenek mérni, mennyire válnak ügyessé a rendszerek az ilyen típusú „összekötő” feladatokban. ---