MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OSUniverse benchmark az AI ágensek képességeit teszteli számítógépes környezetben

A Kentauros AI startup létrehozta az OSUniverse-t, egy benchmarkot annak tesztelésére, hogy az AI-rendszerek mennyire jól tudják használni a számítógépet összetett feladatok elvégzésére. „A benchmark itt bemutatott első verziójában úgy kalibráltuk a tesztesetek összetettségét, hogy a jelenlegi SOTA (State of the Art) ágensek ne érjenek el 50%-nál jobb eredményt, miközben egy átlagos irodai dolgozó tökéletes pontossággal képes elvégezni ezeket a feladatokat” – írják. (A teszteken az OpenAI Computer Use ágense 47,8%-ot, a Claude 3.5 Sonnet pedig 28,36%-ot ért el). A benchmark öt nehézségi fokozatú feladatokat tartalmaz, és minden fokozat növeli a megoldáshoz szükséges lépések számát, valamint a számítógépen kombinálandó különböző elemek mennyiségét. Az öt szint elnevezése: Papír, Fa, Bronz, Ezüst és Arany.
Miért fontos?

Ahogy sokan várják, hogy az emberszerű kezekkel rendelkező kétlábú robotok megjelenése fordulópontot jelent majd a robotikai piacon, ugyanez valószínűsíthető a szoftverpiacon is az olyan AI-rendszerek érkezésével, amelyek úgy tudják használni a számítógépet, mint a hús-vér emberek. Gondoljunk csak a számítógépen végzett feladatainkra – a produktív munka nagyon kis része zajlik egyetlen alkalmazásban; ehelyett folyamatosan váltogatunk a programok között, és adatokat mozgatunk terminálparancsok és GUI-műveletek keverékével. Az OSUniverse-hez hasonló benchmarkok segítenek mérni, mennyire válnak ügyessé a rendszerek az ilyen típusú „összekötő” feladatokban. ---

Eredeti forrás megtekintése (angol) →