Az OSUniverse benchmark az AI ágensek képességeit teszteli számítógépes környezetben

2025. május 19. · MI Történik? · 1 perc olvasás

A Kentauros AI startup létrehozta az OSUniverse-t, egy benchmarkot annak tesztelésére, hogy az AI-rendszerek mennyire jól tudják használni a számítógépet összetett feladatok elvégzésére. „A benchmark itt bemutatott első verziójában úgy kalibráltuk a tesztesetek összetettségét, hogy a jelenlegi SOTA (State of the Art) ágensek ne érjenek el 50%-nál jobb eredményt, miközben egy átlagos irodai dolgozó tökéletes pontossággal képes elvégezni ezeket a feladatokat” – írják. (A teszteken az OpenAI Computer Use ágense 47,8%-ot, a Claude 3.5 Sonnet pedig 28,36%-ot ért el).

A benchmark öt nehézségi fokozatú feladatokat tartalmaz, és minden fokozat növeli a megoldáshoz szükséges lépések számát, valamint a számítógépen kombinálandó különböző elemek mennyiségét. Az öt szint elnevezése: Papír, Fa, Bronz, Ezüst és Arany.

Papír: Az aktuális dátum leolvasása az asztalról.
Fa: A GIMP képszerkesztő megnyitása, egy üres fájl létrehozása és mentése az asztalra.
Bronz: Az Airbnb-n egy adott bejelentkezési dátummal rendelkező lisszaboni szállás keresése és az eredmény visszaadása.
Ezüst: Egy online játék megnyitása és a felhasználói felület (UI) manipulálása egy alapvető művelet elvégzéséhez.
Arany: Egy kód szó felfedése egy weboldalon egy 7x7-es kirakós játék (jigsaw puzzle) megoldásával.

Miért fontos?

Ahogy sokan várják, hogy az emberszerű kezekkel rendelkező kétlábú robotok megjelenése fordulópontot jelent majd a robotikai piacon, ugyanez valószínűsíthető a szoftverpiacon is az olyan AI-rendszerek érkezésével, amelyek úgy tudják használni a számítógépet, mint a hús-vér emberek. Gondoljunk csak a számítógépen végzett feladatainkra – a produktív munka nagyon kis része zajlik egyetlen alkalmazásban; ehelyett folyamatosan váltogatunk a programok között, és adatokat mozgatunk terminálparancsok és GUI-műveletek keverékével. Az OSUniverse-hez hasonló benchmarkok segítenek mérni, mennyire válnak ügyessé a rendszerek az ilyen típusú „összekötő” feladatokban. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az Apple bemutatta a Siri AI funkcióit és az iOS 27-et a WWDC nyitóelőadásán

most

Biotech startup kezeli az első emberi pácienst a sejtszintű öregedés visszafordítása érdekében

3 órája

A NASA X-59-es repülőgépe elérte a szuperszonikus sebességet, ami jelentős mérföldkő a repülésben

3 órája