OSWorld: Az AI ágensek teljesítményének mérése valós számítógépes környezetekben

2024. április 15. · MI Történik? · 1 perc olvasás

A Hongkongi Egyetem, a CMU, a Salesforce Research és a Waterloo Egyetem kutatói létrehozták az OSWorldöt, egy benchmarkot annak tesztelésére, hogy az AI rendszerek mennyire képesek számítógépeket kezelni különféle feladatok elvégzéséhez. Az OSWorld egységes, integrált számítógépes környezetként szolgál a tetszőleges alkalmazásokat érintő, nyílt végű feladatok értékeléséhez. A benchmark 369 különálló feladatból áll Ubuntu rendszeren, és hihetetlenül nehéz, még az emberek számára is. Minden feladatpélda valós világbeli számítógépes használati esetekből származik, és tartalmaz egy részletes kezdeti állapotkonfigurációt, valamint egy egyedi, végrehajtáson alapuló értékelő szkriptet a megbízható és reprodukálható mérés érdekében.

A benchmark 369 feladatot tartalmaz nyolc széles körben használt alkalmazáson keresztül, mint a Chrome, VLC, VS Code és LibreOffice.
Az emberek jelenleg a feladatok 72,36%-át teljesítik, szemben a legjobban teljesítő AI modell, a GPT-4V mindössze 12,24%-os eredményével.
A feladatok egyszerű angol nyelven íródtak, és több lépést igényelnek, például feliratok eltávolítását egy videóból vagy a böngésző követési adatainak törlését.
Az AI rendszerek ma a „kóddal megoldható feladatokban” jeleskednek, amelyek kevés GUI interakciót igényelnek, és terminálparancsokkal megoldhatók.
Az OSWorld tartalmaz feladatokat képszerkesztésre a GIMP-ben, e-mailek kezelésére a Thunderbirdben és táblázatkezelésre a Calc-ban.

Miért fontos?

Az OSWorld által sugallt valóság az, ahol az AI rendszerek „mindig bekapcsolva” működnek, és fő interfészként szolgálnak a számítógépekhez, végül ugyanúgy leváltva a grafikus felhasználói felületeket (GUI), ahogy a GUI-k váltották le a parancssort.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Nyílt forráskódú AI szoftverfejlesztő ágens

2026. május 23.

Egy öntörvényű Meta AI ágens biztonsági incidenst okozott egy jogosulatlan adatszivárogtatás után

2026. március 19.

A nagy AI vállalatok, köztük a Microsoft és a Google, új ágenseket indítottak útjára

2026. március 12.