AI ÁGENSEK
OSWorld: Az AI ágensek teljesítményének mérése valós számítógépes környezetekben
A Hongkongi Egyetem, a CMU, a Salesforce Research és a Waterloo Egyetem kutatói létrehozták az OSWorldöt, egy benchmarkot annak tesztelésére, hogy az AI rendszerek mennyire képesek számítógépeket kezelni különféle feladatok elvégzéséhez. Az OSWorld egységes, integrált számítógépes környezetként szolgál a tetszőleges alkalmazásokat érintő, nyílt végű feladatok értékeléséhez. A benchmark 369 különálló feladatból áll Ubuntu rendszeren, és hihetetlenül nehéz, még az emberek számára is. Minden feladatpélda valós világbeli számítógépes használati esetekből származik, és tartalmaz egy részletes kezdeti állapotkonfigurációt, valamint egy egyedi, végrehajtáson alapuló értékelő szkriptet a megbízható és reprodukálható mérés érdekében.
- A benchmark 369 feladatot tartalmaz nyolc széles körben használt alkalmazáson keresztül, mint a Chrome, VLC, VS Code és LibreOffice.
- Az emberek jelenleg a feladatok 72,36%-át teljesítik, szemben a legjobban teljesítő AI modell, a GPT-4V mindössze 12,24%-os eredményével.
- A feladatok egyszerű angol nyelven íródtak, és több lépést igényelnek, például feliratok eltávolítását egy videóból vagy a böngésző követési adatainak törlését.
- Az AI rendszerek ma a „kóddal megoldható feladatokban” jeleskednek, amelyek kevés GUI interakciót igényelnek, és terminálparancsokkal megoldhatók.
- Az OSWorld tartalmaz feladatokat képszerkesztésre a GIMP-ben, e-mailek kezelésére a Thunderbirdben és táblázatkezelésre a Calc-ban.
Miért fontos?
Az OSWorld által sugallt valóság az, ahol az AI rendszerek „mindig bekapcsolva” működnek, és fő interfészként szolgálnak a számítógépekhez, végül ugyanúgy leváltva a grafikus felhasználói felületeket (GUI), ahogy a GUI-k váltották le a parancssort.