MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

OSWorld: Az AI ágensek teljesítményének mérése valós számítógépes környezetekben

A Hongkongi Egyetem, a CMU, a Salesforce Research és a Waterloo Egyetem kutatói létrehozták az OSWorldöt, egy benchmarkot annak tesztelésére, hogy az AI rendszerek mennyire képesek számítógépeket kezelni különféle feladatok elvégzéséhez. Az OSWorld egységes, integrált számítógépes környezetként szolgál a tetszőleges alkalmazásokat érintő, nyílt végű feladatok értékeléséhez. A benchmark 369 különálló feladatból áll Ubuntu rendszeren, és hihetetlenül nehéz, még az emberek számára is. Minden feladatpélda valós világbeli számítógépes használati esetekből származik, és tartalmaz egy részletes kezdeti állapotkonfigurációt, valamint egy egyedi, végrehajtáson alapuló értékelő szkriptet a megbízható és reprodukálható mérés érdekében.
Miért fontos?

Az OSWorld által sugallt valóság az, ahol az AI rendszerek „mindig bekapcsolva” működnek, és fő interfészként szolgálnak a számítógépekhez, végül ugyanúgy leváltva a grafikus felhasználói felületeket (GUI), ahogy a GUI-k váltották le a parancssort.

Eredeti forrás megtekintése (angol) →