MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az AI ágensek a valódi szabadúszó feladatok 97%-ában elbuktak egy új teszt során

A Scale AI és a CAIS nemrégiben tette közzé a Remote Labor Indexet, egy olyan benchmarkot, amelyben AI ágensek próbáltak meg valódi szabadúszó feladatokat (írás, kutatás, adatbevitel és tervezés) elvégezni. Annak ellenére, hogy nagy a hírverés körülöttük, miszerint az ágensek teljes munkafolyamatokat automatizálnak és helyettesítik a szabadúszókat, az eredmények csupán siralmas 2-3%-os teljesítési arányt mutattak. A legjobban teljesítő modell mindössze 1810 dollárt keresett a lehetséges 143 991 dollárból. Bár az AI képes kiegészíteni a munkát, és emberi felügyelet mellett kezelni az ismétlődő, szűk feladatokat, jelentősen küzd az összetett, elejétől a végéig tartó munkákkal, amelyek ítélőképességet és iterációt igényelnek.
Miért fontos?

Egy olyan „köztes állapotban” vagyunk, ahol az AI lenyűgöző módon képes kiegészíteni a munkát, de az összetett feladatokban még nem tudja helyettesíteni a képzett embereket. Ezen szakadék megértése segít a vállalkozásoknak reális elvárásokat támasztani, és elkerülni a túlzott automatizációs ígéretek csapdáit. ---

Eredeti forrás megtekintése (angol) →