MÉLYELEMZÉS
Az AI ágensek a valódi szabadúszó feladatok 97%-ában elbuktak egy új teszt során
A Scale AI és a CAIS nemrégiben tette közzé a Remote Labor Indexet, egy olyan benchmarkot, amelyben AI ágensek próbáltak meg valódi szabadúszó feladatokat (írás, kutatás, adatbevitel és tervezés) elvégezni. Annak ellenére, hogy nagy a hírverés körülöttük, miszerint az ágensek teljes munkafolyamatokat automatizálnak és helyettesítik a szabadúszókat, az eredmények csupán siralmas 2-3%-os teljesítési arányt mutattak. A legjobban teljesítő modell mindössze 1810 dollárt keresett a lehetséges 143 991 dollárból. Bár az AI képes kiegészíteni a munkát, és emberi felügyelet mellett kezelni az ismétlődő, szűk feladatokat, jelentősen küzd az összetett, elejétől a végéig tartó munkákkal, amelyek ítélőképességet és iterációt igényelnek.
- A legjobban teljesítő modell a valós feladatoknak mindössze 2-3%-át fejezte be.
- Az ágensek küzdöttek a több lépésből álló munkafolyamatokkal és a nem egyértelmű feladatátadásokkal.
- A kétértelmű követelmények, amelyek általában emberi egyeztetést igényelnek, nehéznek bizonyultak.
- Az iterációt és ügyfélvisszajelzést igénylő feladatok jelentették a legnagyobb akadályokat.
- A rejtett költségek, mint a lekérdezési korlátok (rate limits), a késleltetés, a biztonsági felülvizsgálatok és az újrakezdett munka ellensúlyozták az „ingyen” munkaerőből származó nyereséget.
- Egy különálló Wharton-tanulmány kimutatta, hogy a GenAI ROI-t mérő vállalatok 74%-a valójában pozitív megtérülésről számol be, rávilágítva a szűkebb sikerek és a széles körű automatizáció közötti szakadékra.
Miért fontos?
Egy olyan „köztes állapotban” vagyunk, ahol az AI lenyűgöző módon képes kiegészíteni a munkát, de az összetett feladatokban még nem tudja helyettesíteni a képzett embereket. Ezen szakadék megértése segít a vállalkozásoknak reális elvárásokat támasztani, és elkerülni a túlzott automatizációs ígéretek csapdáit. ---