Elemzés

Az AI ágensek a valódi szabadúszó feladatok 97%-ában elbuktak egy új teszt során

2025. november 3. · MI Történik? · 1 perc olvasás

A Scale AI és a CAIS nemrégiben tette közzé a Remote Labor Indexet, egy olyan benchmarkot, amelyben AI ágensek próbáltak meg valódi szabadúszó feladatokat (írás, kutatás, adatbevitel és tervezés) elvégezni. Annak ellenére, hogy nagy a hírverés körülöttük, miszerint az ágensek teljes munkafolyamatokat automatizálnak és helyettesítik a szabadúszókat, az eredmények csupán siralmas 2-3%-os teljesítési arányt mutattak. A legjobban teljesítő modell mindössze 1810 dollárt keresett a lehetséges 143 991 dollárból. Bár az AI képes kiegészíteni a munkát, és emberi felügyelet mellett kezelni az ismétlődő, szűk feladatokat, jelentősen küzd az összetett, elejétől a végéig tartó munkákkal, amelyek ítélőképességet és iterációt igényelnek.

A legjobban teljesítő modell a valós feladatoknak mindössze 2-3%-át fejezte be.
Az ágensek küzdöttek a több lépésből álló munkafolyamatokkal és a nem egyértelmű feladatátadásokkal.
A kétértelmű követelmények, amelyek általában emberi egyeztetést igényelnek, nehéznek bizonyultak.
Az iterációt és ügyfélvisszajelzést igénylő feladatok jelentették a legnagyobb akadályokat.
A rejtett költségek, mint a lekérdezési korlátok (rate limits), a késleltetés, a biztonsági felülvizsgálatok és az újrakezdett munka ellensúlyozták az „ingyen” munkaerőből származó nyereséget.
Egy különálló Wharton-tanulmány kimutatta, hogy a GenAI ROI-t mérő vállalatok 74%-a valójában pozitív megtérülésről számol be, rávilágítva a szűkebb sikerek és a széles körű automatizáció közötti szakadékra.

Miért fontos?

Egy olyan „köztes állapotban” vagyunk, ahol az AI lenyűgöző módon képes kiegészíteni a munkát, de az összetett feladatokban még nem tudja helyettesíteni a képzett embereket. Ezen szakadék megértése segít a vállalkozásoknak reális elvárásokat támasztani, és elkerülni a túlzott automatizációs ígéretek csapdáit. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Gemini 3.5 Flash értékelése a sebesség és az ágensi (agentic) munkaterhelés szempontjából

2026. május 28.

Új memória-kihívások és változó szűk keresztmetszetek az AI-hardverekben

2026. május 28.

Hogyan tartja kontroll alatt az Anthropic a Claude-ot a különböző termékekben

2026. május 28.