Új benchmark mutatja meg, hogy az élvonalbeli AI ágensek még mindig nehézségekkel küzdenek a szakmai feladatok terén
Új benchmark mutatja meg, hogy az élvonalbeli AI ágensek még mindig nehézségekkel küzdenek a szakmai feladatok terén
Az UC Berkeley RDI kutatói nemrégiben közzétették az Agents’ Last Exam elnevezésű rangsort, amely rávilágított arra, hogy a mesterséges intelligencia ágensek még mindig messze vannak a teljes körű szakmai autonómiától. Bár az elmúlt években óriási fejlődést láttunk az LLM-ek területén, a valós, összetett szakmai munkafolyamatok végrehajtása továbbra is komoly kihívást jelent még a legfejlettebb rendszerek számára is. A tanulmány rámutatott, hogy a korábbi, egyszerűbb tesztekkel ellentétben ez az új benchmark kifejezetten a komplex, több lépésből álló feladatokra koncentrál, ahol az AI-nak nemcsak válaszolnia kell, hanem aktívan cselekednie és problémát megoldania egy adott környezetben. A rangsor eredményei szerint az ágensek még azokban a szituációkban is jelentős hibaszázalékkal dolgoznak, amelyek egy tapasztalt szakember számára mindennaposnak számítanak.
Az eredmények egyik legfontosabb tanulsága, hogy az ágensek teljesítménye nem kizárólag a mögöttes nyelvi modell, például egy GPT-4 vagy egy Claude 3 nyers erejétől függ. A kutatás során világossá vált, hogy az úgynevezett harness, vagyis az a működési keretrendszer és szoftveres architektúra, amelybe az AI-t beágyazzák, legalább olyan kritikus tényező a siker szempontjából, mint maga az intelligencia. Az OpenClaw projekt pontszámai is ezt támasztották alá: hiába rendelkezik egy modell kiváló logikai képességekkel, ha az őt körülvevő rendszer, az adatbeviteli csatornák és az eszközhasználat (tool use) nincs megfelelően optimalizálva, az ágens elbukik a bonyolultabb szakmai forgatókönyvek során. Ez azt jelenti, hogy a jövőben a fejlesztőknek nemcsak a modellek tanítására, hanem a köréjük épített infrastruktúra finomhangolására is kiemelt figyelmet kell fordítaniuk.
Ez a felismerés alapvetően változtathatja meg azt, ahogyan a startupok és a nagyvállalati fejlesztők az AI-megoldásokhoz nyúlnak. A benchmark rávilágított arra, hogy a vállalati szintű megbízhatóság eléréséhez nem elég a legújabb és legerősebb modellt API-n keresztül elérni. A kulcs az ágens összehangolásának, vagyis az orchestration folyamatának tökéletesítésében rejlik. A komplex munkafolyamatok megkövetelik, hogy az ágens képes legyen hosszú távú tervezésre, a hibák önálló felismerésére és korrigálására, valamint a külső szoftveres eszközök precíz kezelésére. A jelenlegi eredmények szerint ezen a téren még jelentős fejlődési lehetőségek vannak, mivel még a legmodernebb összeállítások is gyakran bizonytalankodnak a váratlan vagy több döntési pontot igénylő szakmai szituációkban.
Összességében az Agents’ Last Exam egyfajta kijózanító emlékeztető az AI-ipar számára: a modellek elméleti tudása már sokszor elegendő lenne, de az alkalmazott intelligencia és a gyakorlati megvalósítás még finomításra szorul. A jövőbeli fejlesztések fókusza valószínűleg eltolódik majd a puszta paraméterszám-növeléstől a hatékonyabb keretrendszerek és a robusztusabb ágens-architektúrák irányába. Ez az út vezethet el oda, hogy az AI ne csak egy digitális asszisztensként, hanem valódi, önállóan dolgozni képes és megbízható szakmai partnerként jelenhessen meg a vállalati környezetben. A szakadék a nyers modellintelligencia és a gyakorlati alkalmazhatóság között még létezik, de a mostani mérések pontosan kijelölik, hol van szükség a legtöbb munkára.
- A benchmark az egyszerű feladatok helyett a komplex szakmai munkafolyamatokra összpontosított.
- Az élvonalbeli ágensek jelentős fejlődési lehetőséget mutattak ezekben a forgatókönyvekben.
- A „harness” (működési keretrendszer) kritikus tényezőnek bizonyult a siker szempontjából.
Ez rávilágít arra, hogy egy olyan nagy teljesítményű modell, mint a GPT-4 vagy a Claude 3 önmagában nem elég; az ágens összehangolásának (orchestration) módja a kulcs a vállalati szintű megbízhatósághoz.