MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Új benchmark mutatja meg, hogy az élvonalbeli AI ágensek még mindig nehézségekkel küzdenek a szakmai feladatok terén

Új benchmark mutatja meg, hogy az élvonalbeli AI ágensek még mindig nehézségekkel küzdenek a szakmai feladatok terén

Az UC Berkeley RDI kutatói nemrégiben közzétették az Agents’ Last Exam elnevezésű rangsort, amely rávilágított arra, hogy a mesterséges intelligencia ágensek még mindig messze vannak a teljes körű szakmai autonómiától. Bár az elmúlt években óriási fejlődést láttunk az LLM-ek területén, a valós, összetett szakmai munkafolyamatok végrehajtása továbbra is komoly kihívást jelent még a legfejlettebb rendszerek számára is. A tanulmány rámutatott, hogy a korábbi, egyszerűbb tesztekkel ellentétben ez az új benchmark kifejezetten a komplex, több lépésből álló feladatokra koncentrál, ahol az AI-nak nemcsak válaszolnia kell, hanem aktívan cselekednie és problémát megoldania egy adott környezetben. A rangsor eredményei szerint az ágensek még azokban a szituációkban is jelentős hibaszázalékkal dolgoznak, amelyek egy tapasztalt szakember számára mindennaposnak számítanak.

Az eredmények egyik legfontosabb tanulsága, hogy az ágensek teljesítménye nem kizárólag a mögöttes nyelvi modell, például egy GPT-4 vagy egy Claude 3 nyers erejétől függ. A kutatás során világossá vált, hogy az úgynevezett harness, vagyis az a működési keretrendszer és szoftveres architektúra, amelybe az AI-t beágyazzák, legalább olyan kritikus tényező a siker szempontjából, mint maga az intelligencia. Az OpenClaw projekt pontszámai is ezt támasztották alá: hiába rendelkezik egy modell kiváló logikai képességekkel, ha az őt körülvevő rendszer, az adatbeviteli csatornák és az eszközhasználat (tool use) nincs megfelelően optimalizálva, az ágens elbukik a bonyolultabb szakmai forgatókönyvek során. Ez azt jelenti, hogy a jövőben a fejlesztőknek nemcsak a modellek tanítására, hanem a köréjük épített infrastruktúra finomhangolására is kiemelt figyelmet kell fordítaniuk.

Ez a felismerés alapvetően változtathatja meg azt, ahogyan a startupok és a nagyvállalati fejlesztők az AI-megoldásokhoz nyúlnak. A benchmark rávilágított arra, hogy a vállalati szintű megbízhatóság eléréséhez nem elég a legújabb és legerősebb modellt API-n keresztül elérni. A kulcs az ágens összehangolásának, vagyis az orchestration folyamatának tökéletesítésében rejlik. A komplex munkafolyamatok megkövetelik, hogy az ágens képes legyen hosszú távú tervezésre, a hibák önálló felismerésére és korrigálására, valamint a külső szoftveres eszközök precíz kezelésére. A jelenlegi eredmények szerint ezen a téren még jelentős fejlődési lehetőségek vannak, mivel még a legmodernebb összeállítások is gyakran bizonytalankodnak a váratlan vagy több döntési pontot igénylő szakmai szituációkban.

Összességében az Agents’ Last Exam egyfajta kijózanító emlékeztető az AI-ipar számára: a modellek elméleti tudása már sokszor elegendő lenne, de az alkalmazott intelligencia és a gyakorlati megvalósítás még finomításra szorul. A jövőbeli fejlesztések fókusza valószínűleg eltolódik majd a puszta paraméterszám-növeléstől a hatékonyabb keretrendszerek és a robusztusabb ágens-architektúrák irányába. Ez az út vezethet el oda, hogy az AI ne csak egy digitális asszisztensként, hanem valódi, önállóan dolgozni képes és megbízható szakmai partnerként jelenhessen meg a vállalati környezetben. A szakadék a nyers modellintelligencia és a gyakorlati alkalmazhatóság között még létezik, de a mostani mérések pontosan kijelölik, hol van szükség a legtöbb munkára.

Miért fontos?

Ez rávilágít arra, hogy egy olyan nagy teljesítményű modell, mint a GPT-4 vagy a Claude 3 önmagában nem elég; az ágens összehangolásának (orchestration) módja a kulcs a vállalati szintű megbízhatósághoz.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Esik az Oracle árfolyama a bevételnövekedés ellenére az AI kiadásokkal kapcsolatos aggodalmak miatt
14 órája
Az OpenAI drasztikus API árcsökkentést fontolgat és az Ona infrastruktúra-startup felvásárlását tervezi
18 órája
A SemiAnalysis feltárta: az AI laborok ezreket veszítenek a havi felhasználói előfizetéseken
18 órája
Tudj meg többet
Neurális hálózat: mi az és hogyan tanul? Egyszerű magyarázat
Gépi tanulás: mi az és hogyan működik? Érthető magyarázat kezdőknek