MICROSOFT KUTATÁS
A Microsoft tanulmánya szerint az AI továbbra is küzd az összetett szoftveres hibakereséssel
A Microsoft Research közzétett egy tanulmányt, amelyből kiderül, hogy az AI ügynökök – még a legfejlettebb elérhető modellekkel meghajtottak is – továbbra is küzdenek a legtöbb szoftveres hibakeresési feladattal, amelyeket az emberi programozók rutinszerűen megoldanak.
- A Microsoft kilenc LLM-et, köztük a Claude 3.7 Sonnetet használt egy „egyetlen prompt alapú ügynök” meghajtására, amelynek feladata 300 hibakeresési probléma megoldása volt a SWE-bench Lite-ból.
- A teszt során az ügynök alig tudta elvégezni a kijelölt feladatok felét, még akkor is, ha a codingban kiváló frontier modelleket használt a hátterében.
- Hibakereső eszközökkel a 3.7 Sonnet teljesített a legjobban, a problémák 48,4%-át oldotta meg, ezt követte az OpenAI o1 és o3-mini 30,2%-os és 22,1%-os sikerességi rátával.
- A csapat megállapította, hogy a teljesítménykülönbség a szekvenciális döntéshozatali adatok (emberi hibakeresési nyomok) hiányára vezethető vissza az LLM-ek képzési korpuszában.
Miért fontos?
Miközben a befektetők és vállalatvezetők, mint a Google és a Meta továbbra is dollármilliárdokat öntenek az AI coding ügynökökbe, ez a tanulmány valóságellenőrzésként szolgál a jelenlegi állapotról. A kódgenerálás terén elért lenyűgöző haladás ellenére az AI még mindig jelentősen elmarad a hibakeresésben, amely a programozás egyik létfontosságú készsége. ---