AI Hírek

A Microsoft tanulmánya szerint az AI továbbra is küzd az összetett szoftveres hibakereséssel

2025. április 11. · MI Történik? · 1 perc olvasás

A Microsoft Research közzétett egy tanulmányt, amelyből kiderül, hogy az AI ügynökök – még a legfejlettebb elérhető modellekkel meghajtottak is – továbbra is küzdenek a legtöbb szoftveres hibakeresési feladattal, amelyeket az emberi programozók rutinszerűen megoldanak.

A Microsoft kilenc LLM-et, köztük a Claude 3.7 Sonnetet használt egy „egyetlen prompt alapú ügynök” meghajtására, amelynek feladata 300 hibakeresési probléma megoldása volt a SWE-bench Lite-ból.
A teszt során az ügynök alig tudta elvégezni a kijelölt feladatok felét, még akkor is, ha a codingban kiváló frontier modelleket használt a hátterében.
Hibakereső eszközökkel a 3.7 Sonnet teljesített a legjobban, a problémák 48,4%-át oldotta meg, ezt követte az OpenAI o1 és o3-mini 30,2%-os és 22,1%-os sikerességi rátával.
A csapat megállapította, hogy a teljesítménykülönbség a szekvenciális döntéshozatali adatok (emberi hibakeresési nyomok) hiányára vezethető vissza az LLM-ek képzési korpuszában.

Miért fontos?

Miközben a befektetők és vállalatvezetők, mint a Google és a Meta továbbra is dollármilliárdokat öntenek az AI coding ügynökökbe, ez a tanulmány valóságellenőrzésként szolgál a jelenlegi állapotról. A kódgenerálás terén elért lenyűgöző haladás ellenére az AI még mindig jelentősen elmarad a hibakeresésben, amely a programozás egyik létfontosságú készsége. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az IBM vezérigazgatója szerint az AI-infrastruktúra kiépítése hátrányosan érinti a vállalati szoftvereladásokat

19 órája

Az OpenAI hordozható, okos AI-hangszórót dobna piacra

1 napja

A PrismML bemutatta az eddigi legnagyobb, iPhone-on futtatható AI-modellt

1 napja

Tudj meg többet

Microsoft Copilot: Teljes útmutató magyarul (2026)