A Microsoft kutatói interaktív hibakereső eszközökkel fejlesztik az LLM-ek kódolási készségeit

2025. március 31. · MI Történik? · 2 perc olvasás

A Microsoft, a McGill University és a Mila kutatói javították a kódoló ágensek teljesítményét azáltal, hogy hozzáférést biztosítottak nekik bizonyos hibakereső (debug) eszközökhöz. A nagyobb és képzettebb AI rendszerek képesek hatékonyan használni ezeket az eszközöket, míg a kisebbek küszködnek velük. A kutatás rávilágít arra, hogyan lehet korábban láthatatlan képességeket felszabadítani az AI rendszerekben pusztán azáltal, hogy hozzáférést adunk nekik a megfelelő eszközökhöz.

Létrehozták a „debug-gym”-et, egy olyan szoftvert, amely hozzáférést ad egy LLM számára a Python pdb hibakeresőjéhez, lehetővé téve egy AI ágens számára, hogy „töréspontokat állítson be, navigáljon a kódban, kiírassa a változók értékeit, és akár menet közben tesztfüggvényeket hozzon létre”. A tesztek során megmutatták, hogy a debug-gym-hez hozzáféréssel rendelkező ágensek képesek javítani teljesítményüket a SWE-Bench-lite-on, amely a széles körben használt SWE-Bench programozási benchmark 300 kérdésből álló részhalmaza. Konkrétan kimutatták, hogy az o1-preview, az o3-mini és a Claude 3.7 Sonnet modellek mind profitálnak a pdb-ből a debug-gym-en keresztül, és szignifikánsan magasabb pontszámokat érnek el vele, mint nélküle.

Ezzel szemben az „Aider” benchmarkon a pdb-hez való hozzáférés nem tűnik nagy különbséget jelentőnek. A szerzők feltételezése szerint ez azért van, mert „az Aider viszonylag egyszerű logikájú kódok generálását igényli, így az interaktív hibakereső eszközök, mint a pdb, csak minimális többletinformációt nyújtanak.” Ettől függetlenül még sok a tennivaló – „bár látunk életjeleket a legerősebb LLM-eket használó ágensektől, a legjobb ágens-modell kombináció is alig tudja megoldani a SWE-bench-Lite feladatok felét” – írják.

A debug-gym hozzáférést biztosít az LLM-eknek a Python hibakeresőjéhez (pdb).
Az eszköz lehetővé teszi az ágenseknek a töréspontok beállítását, a kódnavigációt és a változóértékek valós idejű kiíratását.
Az o1-preview és a Claude 3.7 Sonnet modellek jelentős teljesítménynövekedést mutattak a SWE-Bench-lite teszten.
A kisebb modellek általában nehezen tudják hatékonyan használni az interaktív hibakereső eszközöket.
A teljesítménybeli különbségek továbbra is fennállnak, mivel még a legjobb modellek is csak a kitűzött feladatok mintegy 50%-át oldják meg.
A kutatók szerint a kudarcok oka a szekvenciális döntéshozatali adatok hiánya a tanító adatbázisokban.

Miért fontos?

Az ehhez hasonló rendszerek újabb példái a körülöttünk lévő „képességtöbbletnek” (capability overhang) – az LLM-eket pusztán azáltal jobbá lehet tenni, hogy párosítjuk őket a megfelelő eszközökkel, és manapság már nincs szükség az LLM-ek különösebb adaptálására ezekhez az eszközökhöz az alapvető promptoláson túl. Másképpen fogalmazva: ha ma leállítanánk minden AI fejlődést, a rendszerek képességei egy ideig még tovább fejlődnének kizárólag a jobb eszközök létrehozása révén. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A különbségek megértése: Skill-ek, Project-ek, GPT-k, Agent-ek és Plugin-ek

tegnap

A Google frissítette a NotebookLM-et forrás-jóváhagyással és többféle exportálási formátummal

3 napja

Az Alexa for Shopping már egyedi ajándéktárgyakat generál promptok alapján

4 napja

Tudj meg többet

Ingyenes AI eszközök 2026 - Top 15

AI programozás: Hogyan építs saját alkalmazást kódolási tudás nélkül