MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Microsoft kutatói interaktív hibakereső eszközökkel fejlesztik az LLM-ek kódolási készségeit

A Microsoft, a McGill University és a Mila kutatói javították a kódoló ágensek teljesítményét azáltal, hogy hozzáférést biztosítottak nekik bizonyos hibakereső (debug) eszközökhöz. A nagyobb és képzettebb AI rendszerek képesek hatékonyan használni ezeket az eszközöket, míg a kisebbek küszködnek velük. A kutatás rávilágít arra, hogyan lehet korábban láthatatlan képességeket felszabadítani az AI rendszerekben pusztán azáltal, hogy hozzáférést adunk nekik a megfelelő eszközökhöz. Létrehozták a „debug-gym”-et, egy olyan szoftvert, amely hozzáférést ad egy LLM számára a Python pdb hibakeresőjéhez, lehetővé téve egy AI ágens számára, hogy „töréspontokat állítson be, navigáljon a kódban, kiírassa a változók értékeit, és akár menet közben tesztfüggvényeket hozzon létre”. A tesztek során megmutatták, hogy a debug-gym-hez hozzáféréssel rendelkező ágensek képesek javítani teljesítményüket a SWE-Bench-lite-on, amely a széles körben használt SWE-Bench programozási benchmark 300 kérdésből álló részhalmaza. Konkrétan kimutatták, hogy az o1-preview, az o3-mini és a Claude 3.7 Sonnet modellek mind profitálnak a pdb-ből a debug-gym-en keresztül, és szignifikánsan magasabb pontszámokat érnek el vele, mint nélküle. Ezzel szemben az „Aider” benchmarkon a pdb-hez való hozzáférés nem tűnik nagy különbséget jelentőnek. A szerzők feltételezése szerint ez azért van, mert „az Aider viszonylag egyszerű logikájú kódok generálását igényli, így az interaktív hibakereső eszközök, mint a pdb, csak minimális többletinformációt nyújtanak.” Ettől függetlenül még sok a tennivaló – „bár látunk életjeleket a legerősebb LLM-eket használó ágensektől, a legjobb ágens-modell kombináció is alig tudja megoldani a SWE-bench-Lite feladatok felét” – írják.
Miért fontos?

Az ehhez hasonló rendszerek újabb példái a körülöttünk lévő „képességtöbbletnek” (capability overhang) – az LLM-eket pusztán azáltal jobbá lehet tenni, hogy párosítjuk őket a megfelelő eszközökkel, és manapság már nincs szükség az LLM-ek különösebb adaptálására ezekhez az eszközökhöz az alapvető promptoláson túl. Másképpen fogalmazva: ha ma leállítanánk minden AI fejlődést, a rendszerek képességei egy ideig még tovább fejlődnének kizárólag a jobb eszközök létrehozása révén. ---

Eredeti forrás megtekintése (angol) →