AI KUTATÁS
A Meta kutatói "self-play" módszerrel tanítanak hibajavító AI-t
A Meta FAIR részlege közzétette a Self-play SWE-RL kutatását, amely egy olyan tanítási módszer, ahol egyetlen AI modell emberi adatok nélkül tanul meg jobban kódolni azáltal, hogy hibákat generál magának, majd megoldja azokat.
- A rendszer egyetlen modellt használ két szerepkörben: egy hiba-injektort, amely elrontja a kódot, és egy megoldót, amely kijavítja azt, miközben mindkettő együtt fejlődik.
- Az SWE-bench Verified kódolási mérésteszten a megközelítés több mint 10 pontot javult a kiindulási ponthoz képest, és legyőzte az emberi adatokon alapuló bázisértékeket.
- A módszer a sikertelen javítási kísérletekből származó „magasabb rendű hibákat” használja fel, egy olyan folyamatosan fejlődő tantervet hozva létre, amely a modell tudásszintjével együtt skálázódik.
Miért fontos?
A legtöbb mai kódoló ágens ember által válogatott GitHub-bejelentésekből tanul, ami egy véges erőforrás és korlátozza a fejlődést. A Meta self-play módszere megkerüli ezt a szűk keresztmetszetet, lehetővé téve a modellek számára, hogy végtelen mennyiségű tanítóanyagot generáljanak forráskódokból – hasonló utat járva be, mint ami a Google AlphaZero-ját emberfelettivé tette sakkban, csak most a szoftverfejlesztés területén. ---