A Meta kutatói "self-play" módszerrel tanítanak hibajavító AI-t

2025. december 30. · MI Történik? · 1 perc olvasás

A Meta FAIR részlege közzétette a Self-play SWE-RL kutatását, amely egy olyan tanítási módszer, ahol egyetlen AI modell emberi adatok nélkül tanul meg jobban kódolni azáltal, hogy hibákat generál magának, majd megoldja azokat.

A rendszer egyetlen modellt használ két szerepkörben: egy hiba-injektort, amely elrontja a kódot, és egy megoldót, amely kijavítja azt, miközben mindkettő együtt fejlődik.
Az SWE-bench Verified kódolási mérésteszten a megközelítés több mint 10 pontot javult a kiindulási ponthoz képest, és legyőzte az emberi adatokon alapuló bázisértékeket.
A módszer a sikertelen javítási kísérletekből származó „magasabb rendű hibákat” használja fel, egy olyan folyamatosan fejlődő tantervet hozva létre, amely a modell tudásszintjével együtt skálázódik.

Miért fontos?

A legtöbb mai kódoló ágens ember által válogatott GitHub-bejelentésekből tanul, ami egy véges erőforrás és korlátozza a fejlődést. A Meta self-play módszere megkerüli ezt a szűk keresztmetszetet, lehetővé téve a modellek számára, hogy végtelen mennyiségű tanítóanyagot generáljanak forráskódokból – hasonló utat járva be, mint ami a Google AlphaZero-ját emberfelettivé tette sakkban, csak most a szoftverfejlesztés területén. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Interaktív ólom mágnesek építése a Canva Code-dal

2 órája

Termékképek precíz szerkesztése mesterséges intelligenciával

tegnap

MirrorCode Benchmark: Az AI rendszerek hetes nagyságrendű programozási feladatokat oldanak meg

1 napja

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

Vektor Adatbázisok és RAG (Retrieval-Augmented Generation): Így teheted okosabbá és naprakészebbé az AI-t