MirrorCode: Az AI visszafejti a szoftvereket
Az AI mérési szervezetek, a METR és az Epoch létrehozták a MirrorCode-ot, egy benchmarkot, amely azt hivatott tesztelni, hogy az AI modellek mennyire képesek önállóan reimplementálni komplex, létező szoftvereket. Az eredmények azt mutatják, hogy az AI rendszerek bizonyos kódolási feladatokban sokkal képesebbek, mint azt a legtöbben gondolnák, jelezve, hogy az AI fejlődése még gyorsabb lehet, mint azt korábban gondoltuk.
- Mi az a MirrorCode: „Minden MirrorCode feladat egy command-line (CLI) programból áll, amelyet egy ügynöknek pontosan reimplementálnia kell. Az AI ügynök csak végrehajtási jogot kap az eredeti programhoz és egy sor látható tesztesethez, de nincs hozzáférése az eredeti forráskódhoz” – írják a kutatók. „A teljes MirrorCode benchmark több mint 20 célprogramot tartalmaz, amelyek a számítástechnika különböző területeit ölelik fel: Unix segédprogramok, adatszerializációs és lekérdező eszközök, bioinformatika, interpreterek, statikus analízis, kriptográfia és tömörítés.”
- Az eredmények: A mai AI modellek rendkívül alkalmasak bizonyos feladatok elvégzésére: „A Claude Opus 4.6 sikeresen reimplementálta a gotree-t – egy bioinformatikai toolkitet, amely körülbelül 16 000 sor Go kódot és több mint 40 parancsot tartalmaz. Becsléseink szerint ugyanez a feladat egy emberi mérnöknek AI segítség nélkül 2–17 hetet venne igénybe. Folyamatos előrelépést tapasztalunk az inference scaling révén nagyobb projektek esetében is, ami azt sugallja, hogy elegendő tokenekkel megoldhatók lehetnek.” Ezenkívül azt is megállapították, hogy a teljesítmény skálázható az inference-szel, tehát minél több számítási kapacitást biztosítunk egy modellnek, annál jobban fog teljesíteni.
- Megjegyzések: Ez a benchmark azonban nem teljesen olyan, mint a szokásos kódolási tesztek. Inkább úgy kell rá gondolni, mint egy bizonyítékra arra, hogy az AI rendszerek képesek olyan rendszereket generálni, amelyek más rendszerek működését utánozzák, ha sok segítséget kapnak: Az itt tesztelt AI rendszereket arra kérik, hogy klónozzanak programokat, amelyek kanonikus kimenetet produkálnak (és ezáltal természetesen specifikációt generálhatnak), előfordulhatnak memorizálási esetek az alapvető programoknál, és ez csak egy szeletét fedi le a potenciális szoftverprojektek hatalmas univerzumának.
Miért fontos?
Képzelje el, hogy egy tehetséges szoftverprogramozónak ad egy CLI interfészt egy bonyolult programhoz, és megkéri, hogy írja meg az alapul szolgáló programot anélkül, hogy látná a forráskódot. Megkockáztatom, hogy csak töredékük lenne képes erre, ha a program elég kifinomult lenne. És azok, akik meg tudnák csinálni, valószínűleg sok napot töltenének vele. Az a tény, hogy az AI képes önállóan elvégezni ezt a feladatot, figyelemre méltó, és bizonyítja ezen modellek képességeit.