Az AI-rendszerek elérték a telítettségi szintet a valós szoftvermérnöki teljesítménymérésekben

2026. május 4. · MI Történik? · 1 perc olvasás

Az AI-rendszerek forradalmasították a kódgyártást azáltal, hogy jelentősen javult a képességük az összetett, valós kódok megírására és a lineáris kódolási feladatok emberi felügyelet nélküli összekapcsolására. A SWE-Bench értékelés, amely valós GitHub problémák megoldásán teszteli az AI-t, drámai fejlődésen ment keresztül. Amikor a teszt 2023 végén elindult, a legjobb pontszám körülbelül 2% volt. A jelenlegi modellek, mint például a Claude Mythos Preview, már 93,9%-os eredményt érnek el, ami a címkézési zajt figyelembe véve gyakorlatilag a teszt telítettségét jelenti. Ez azt sugallja, hogy az AI-rendszerek most már képesek az AI-kutatáshoz és -fejlesztéshez szükséges mérnöki munka jelentős részének automatizálására.

A SWE-Bench azt méri, hogy az AI képes-e megoldani valós GitHub hibajegyeket.
A Claude Mythos Preview 93,9%-os sikerességi arányt ért el, megközelítve a teszt elméleti határát.
Becslések szerint az olyan nagy adatbázisok, mint az ImageNet címkéinek körülbelül 6%-a hibás vagy kétértelmű, ami azt jelenti, hogy a 90-es évek végi százalékok már telítettséget jeleznek.
A vezető laboratóriumok mérnökei egyre gyakrabban használnak AI-t tesztek írására és a kód ellenőrzésére a kódírás mellett.

Miért fontos?

A szoftvermérnöki tevékenység automatizálása az automatizált AI K+F előfeltétele, mivel az AI-rendszerek alapvetően kódon keresztül valósulnak meg. A SWE-Bench-en elért magas pontszámok azt jelzik, hogy az AI-fejlesztés „mérnöki” szűk keresztmetszete kezd megszűnni. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Nyílt forráskódúvá tette az xAI a Grok Build CLI-t az adatvédelmi aggályokat követően

most

A Google Gemini Spark alkalmazásokon átívelő képességeket és 50%-os sebességnövekedést kapott

most

Hogyan adjunk látási képességeket a GLM-5.2 open-source modellekhez

most