PROGRAMOZÁSI KÉPESSÉGEK
Az AI-rendszerek elérték a telítettségi szintet a valós szoftvermérnöki teljesítménymérésekben
Az AI-rendszerek forradalmasították a kódgyártást azáltal, hogy jelentősen javult a képességük az összetett, valós kódok megírására és a lineáris kódolási feladatok emberi felügyelet nélküli összekapcsolására. A SWE-Bench értékelés, amely valós GitHub problémák megoldásán teszteli az AI-t, drámai fejlődésen ment keresztül. Amikor a teszt 2023 végén elindult, a legjobb pontszám körülbelül 2% volt. A jelenlegi modellek, mint például a Claude Mythos Preview, már 93,9%-os eredményt érnek el, ami a címkézési zajt figyelembe véve gyakorlatilag a teszt telítettségét jelenti. Ez azt sugallja, hogy az AI-rendszerek most már képesek az AI-kutatáshoz és -fejlesztéshez szükséges mérnöki munka jelentős részének automatizálására.
- A SWE-Bench azt méri, hogy az AI képes-e megoldani valós GitHub hibajegyeket.
- A Claude Mythos Preview 93,9%-os sikerességi arányt ért el, megközelítve a teszt elméleti határát.
- Becslések szerint az olyan nagy adatbázisok, mint az ImageNet címkéinek körülbelül 6%-a hibás vagy kétértelmű, ami azt jelenti, hogy a 90-es évek végi százalékok már telítettséget jeleznek.
- A vezető laboratóriumok mérnökei egyre gyakrabban használnak AI-t tesztek írására és a kód ellenőrzésére a kódírás mellett.
Miért fontos?
A szoftvermérnöki tevékenység automatizálása az automatizált AI K+F előfeltétele, mivel az AI-rendszerek alapvetően kódon keresztül valósulnak meg. A SWE-Bench-en elért magas pontszámok azt jelzik, hogy az AI-fejlesztés „mérnöki” szűk keresztmetszete kezd megszűnni. ---