MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az AI-rendszerek elérték a telítettségi szintet a valós szoftvermérnöki teljesítménymérésekben

Az AI-rendszerek forradalmasították a kódgyártást azáltal, hogy jelentősen javult a képességük az összetett, valós kódok megírására és a lineáris kódolási feladatok emberi felügyelet nélküli összekapcsolására. A SWE-Bench értékelés, amely valós GitHub problémák megoldásán teszteli az AI-t, drámai fejlődésen ment keresztül. Amikor a teszt 2023 végén elindult, a legjobb pontszám körülbelül 2% volt. A jelenlegi modellek, mint például a Claude Mythos Preview, már 93,9%-os eredményt érnek el, ami a címkézési zajt figyelembe véve gyakorlatilag a teszt telítettségét jelenti. Ez azt sugallja, hogy az AI-rendszerek most már képesek az AI-kutatáshoz és -fejlesztéshez szükséges mérnöki munka jelentős részének automatizálására.
Miért fontos?

A szoftvermérnöki tevékenység automatizálása az automatizált AI K+F előfeltétele, mivel az AI-rendszerek alapvetően kódon keresztül valósulnak meg. A SWE-Bench-en elért magas pontszámok azt jelzik, hogy az AI-fejlesztés „mérnöki” szűk keresztmetszete kezd megszűnni. ---

Eredeti forrás megtekintése (angol) →