MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI SWE-Lancer benchmarkja valós szabadúszó szoftveres feladatokon teszteli az AI-modelleket

Az OpenAI kutatói kifejlesztettek egy új benchmarkot, az SWE-Lancer-t, hogy értékeljék, képesek-e a nagy nyelvi modellek (LLM-ek) valós szabadúszó szoftvermérnöki feladatok elvégzésére. A benchmark felépítéséhez a kutatók 1488 valós munkát gyűjtöttek össze az Upwork-ről, az 50 dolláros hibajavításoktól a 32 000 dolláros funkciófejlesztésekig, összesen 1 millió dollár értékben. Ez a pénzügyi megközelítés lehetővé teszi, hogy a benchmark ne csak a technikai pontosságot, hanem az AI-modellek gazdasági életképességét is mérje a munkaerőpiacon. Az értékelés két fő kategóriára terjed ki: egyéni kódolási feladatokra és technikai döntéshozatalra, ahol a modellek szoftvermérnöki menedzserként járnak el.
Miért fontos?

Az SWE-Lancer új módszert vezet be az AI hatásának mérésére azáltal, hogy a teljesítményt közvetlenül pénzbeli értékhez rendeli. Az eredmények azt sugallják, hogy bár az AI segíthet a technikai döntéshozatalban és konkrét hibák javításában, még mindig hiányoznak belőle a komplex, teljes körű szoftverfejlesztéshez és rendszerszintű megbízhatósághoz szükséges gyakorlati problémamegoldó készségek.

Eredeti forrás megtekintése (angol) →