MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI SWE-Lancer benchmarkja valós szabadúszó szoftveres feladatokon teszteli az AI-modelleket

Az OpenAI kutatói kifejlesztettek egy új benchmarkot, az SWE-Lancer-t, hogy értékeljék, képesek-e a nagy nyelvi modellek (LLM-ek) valós szabadúszó szoftvermérnöki feladatok elvégzésére. A benchmark felépítéséhez a kutatók 1488 valós munkát gyűjtöttek össze az Upwork-ről, az 50 dolláros hibajavításoktól a 32 000 dolláros funkciófejlesztésekig, összesen 1 millió dollár értékben. Ez a pénzügyi megközelítés lehetővé teszi, hogy a benchmark ne csak a technikai pontosságot, hanem az AI-modellek gazdasági életképességét is mérje a munkaerőpiacon. Az értékelés két fő kategóriára terjed ki: egyéni kódolási feladatokra és technikai döntéshozatalra, ahol a modellek szoftvermérnöki menedzserként járnak el.

Miért fontos?

Az SWE-Lancer új módszert vezet be az AI hatásának mérésére azáltal, hogy a teljesítményt közvetlenül pénzbeli értékhez rendeli. Az eredmények azt sugallják, hogy bár az AI segíthet a technikai döntéshozatalban és konkrét hibák javításában, még mindig hiányoznak belőle a komplex, teljes körű szoftverfejlesztéshez és rendszerszintű megbízhatósághoz szükséges gyakorlati problémamegoldó készségek.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást
3 napja
Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket
4 napja
Tanulmány: Az AI tutorok felülmúlják a jogi kart
2026. június 4.
Tudj meg többet
AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés
OpenAI Sora: AI videógenerálás – minden, amit tudni kell