KUTATÁS
Az OpenAI SWE-Lancer benchmarkja valós szabadúszó szoftveres feladatokon teszteli az AI-modelleket
Az OpenAI kutatói kifejlesztettek egy új benchmarkot, az SWE-Lancer-t, hogy értékeljék, képesek-e a nagy nyelvi modellek (LLM-ek) valós szabadúszó szoftvermérnöki feladatok elvégzésére. A benchmark felépítéséhez a kutatók 1488 valós munkát gyűjtöttek össze az Upwork-ről, az 50 dolláros hibajavításoktól a 32 000 dolláros funkciófejlesztésekig, összesen 1 millió dollár értékben. Ez a pénzügyi megközelítés lehetővé teszi, hogy a benchmark ne csak a technikai pontosságot, hanem az AI-modellek gazdasági életképességét is mérje a munkaerőpiacon. Az értékelés két fő kategóriára terjed ki: egyéni kódolási feladatokra és technikai döntéshozatalra, ahol a modellek szoftvermérnöki menedzserként járnak el.
- Az adatkészlet 1488 valós, közvetlenül az Upwork-ről származó szoftvermérnöki munkát tartalmaz.
- A Claude 3.5 Sonnet teljesített a legjobban, az elérhető 1 millió dollárból 403 000 dollárt (40,3%) keresve.
- Az OpenAI o1 modellje követte 380 000 dollárral, míg a GPT-4o 304 000 dollárt gyűjtött össze.
- A modellek sokkal jobban teljesítettek a döntéshozatalban és a hibajavításban, mint az új funkciók létrehozásában.
- Az AI jelentősen küzdött a rendszerszintű minőségi és UI/UX feladatokkal, bizonyos kategóriákban 0% közeli teljesítményt nyújtva.
- A kódolási feladatokat end-to-end (E2E) tesztekkel és mérnökök általi háromszoros ellenőrzéssel hitelesítették.
Miért fontos?
Az SWE-Lancer új módszert vezet be az AI hatásának mérésére azáltal, hogy a teljesítményt közvetlenül pénzbeli értékhez rendeli. Az eredmények azt sugallják, hogy bár az AI segíthet a technikai döntéshozatalban és konkrét hibák javításában, még mindig hiányoznak belőle a komplex, teljes körű szoftverfejlesztéshez és rendszerszintű megbízhatósághoz szükséges gyakorlati problémamegoldó készségek.