MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
A DeepSWE benchmark összetett, hosszú távú feladatokon értékeli az AI ágenseket

A DeepSWE benchmark összetett, hosszú távú feladatokon értékeli az AI ágenseket

A szoftverfejlesztésre szakosodott AI ágensek képességeinek mérése új szintre lépett a DeepSWE benchmark megjelenésével. Ez az innovatív értékelési keretrendszer kifejezetten arra hivatott, hogy a korábbi teszteknél jóval összetettebb és hosszabb távú feladatokon keresztül vizsgálja az AI modellek valódi programozói teljesítményét. A benchmark összesen 113 eredeti feladatot tartalmaz, amelyeket 91 valós, aktív adattárban és öt különböző programozási nyelven kell megoldaniuk az ágenseknek. Bár a teszt során megadott promptok rövidebbek, mint a már ismert SWE-bench Pro esetében, a megoldásokhoz szükséges kódmódosítások nagyságrendekkel komplexebbek: átlagosan 668 sornyi kód megírása vagy módosítása szükséges hét különböző fájlban, ami alaposan próbára teszi az ágensek összefüggő gondolkodását és rendszerátlátó képességét.

A DeepSWE jelentősége abban rejlik, hogy a valós szoftverfejlesztési kihívásokat igyekszik szimulálni, ahol a fejlesztőknek nem csupán egy-egy izolált függvényt kell megírniuk, hanem komplex, többfájlos architektúrákba kell beavatkozniuk. Míg a korábbi értékelési módszerek gyakran csak egyszerűbb kódolási feladatokra fókuszáltak, a DeepSWE az AI ágensek hosszú távú memóriáját, logikai következtető képességét és a kódbázisok közötti navigációs készségét méri. Ez elengedhetetlen lépés a teljesen autonóm szoftverfejlesztő AI ágensek felé vezető úton, hiszen a valódi projektekben a hatékonyság és a helyes hibajavítás nem csupán a prompt minőségén, hanem a teljes kódbázis kontextusának megértésén múlik.

A jelenlegi ranglistát a fejlesztők legnagyobb örömére a GPT-5.5 vezeti, amely lenyűgöző, 70 százalékos sikerességi arányt ért el a rendkívül nehéz feladatokon. Őt követi a sorban a GPT-5.4 56 százalékos mutatóval, míg az Anthropic modelljei közül a Claude Opus 54 százalékot, a Claude Sonnet pedig 32 százalékot ért el. Ezek az eredmények jól mutatják, hogy a nagy nyelvi modellek (LLM) folyamatosan fejlődnek a kódolási feladatok területén, azonban még mindig jelentős különbségek vannak a modellek között a komplex rendszerépítési feladatok megoldásában. A DeepSWE benchmark a jövőben várhatóan kulcsszerepet játszik

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Claude Code biztonsági bővítményt vezetett be a kockázatos kódolási minták azonosítására
2 napja
Az OpenAI bevezeti a GPT-4 Turbo-t Vision funkcióval és ChatGPT frissítésekkel
2026. május 24.
Jelentős technológiai cégek csatlakoztak az amerikai AI Safety Institute konzorciumhoz
2026. május 24.