A DeepSWE benchmark összetett, hosszú távú feladatokon értékeli az AI ágenseket
A szoftverfejlesztésre szakosodott AI ágensek képességeinek mérése új szintre lépett a DeepSWE benchmark megjelenésével. Ez az innovatív értékelési keretrendszer kifejezetten arra hivatott, hogy a korábbi teszteknél jóval összetettebb és hosszabb távú feladatokon keresztül vizsgálja az AI modellek valódi programozói teljesítményét. A benchmark összesen 113 eredeti feladatot tartalmaz, amelyeket 91 valós, aktív adattárban és öt különböző programozási nyelven kell megoldaniuk az ágenseknek. Bár a teszt során megadott promptok rövidebbek, mint a már ismert SWE-bench Pro esetében, a megoldásokhoz szükséges kódmódosítások nagyságrendekkel komplexebbek: átlagosan 668 sornyi kód megírása vagy módosítása szükséges hét különböző fájlban, ami alaposan próbára teszi az ágensek összefüggő gondolkodását és rendszerátlátó képességét.
A DeepSWE jelentősége abban rejlik, hogy a valós szoftverfejlesztési kihívásokat igyekszik szimulálni, ahol a fejlesztőknek nem csupán egy-egy izolált függvényt kell megírniuk, hanem komplex, többfájlos architektúrákba kell beavatkozniuk. Míg a korábbi értékelési módszerek gyakran csak egyszerűbb kódolási feladatokra fókuszáltak, a DeepSWE az AI ágensek hosszú távú memóriáját, logikai következtető képességét és a kódbázisok közötti navigációs készségét méri. Ez elengedhetetlen lépés a teljesen autonóm szoftverfejlesztő AI ágensek felé vezető úton, hiszen a valódi projektekben a hatékonyság és a helyes hibajavítás nem csupán a prompt minőségén, hanem a teljes kódbázis kontextusának megértésén múlik.
A jelenlegi ranglistát a fejlesztők legnagyobb örömére a GPT-5.5 vezeti, amely lenyűgöző, 70 százalékos sikerességi arányt ért el a rendkívül nehéz feladatokon. Őt követi a sorban a GPT-5.4 56 százalékos mutatóval, míg az Anthropic modelljei közül a Claude Opus 54 százalékot, a Claude Sonnet pedig 32 százalékot ért el. Ezek az eredmények jól mutatják, hogy a nagy nyelvi modellek (LLM) folyamatosan fejlődnek a kódolási feladatok területén, azonban még mindig jelentős különbségek vannak a modellek között a komplex rendszerépítési feladatok megoldásában. A DeepSWE benchmark a jövőben várhatóan kulcsszerepet játszik
- 91 aktív adattárban és 5 programozási nyelven teszteli az ágenseket
- A javítások lényegesen nagyobbak a SWE-bench Pro-nál, átlagosan 668 sor
- A GPT-5.5 vezeti a jelenlegi ranglistát 70%-os sikerességi aránnyal
- A GPT-5.4 56%-ot, míg a Claude Opus és a Sonnet 54%-ot, illetve 32%-ot ért el