AI ÉRTÉKELÉS
A ByteDance közzétette a Multi-SWE-bench-et a többnyelvű AI programozási képességek értékeléséhez
A ByteDance kiadta a Multi-SWE-bench-et, egy benchmarkot annak tesztelésére, hogy az LLM-ek mennyire jól tudnak programozni különböző nyelveken. A Multi-SWE-bench-et az SWE-bench ihlette, amely egy Python-alapú kódolási benchmark, és amely gyorsan a de facto aranyszabályává vált annak, hogyan teszteljék az AI rendszerek programozási tudását. A ByteDance az OpenAI, az Anthropic, a DeepSeek és az Alibaba népszerű LLM-jeit tesztelte a benchmarkon – az eredmények azt mutatják, hogy bár sok rendszer rendkívül jól teljesít Pythonban, a teljesítményük más nyelveken visszaesik. Emellett a teljesítmény egyenetlenül oszlik meg a többi nyelv között, a TypeScript és a JavaScript kifejezetten nagy kihívásnak tűnik.
- A benchmark 1632 feladatot tartalmaz 7 programozási nyelven.
- A támogatott nyelvek közé tartozik a Java, a TypeScript, a JavaScript, a Go, a Rust, a C és a C++.
- A feladatok népszerű GitHub repozitóriumokból származó, valós pull requestekből erednek.
- A tesztek jelentős teljesítménycsökkenést mutatnak, amikor a frontier modellek elhagyják a Python környezetet.
Miért fontos?
A Multi-SWE-bench rendelkezik a jó értékelési rendszerek minden jellemzőjével – valós problémákon alapul, nehéz a mai rendszerek számára, és természetes kalibrációval érkezik, ahol az eredményeket összevethetjük az SWE-bench eredményeivel. Jósolom, hogy a következő évben jelentős és tartós javulást fogunk látni ezen a benchmarkon, és arra számítok, hogy a különböző nyelvek közötti variabilitás csökkenni fog, ahogy a rendszerek képességei skálázódnak. ---