A ByteDance közzétette a Multi-SWE-bench-et a többnyelvű AI programozási képességek értékeléséhez

AI ÉRTÉKELÉS

A ByteDance közzétette a Multi-SWE-bench-et a többnyelvű AI programozási képességek értékeléséhez

2025. április 14. · MI Történik? · 1 perc olvasás

A ByteDance kiadta a Multi-SWE-bench-et, egy benchmarkot annak tesztelésére, hogy az LLM-ek mennyire jól tudnak programozni különböző nyelveken. A Multi-SWE-bench-et az SWE-bench ihlette, amely egy Python-alapú kódolási benchmark, és amely gyorsan a de facto aranyszabályává vált annak, hogyan teszteljék az AI rendszerek programozási tudását. A ByteDance az OpenAI, az Anthropic, a DeepSeek és az Alibaba népszerű LLM-jeit tesztelte a benchmarkon – az eredmények azt mutatják, hogy bár sok rendszer rendkívül jól teljesít Pythonban, a teljesítményük más nyelveken visszaesik. Emellett a teljesítmény egyenetlenül oszlik meg a többi nyelv között, a TypeScript és a JavaScript kifejezetten nagy kihívásnak tűnik.

A benchmark 1632 feladatot tartalmaz 7 programozási nyelven.
A támogatott nyelvek közé tartozik a Java, a TypeScript, a JavaScript, a Go, a Rust, a C és a C++.
A feladatok népszerű GitHub repozitóriumokból származó, valós pull requestekből erednek.
A tesztek jelentős teljesítménycsökkenést mutatnak, amikor a frontier modellek elhagyják a Python környezetet.

Miért fontos?

A Multi-SWE-bench rendelkezik a jó értékelési rendszerek minden jellemzőjével – valós problémákon alapul, nehéz a mai rendszerek számára, és természetes kalibrációval érkezik, ahol az eredményeket összevethetjük az SWE-bench eredményeivel. Jósolom, hogy a következő évben jelentős és tartós javulást fogunk látni ezen a benchmarkon, és arra számítok, hogy a különböző nyelvek közötti variabilitás csökkenni fog, ahogy a rendszerek képességei skálázódnak. ---

Eredeti forrás megtekintése (angol) →