MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A ByteDance közzétette a Multi-SWE-bench-et a többnyelvű AI programozási képességek értékeléséhez

A ByteDance kiadta a Multi-SWE-bench-et, egy benchmarkot annak tesztelésére, hogy az LLM-ek mennyire jól tudnak programozni különböző nyelveken. A Multi-SWE-bench-et az SWE-bench ihlette, amely egy Python-alapú kódolási benchmark, és amely gyorsan a de facto aranyszabályává vált annak, hogyan teszteljék az AI rendszerek programozási tudását. A ByteDance az OpenAI, az Anthropic, a DeepSeek és az Alibaba népszerű LLM-jeit tesztelte a benchmarkon – az eredmények azt mutatják, hogy bár sok rendszer rendkívül jól teljesít Pythonban, a teljesítményük más nyelveken visszaesik. Emellett a teljesítmény egyenetlenül oszlik meg a többi nyelv között, a TypeScript és a JavaScript kifejezetten nagy kihívásnak tűnik.
Miért fontos?

A Multi-SWE-bench rendelkezik a jó értékelési rendszerek minden jellemzőjével – valós problémákon alapul, nehéz a mai rendszerek számára, és természetes kalibrációval érkezik, ahol az eredményeket összevethetjük az SWE-bench eredményeivel. Jósolom, hogy a következő évben jelentős és tartós javulást fogunk látni ezen a benchmarkon, és arra számítok, hogy a különböző nyelvek közötti variabilitás csökkenni fog, ahogy a rendszerek képességei skálázódnak. ---

Eredeti forrás megtekintése (angol) →