MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A ByteDance közzétette a Multi-SWE-bench-et a többnyelvű AI programozási képességek értékeléséhez

A ByteDance kiadta a Multi-SWE-bench-et, egy benchmarkot annak tesztelésére, hogy az LLM-ek mennyire jól tudnak programozni különböző nyelveken. A Multi-SWE-bench-et az SWE-bench ihlette, amely egy Python-alapú kódolási benchmark, és amely gyorsan a de facto aranyszabályává vált annak, hogyan teszteljék az AI rendszerek programozási tudását. A ByteDance az OpenAI, az Anthropic, a DeepSeek és az Alibaba népszerű LLM-jeit tesztelte a benchmarkon – az eredmények azt mutatják, hogy bár sok rendszer rendkívül jól teljesít Pythonban, a teljesítményük más nyelveken visszaesik. Emellett a teljesítmény egyenetlenül oszlik meg a többi nyelv között, a TypeScript és a JavaScript kifejezetten nagy kihívásnak tűnik.

Miért fontos?

A Multi-SWE-bench rendelkezik a jó értékelési rendszerek minden jellemzőjével – valós problémákon alapul, nehéz a mai rendszerek számára, és természetes kalibrációval érkezik, ahol az eredményeket összevethetjük az SWE-bench eredményeivel. Jósolom, hogy a következő évben jelentős és tartós javulást fogunk látni ezen a benchmarkon, és arra számítok, hogy a különböző nyelvek közötti variabilitás csökkenni fog, ahogy a rendszerek képességei skálázódnak. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
INTIMA: Benchmark az LLM-ekkel kialakított paraszociális kapcsolatok tesztelésére
2025. szeptember 1.
Kutatók bírálják az LMSYS Chatbot Arenát a benchmark-manipuláció és a privát tesztelés miatt
2025. május 6.
Nicholas Carlini 100 valós életben alkalmazható tesztet tett közzé az LLM-ekhez
2024. február 26.