KÖRKÉP
Az ARC-AGI benchmark rávilágít a kínai nyílt súlyozású modellek teljesítménybeli lemaradására
Az ARC Prize keretében nemrégiben tesztelték a jelentősebb kínai AI modelleket az ARC-AGI-2 benchmarkon, és megállapították, hogy jelentősen elmaradnak a nyugati kutatólaborok mögött. Az olyan modellek, mint a Kimi K2.5, a Minimax M2.5, a GLM-5 és a DeepSeek V3.2 mind 12% vagy az alatti pontszámot értek el, ami elmarad a vezető laborok által 2025 közepén elért szintektől. A szakértők megjegyezték, hogy bár ezek a modellek kiválóak lehetnek szűk területeken, továbbra is sebezhetőek az általános érvelési feladatok vagy a betanítási körön kívüli munka során.
- A Kimi K2.5 volt a legjobb kínai teljesítő a benchmarkon 12%-kal
- A Minimax M2.5 és a GLM-5 egyaránt 5%-os eredményt ért el
- A DeepSeek V3.2 mindössze 4%-ot ért el az általános intelligencia-teszten
- Ethan Mollick, a Wharton professzora az eredményeket empirikus bizonyítéknak nevezte arra, hogy a kínai modellek jelenleg „törékenyebbek”, mint a csúcskategóriás nyugati modellek
Miért fontos?
Ez reális képet ad a globális AI-versenyről, rávilágítva arra, hogy a nyers paraméterszám vagy a szűk területeken elért siker nem mindig fordítható át robusztus általános intelligenciára. ---