AI Hírek

Az ARC-AGI benchmark rávilágít a kínai nyílt súlyozású modellek teljesítménybeli lemaradására

2026. március 3. · MI Történik? · 1 perc olvasás

Az ARC Prize keretében nemrégiben tesztelték a jelentősebb kínai AI modelleket az ARC-AGI-2 benchmarkon, és megállapították, hogy jelentősen elmaradnak a nyugati kutatólaborok mögött. Az olyan modellek, mint a Kimi K2.5, a Minimax M2.5, a GLM-5 és a DeepSeek V3.2 mind 12% vagy az alatti pontszámot értek el, ami elmarad a vezető laborok által 2025 közepén elért szintektől. A szakértők megjegyezték, hogy bár ezek a modellek kiválóak lehetnek szűk területeken, továbbra is sebezhetőek az általános érvelési feladatok vagy a betanítási körön kívüli munka során.

A Kimi K2.5 volt a legjobb kínai teljesítő a benchmarkon 12%-kal
A Minimax M2.5 és a GLM-5 egyaránt 5%-os eredményt ért el
A DeepSeek V3.2 mindössze 4%-ot ért el az általános intelligencia-teszten
Ethan Mollick, a Wharton professzora az eredményeket empirikus bizonyítéknak nevezte arra, hogy a kínai modellek jelenleg „törékenyebbek”, mint a csúcskategóriás nyugati modellek

Miért fontos?

Ez reális képet ad a globális AI-versenyről, rávilágítva arra, hogy a nyers paraméterszám vagy a szűk területeken elért siker nem mindig fordítható át robusztus általános intelligenciára. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Claude Voice mód kiterjesztésre került a Sonnet és Opus modellekre

9 órája

Az Enigma 70 millió dollárral és robotok vezérlésére szolgáló technológiával lépett ki a rejtőzködésből

13 órája

Hatályba lépett az EU AI Omnibus rendelete a kibővített szabályozási homokozókkal

13 órája

Tudj meg többet

AI modellek finomhangolása és egyedi fejlesztése: Lépj túl a generikus megoldásokon!

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?