MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az ARC-AGI benchmark rávilágít a kínai nyílt súlyozású modellek teljesítménybeli lemaradására

Az ARC Prize keretében nemrégiben tesztelték a jelentősebb kínai AI modelleket az ARC-AGI-2 benchmarkon, és megállapították, hogy jelentősen elmaradnak a nyugati kutatólaborok mögött. Az olyan modellek, mint a Kimi K2.5, a Minimax M2.5, a GLM-5 és a DeepSeek V3.2 mind 12% vagy az alatti pontszámot értek el, ami elmarad a vezető laborok által 2025 közepén elért szintektől. A szakértők megjegyezték, hogy bár ezek a modellek kiválóak lehetnek szűk területeken, továbbra is sebezhetőek az általános érvelési feladatok vagy a betanítási körön kívüli munka során.
Miért fontos?

Ez reális képet ad a globális AI-versenyről, rávilágítva arra, hogy a nyers paraméterszám vagy a szűk területeken elért siker nem mindig fordítható át robusztus általános intelligenciára. ---

Eredeti forrás megtekintése (angol) →