MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Huawei sikeresen tanított be egy nagyméretű MoE modellt 6000 Ascend chip használatával

A Huawei egy nagyszabású mixture-of-experts (MoE) modellt tanított be körülbelül 6000 saját 'Ascend' processzorán. Ez egy korábbi munkára épül, amelyben egy tiszteletreméltó dense modellt tanítottak be mintegy 8000 'Ascend' processzoron. A két kutatási tanulmány együttvéve rávilágít arra, hogy a Huawei mennyi erőforrást fektet abba a szoftverbe, amely szükséges ahhoz, hogy az Ascend chipeken ugyanolyan egyszerű legyen a betanítás, mint az NVIDIA chipeken. Ezért mindkét tanulmány a kínai cégek azon technikai befektetéseinek tünete, amelyek célja az AI-technológiáik leválasztása az USA által tervezett technológiákról. A létrejött MoE modell teljesítménye nagyjából egy szinten van a DeepSeek R1-gyel, 718 milliárd paramétert használ, amelyből egyszerre 39 milliárd aktív, szemben a DeepSeek 671 milliárd paraméterével és 37 milliárdos aktivitásával. A modell az R1-hez hasonló pontszámokat ér el, bizonyos orvosi értékelésekben, valamint a széles körben használt GPQA-Diamond tudományos benchmarkon pedig le is győzi azt.
Miért fontos?

Az ehhez hasonló tanulmányok rávilágítanak arra, hogy a kínai vállalatok mérnökei és kutatói milyen kompetensek a GPU-programozásra született szoftvercsomagok optimalizálásában más chipekhez, például a Huawei Ascend chipjeihez. ---

Eredeti forrás megtekintése (angol) →