A Huawei sikeresen tanított be egy nagyméretű MoE modellt 6000 Ascend chip használatával
A Huawei egy nagyszabású mixture-of-experts (MoE) modellt tanított be körülbelül 6000 saját 'Ascend' processzorán. Ez egy korábbi munkára épül, amelyben egy tiszteletreméltó dense modellt tanítottak be mintegy 8000 'Ascend' processzoron. A két kutatási tanulmány együttvéve rávilágít arra, hogy a Huawei mennyi erőforrást fektet abba a szoftverbe, amely szükséges ahhoz, hogy az Ascend chipeken ugyanolyan egyszerű legyen a betanítás, mint az NVIDIA chipeken. Ezért mindkét tanulmány a kínai cégek azon technikai befektetéseinek tünete, amelyek célja az AI-technológiáik leválasztása az USA által tervezett technológiákról. A létrejött MoE modell teljesítménye nagyjából egy szinten van a DeepSeek R1-gyel, 718 milliárd paramétert használ, amelyből egyszerre 39 milliárd aktív, szemben a DeepSeek 671 milliárd paraméterével és 37 milliárdos aktivitásával. A modell az R1-hez hasonló pontszámokat ér el, bizonyos orvosi értékelésekben, valamint a széles körben használt GPQA-Diamond tudományos benchmarkon pedig le is győzi azt.
- A Pangu Ultra MoE modell összesen 718B paraméterrel rendelkezik, amelyből 39B aktív az inferencia során.
- 30,0%-os Model Flops Utilization (MFU) értéket ért el 6000 Ascend NPU-n.
- A tanítási átviteli sebesség elérte az 1,46 millió token/másodperc (TPS) értéket.
- A teljesítmény versenyképes a DeepSeek R1-gyel, és bizonyos tudományos és orvosi benchmarkokon felülmúlja azt.
- A projekt a szoftvercsomagok jelentős optimalizálását mutatja be nem-NVIDIA hardverekre.
Miért fontos?
Az ehhez hasonló tanulmányok rávilágítanak arra, hogy a kínai vállalatok mérnökei és kutatói milyen kompetensek a GPU-programozásra született szoftvercsomagok optimalizálásában más chipekhez, például a Huawei Ascend chipjeihez. ---