A Huawei 718B paraméteres MoE modellt tanított 6000 hazai Ascend chippel

AI CHIPEK

A Huawei 718B paraméteres MoE modellt tanított 6000 hazai Ascend chippel

2025. május 12. · MI Történik? · 1 perc olvasás

A Huawei egy nagyméretű mixture-of-experts (MoE) modellt tanított be körülbelül 6000 saját „Ascend” processzorán. Ez a kutatás rávilágít arra, hogy a Huawei jelentős erőforrásokat fektet abba a szoftverbe, amely szükséges ahhoz, hogy az Ascend chipeket ugyanolyan könnyű legyen oktatásra használni, mint az NVIDIA termékeit. A létrejött MoE modell teljesítménye nagyjából megegyezik a DeepSeek R1-ével: 718 milliárd paramétert tartalmaz, amelyből egyszerre 39 milliárd aktív. A modell az R1-hez hasonló pontszámokat ér el, bizonyos orvosi és tudományos értékelésekben (GPQA-Diamond) pedig le is győzi azt. A Huawei számos technikai optimalizálással jelentősen növelte az Ascend chipek hatékonyságát az MoE-stílusú modellek oktatása során.

Pangu Ultra MoE modellt tanítottak be 718 milliárd összegzett és 39 milliárd aktív paraméterrel.
6000 darab Huawei Ascend NPU-ból álló fürtöt használtak.
A Model Flops Utilization (MFU) mutatót 18,9%-ról 30,0%-ra növelték.
A DeepSeek R1-gyel versenyképes teljesítményt értek el a szabványos benchmarkokon.
Felülmúlták a DeepSeek R1-et orvosi értékelésekben és a GPQA-Diamond benchmarkon.
Egyedi szoftveres optimalizálásokat fejlesztettek a nem-NVIDIA hardverekhez.

Miért fontos?

Ez a kutatás a kínai AI-hardver és szoftverkörnyezet érettségét jelzi. A határterületi léptékű MoE modellek hazai chipeken történő sikeres betanításával a Huawei életképes utat mutat a kínai cégek számára az amerikai technológiai leválasztás és a szankciók megkerülésére.

Eredeti forrás megtekintése (angol) →