A Huawei 8 192 darab Ascend NPU használatával tanította be Pangu Ultra modelljét
A Huawei megépítette a Pangu Ultra-t, egy nagyméretű nyelvi modellt, amely versenyképes, bár nem világelső teljesítményt nyújt. A Pangu legérdekesebb tulajdonsága, hogy 8 192 darab Ascend NPU-n tanították, ami fontos bizonyíték (proof point) arra, hogy lehetséges nagyméretű AI rendszereket kínai tervezésű chipeken tanítani. A Pangu a Huawei egy (AI léptékkel mérve hosszú ideje tartó) kutatási erőfeszítésének legújabb állomása; az első Pangu modellt, egy GPT-3 klónt, 2021 áprilisában adták ki. A Pangu Ultra egy sűrű (non-MoE) LLM, amelyet 12,3 billió (trillion) tokennyi adaton tanítottak. Architektúrája nagyban hasonlít a Facebook LLaMa 3 modelljére, bár némi módosítást végeztek a normalizációs sémán és a paraméterek inicializálásán. A Pangu Ultra effektív kontextus hossza 128 ezer token.
- A Pangu Ultra egy 135 milliárd paraméteres sűrű (dense) modell.
- 12,3 billió tokenen tanították, beleértve az általános tudást, a logikai következtetést és az annealing fázisokat.
- A tanításhoz 8 192 Huawei Ascend NPU-t használtak.
- Teljesítménye versenyképes a Qwen2.5 72B-vel és a DeepSeek V3-mal, magas pontszámokat érve el az AIME 2025-ön és a GPQA Diamond teszteken.
- 128 ezer tokenes kontextus hosszal rendelkezik.
Miért fontos?
A Pangu újabb bizonyíték a nyugati és a kínai „AI technológiai ökoszisztémák” (AI stacks) közötti széleskörű szétválásra – míg korábban mindkét országban közös hardveralapokon és szoftvereken (például Tensorflow) tanították az AI rendszereket, az elmúlt években megindult a különválás. Az a tény, hogy a Pangu-t a Huawei saját Ascend chipjein tanították, rendkívül jelentős. ---