AI OKTÁTÁS
A Huawei sikeresen betanított egy 135 milliárdos sűrű modellt több mint 8 000 Ascend NPU használatával
A Huawei megépítette a Pangu Ultra nevű nagy nyelvi modellt, amely versenyképes, bár nem piacvezető teljesítményt nyújt. A legérdekesebb dolog a Panguval kapcsolatban, hogy 8 192 Ascend NPU-n tanították be, ami fontos bizonyíték arra, hogy lehetséges nagyméretű AI-rendszereket kínai tervezésű chipeken oktatni. A Pangu a Huawei egy (az AI világában) régóta tartó kutatási projektjének legújabb eredménye; az első Pangu modell, egy GPT-3 klón, 2021 áprilisában jelent meg.
A Pangu Ultra egy sűrű (nem MOE) LLM, amelyet 12,3 billió tokenen tanítottak. Architektúrája nagyban hasonlít a Facebook LLaMa 3 modelljére, bár némi módosítással a normalizációs sémában és a paraméterek inicializálásában. A Pangu Ultra 128 000 tokenes effektív kontextusablakkal rendelkezik. Az oktatás három fázisban zajlott: egy 12 billió tokenes előtanítási szakasz, egy 0,8 billió tokenes „érvelési” szakasz, majd egy 0,4 billió tokenes „lágyítási” (annealing) szakasz, ahol instrukciós adatokat kapott.
A Pangu egy jó, de nem világelső modell a Qwen2.5 72B Base, LLaMa-3.1 405B Base és DeepSeek V3 base modellekkel végzett összehasonlító tesztek alapján. Jó eredményeket ér el az angol nyelvű, kódolási, matematikai és specifikus kínai teszteken, de veszít vagy döntetlent ér el a DeepSeekkel szemben néhány fontos, széles körben használt benchmarkon. Valamivel jobban teljesít egyes nehéz természettudományos és kódolási teszteken, ahol magas pontszámokat ért el az AIME 2025 és a GPQA Diamond benchmarkokon.
- 135 milliárd paraméteres sűrű architektúra, 12,3 billió tokenen tanítva.
- Egy hatalmas, 8 192 Huawei Ascend NPU-ból álló fürtöt használtak.
- 128 000 tokenes effektív kontextusablak jellemzi.
- Háromfázisú oktatás: Előtanítás, Érvelés (matek/kód) és Lágyítás (instrukciók).
- Magas pontszámokat ért el az AIME 2025 és a GPQA Diamond benchmarkokon.
Miért fontos?
A Pangu újabb bizonyíték a nyugati és a kínai „AI-stackek” közötti széles körű szétválásra – míg korábban mindkét ország AI-rendszereit közös hardvereken és szoftvereken (pl. Tensorflow) tanították, az elmúlt években ezek az utak különváltak. Az a tény, hogy a Pangut a Huawei saját Ascend chipjein tanították be, kiemelt jelentőséggel bír.