A Huawei sikeresen betanított egy 135 milliárdos sűrű modellt több mint 8 000 Ascend NPU használatával

2025. április 21. · MI Történik? · 2 perc olvasás

A Huawei megépítette a Pangu Ultra nevű nagy nyelvi modellt, amely versenyképes, bár nem piacvezető teljesítményt nyújt. A legérdekesebb dolog a Panguval kapcsolatban, hogy 8 192 Ascend NPU-n tanították be, ami fontos bizonyíték arra, hogy lehetséges nagyméretű AI-rendszereket kínai tervezésű chipeken oktatni. A Pangu a Huawei egy (az AI világában) régóta tartó kutatási projektjének legújabb eredménye; az első Pangu modell, egy GPT-3 klón, 2021 áprilisában jelent meg.

A Pangu Ultra egy sűrű (nem MOE) LLM, amelyet 12,3 billió tokenen tanítottak. Architektúrája nagyban hasonlít a Facebook LLaMa 3 modelljére, bár némi módosítással a normalizációs sémában és a paraméterek inicializálásában. A Pangu Ultra 128 000 tokenes effektív kontextusablakkal rendelkezik. Az oktatás három fázisban zajlott: egy 12 billió tokenes előtanítási szakasz, egy 0,8 billió tokenes „érvelési” szakasz, majd egy 0,4 billió tokenes „lágyítási” (annealing) szakasz, ahol instrukciós adatokat kapott.

A Pangu egy jó, de nem világelső modell a Qwen2.5 72B Base, LLaMa-3.1 405B Base és DeepSeek V3 base modellekkel végzett összehasonlító tesztek alapján. Jó eredményeket ér el az angol nyelvű, kódolási, matematikai és specifikus kínai teszteken, de veszít vagy döntetlent ér el a DeepSeekkel szemben néhány fontos, széles körben használt benchmarkon. Valamivel jobban teljesít egyes nehéz természettudományos és kódolási teszteken, ahol magas pontszámokat ért el az AIME 2025 és a GPQA Diamond benchmarkokon.

135 milliárd paraméteres sűrű architektúra, 12,3 billió tokenen tanítva.
Egy hatalmas, 8 192 Huawei Ascend NPU-ból álló fürtöt használtak.
128 000 tokenes effektív kontextusablak jellemzi.
Háromfázisú oktatás: Előtanítás, Érvelés (matek/kód) és Lágyítás (instrukciók).
Magas pontszámokat ért el az AIME 2025 és a GPQA Diamond benchmarkokon.

Miért fontos?

A Pangu újabb bizonyíték a nyugati és a kínai „AI-stackek” közötti széles körű szétválásra – míg korábban mindkét ország AI-rendszereit közös hardvereken és szoftvereken (pl. Tensorflow) tanították, az elmúlt években ezek az utak különváltak. Az a tény, hogy a Pangut a Huawei saját Ascend chipjein tanították be, kiemelt jelentőséggel bír.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az 5-szintes AI jártassági modell teljesen kezdőknek

2026. április 2.

Hogyan használjuk a Dispatch-et a számítógép távoli vezérlésére a Claude segítségével

2026. március 25.

Hogyan használd a Claude-ot AI tárhelytisztító segédpilótaként

2026. március 24.

Tudj meg többet

Online pénzkeresés 2026: Hogyan keress többet AI eszközökkel