MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Huawei 8 192 darab Ascend NPU használatával tanította be Pangu Ultra modelljét

A Huawei megépítette a Pangu Ultra-t, egy nagyméretű nyelvi modellt, amely versenyképes, bár nem világelső teljesítményt nyújt. A Pangu legérdekesebb tulajdonsága, hogy 8 192 darab Ascend NPU-n tanították, ami fontos bizonyíték (proof point) arra, hogy lehetséges nagyméretű AI rendszereket kínai tervezésű chipeken tanítani. A Pangu a Huawei egy (AI léptékkel mérve hosszú ideje tartó) kutatási erőfeszítésének legújabb állomása; az első Pangu modellt, egy GPT-3 klónt, 2021 áprilisában adták ki. A Pangu Ultra egy sűrű (non-MoE) LLM, amelyet 12,3 billió (trillion) tokennyi adaton tanítottak. Architektúrája nagyban hasonlít a Facebook LLaMa 3 modelljére, bár némi módosítást végeztek a normalizációs sémán és a paraméterek inicializálásán. A Pangu Ultra effektív kontextus hossza 128 ezer token.
Miért fontos?

A Pangu újabb bizonyíték a nyugati és a kínai „AI technológiai ökoszisztémák” (AI stacks) közötti széleskörű szétválásra – míg korábban mindkét országban közös hardveralapokon és szoftvereken (például Tensorflow) tanították az AI rendszereket, az elmúlt években megindult a különválás. Az a tény, hogy a Pangu-t a Huawei saját Ascend chipjein tanították, rendkívül jelentős. ---

Eredeti forrás megtekintése (angol) →