AI HARDVER
A Huawei bemutatta a CloudMatrix szupercsomópontot és az inference stacket a DeepSeek-R1-hez
A Huawei részleteket közölt a CloudMatrix-ról, egy nagyméretű integrált számítógépről, amelyet az elmúlt években az NVIDIA DGX rendszereinek riválisaként fejlesztett ki. A CloudMatrix 384 Ascend 910C NPU-t és 192 Kunpeng CPU-t integrál egy egységes szupercsomópontba, amelyeket ultra-nagy sávszélességű, alacsony késleltetésű Unified Bus (UB) hálózat köt össze. A gép képességeinek demonstrálására a Huawei egy speciális inference szoftverstacket is kifejlesztett CloudMatrix-Infer néven, amelyet a DeepSeek-R1 modellel teszteltek. A Huawei állítása szerint a rendszer csúcstechnológiás hatékonyságot ér el, és olyan prefill áteresztőképességet biztosít, amely meghaladja az NVIDIA H100 és H800 rendszerek közzétett eredményeit.
- 384 Ascend 910C NPU-t és 192 Kunpeng CPU-t integrál
- Peer-to-peer kiszolgálási architektúrával rendelkezik, amely szétválasztja a prefill, decode és gyorsítótárazási folyamatokat
- Large-scale expert parallelism (LEP) technológiát használ az attention és feed-forward hálózatok felgyorsítására
- Hardver-tudatos optimalizációkat tartalmaz, mint például az INT8 kvantálás és a microbatch-alapú pipelining
- NPU-nként 6 688 token/s prefill áteresztőképességet biztosít
Miért fontos?
Ez egy teljesen függetlenített stacket képvisel: egy kínai tervezésű AI modell, amely kínai tervezésű inference szoftveren fut, egy túlnyomórészt kínai tervezésű chipekből álló számítógépen. Így néz ki a technológiai szétválás (decoupling) a gyakorlatban. ---