A Huawei HiFloat4 felülmúlja az MXFP4-et az AI tréningben
A Huawei kutatói tesztelték a HiFloat4-et, egy 4-bites precíziós formátumot AI tréninghez és inference-hez, az Open Compute Project MXFP4 4-bites formátumával szemben, és úgy találták, hogy a HiFloat4 jobb. Ez azért érdekes, mert illeszkedik ahhoz a szélesebb körű érdeklődéshez, amellyel a kínai vállalatok saját, alacsony precíziós adatformátumokat fejlesztenek, kifejezetten a saját hardverplatformjaikhoz illeszkedően. „Célunk, hogy hatékony FP4 LLM előzetes tréninget tegyünk lehetővé speciális AI gyorsítókon, szigorú teljesítménykorlátok mellett. A Huawei Ascend NPU-kra fókuszálunk, amelyek a mélytanulási feladatokra tervezett, domain-specifikus gyorsítók” – írják.
- Amit teszteltek: Ebben a tanulmányban a szerzők 3 modelltípust tréneltek Huawei Ascend chipeken – OpenPangu-1B, Llama3-8B és Qwen3-MoE-30B. A tesztek során minél nagyobb modelleket használtak, annál jobban csökkentette a HiFloat4 a veszteségi hibát ezeken a modelleken a BF16 baseline-hoz képest – és minden esetben jobban teljesített, mint az MXFP4.
- Amit találtak: „Rendszeres értékelést végeztünk a HiFloat4 (HiF4) formátumról, és kimutattuk, hogy alacsonyabb relatív veszteséget (≈ 1,0%) ér el az MXFP4-hez (≈ 1,5%) képest, ha teljes precíziós baseline-hoz mérjük” – írják. „A HiF4 következetesen szignifikánsan alacsonyabb relatív hibát ér el az MXFP4-hez képest. A Llama és Qwen esetében a HiF4 kevesebb mint 1%-os hibaréssel rendelkezik a baseline-hoz képest… A HiF4 az RHT stabilizációs trükkel ~1%-on belülre kerül a BF16 veszteségtől, míg az MXFP4-nek RHT + stochastic rounding + truncation-free scaling szükséges az ~1,5%-hoz.”
Miért fontos?
A HiFloat4 a HiFloat8 (#386) még alacsonyabb precíziós verziója, és általában arra utal, hogy a Huawei (és általában a kínai chipgyártók) folyamatosan azon dolgoznak, hogy a lehető legnagyobb hatékonyságot hozzák ki chipjeikből. Ez az exportkorlátozások tágabb kontextusába illeszkedik, ahol Kína az élvonalbeli compute-tól van megfosztva, mivel nem fér hozzá nagy mennyiségben H100-asokhoz stb., ezért még értékesebbé válik a saját fejlesztésű chipek hatékonyságának javítása alacsony precíziós formátumok gondos kidolgozásával, amelyek a saját hardverükhöz illeszkednek.