AI KUTATÁS
Az Nvidia új kvantálási módszere nagy hatékonyságú érvelést tesz lehetővé Blackwell GPU-kon
Az Nvidia megjelentette a Nemotron-Nano-3-30B-A3B-NVFP4 modellt, egy 30 milliárd paraméteres érvelési modellt, amelyet 4-bites formátumra kvantáltak, így akár négyszer nagyobb áteresztőképességet ér el Blackwell GPU-kon. A modell a Quantization Aware Distillation (QAD) technikát alkalmazza, amely egy kvantált tanuló modellt tanít meg arra, hogy leképezze egy nagy pontosságú tanár modell kimenetét. Ez az innováció lehetővé teszi, hogy a modell visszanyerje az eredeti verzió teljesítményének szinte egészét, miközben jelentősen csökkenti a memória- és számítási igényeket.
- Akár négyszer nagyobb áteresztőképességet ér el a bázisvonalhoz közeli pontosság megtartása mellett
- Az NVFP4 4-bites lebegőpontos formátumot használja a fokozott aritmetikai áteresztőképesség érdekében
- Hibrid Mamba2 Transformer Mixture of Experts architektúrát használ 3,5 milliárd aktív paraméterrel
- A QAD segítségével a teljesítményt a BF16 bázisvonal 99,4%-os pontosságára állítja vissza
- 1,8-szorosára csökkenti a memóriahasználatot a standard FP8 formátumokhoz képest
Miért fontos?
Ez a kutatás utat mutat az összetett érvelési modellek sokkal hatékonyabb futtatásához, lehetővé téve a nagy teljesítményű AI használatát kisebb hardvereken az intelligencia feláldozása nélkül. ---