Az Nvidia új kvantálási módszere nagy hatékonyságú érvelést tesz lehetővé Blackwell GPU-kon

2026. február 4. · MI Történik? · 1 perc olvasás

Az Nvidia megjelentette a Nemotron-Nano-3-30B-A3B-NVFP4 modellt, egy 30 milliárd paraméteres érvelési modellt, amelyet 4-bites formátumra kvantáltak, így akár négyszer nagyobb áteresztőképességet ér el Blackwell GPU-kon. A modell a Quantization Aware Distillation (QAD) technikát alkalmazza, amely egy kvantált tanuló modellt tanít meg arra, hogy leképezze egy nagy pontosságú tanár modell kimenetét. Ez az innováció lehetővé teszi, hogy a modell visszanyerje az eredeti verzió teljesítményének szinte egészét, miközben jelentősen csökkenti a memória- és számítási igényeket.

Akár négyszer nagyobb áteresztőképességet ér el a bázisvonalhoz közeli pontosság megtartása mellett
Az NVFP4 4-bites lebegőpontos formátumot használja a fokozott aritmetikai áteresztőképesség érdekében
Hibrid Mamba2 Transformer Mixture of Experts architektúrát használ 3,5 milliárd aktív paraméterrel
A QAD segítségével a teljesítményt a BF16 bázisvonal 99,4%-os pontosságára állítja vissza
1,8-szorosára csökkenti a memóriahasználatot a standard FP8 formátumokhoz képest

Miért fontos?

Ez a kutatás utat mutat az összetett érvelési modellek sokkal hatékonyabb futtatásához, lehetővé téve a nagy teljesítményű AI használatát kisebb hardvereken az intelligencia feláldozása nélkül. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Interaktív ólom mágnesek építése a Canva Code-dal

1 órája

Termékképek precíz szerkesztése mesterséges intelligenciával

tegnap

MirrorCode Benchmark: Az AI rendszerek hetes nagyságrendű programozási feladatokat oldanak meg

1 napja

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?