ADATOK ÉS ÉRDEKESSÉGEK
Az Nvidia kiadta a Nemotron 3 Nano 4B hibrid modellt eszközön történő következtetéshez
Az Nvidia megjelentette a Nemotron 3 Nano 4B-t, egy 4 milliárd paraméteres modellt, amelyet eszközön történő következtetésre terveztek, hibrid Mamba-Transformer architektúrát használva. A modell kategóriájában csúcstechnológiát képviselő utasításkövetést és eszközhasználatot ér el, miközben alacsony VRAM-igényt tart fenn. Az Nvidia nagyobb Nemotron Nano 9B v2 modelljéből hozták létre ritkítás (pruning) és lepárlás (distillation) útján a Nemotron Elastic keretrendszer segítségével, amely egyszerre határozza meg az optimális ritkítási döntéseket a mélység, a fejek és a dimenziók mentén.
- BF16 formátumban elérhető a maximális pontosság érdekében
- Az FP8 variáns 1,8-szoros késleltetés-javulást ér el szelektív kvantálás révén
- GGUF Q4_K_M formátum biztosított a Llama.cpp kompatibilitáshoz
- Hibrid Mamba-Transformer architektúra, játékbeli ágens-működésre és utasításkövetésre optimalizálva