ADATPONTOK
Az Nvidia bemutatta a helyi multimodális feldolgozásra szánt Nemotron 3 Nano Omni-t
Az Nvidia bemutatta a Nemotron 3 Nano Omni-t, egy open-weights multimodális modellt, amely a látás-, hang- és nyelvi feldolgozást egyetlen, AI ágensek számára tervezett rendszerben egyesíti. A mai rendszerek jellemzően különálló modelleket használnak az egyes modalitásokhoz, ami idő- és kontextusvesztéssel jár az adatok átadása során. A 30 milliárd paraméteres mixture-of-experts modell akár kilencszer nagyobb áteresztőképességet ér el, mint a konkurens nyílt multimodális modellek, miközben fenntartja az interaktív válaszkészséget, megoldva az ágens-rendszerek szűk keresztmetszetét, amelyeknek egyidejűleg kell feldolgozniuk képernyőfelvételeket, hívásadatokat, PDF-eket és grafikonokat. A modell hat ranglistán is az élre került a dokumentum-intelligencia és a videó/audio megértés terén. A Nemotron 3 Nano Omni április 28-án indult a Hugging Face-en, az OpenRouter-en és több mint 25 partnerplatformon keresztül, olyan korai alkalmazókkal, mint a Palantir, a H Company vagy a Foxconn, amelyek már erre építik produkciós ágenseiket.
- Egyesíti a látást, a hangot és a nyelvet egyetlen rendszerben a különálló modellek helyett.
- 30 milliárd paraméteres mixture-of-experts (MoE) architektúrára épül.
- Akár kilencszer nagyobb áteresztőképességet ér el a jelenlegi nyílt multimodális versenytársaknál.
- Hat ranglistát vezet a dokumentum-intelligencia és az audio/video megértés területén.
- Elérhető a Hugging Face-en és az OpenRouter-en keresztül, jelentős vállalati partnerek támogatásával.
Miért fontos?
A több modalitás egyetlen modellben történő feldolgozása csökkenti a látenciát és a kontextusvesztést, ami kritikus fontosságú az összetett, valós idejű adatokat elemző, válaszkész AI ágensek fejlesztéséhez. ---