KIPRÓBÁLHATÓ ÚJDONSÁGOK
A Qwen kiadta a 3.5-Omni natív omnimodális modellt valós idejű streaminggel
A Qwen megjelentette a 3.5-Omni modellt, egy natív omnimodális modellt, amely szöveget, képet, hangot és videót kezel bemenetként és kimenetként is, valós idejű streaming mellett. Ellentétben a korábbi rendszerekkel, amelyek különálló modelleket kombinálhattak a különböző médiatípusokhoz, ez egy egységes architektúra, amelyet több formátum egyidejű feldolgozására terveztek. Ez gördülékenyebb és válaszkészebb interakciókat tesz lehetővé a különböző médiatípusok között.
- Natívan kezeli a szöveg, kép, hang és videó bemenetét és kimenetét.
- Támogatja a valós idejű streaminget az alacsony késleltetésű, társalgási interakciók érdekében.
- Elérhető online és offline demókon keresztül a Hugging Face platformon.
- A teljes API-dokumentáció megjelent az Alibaba Cloud-on keresztül a fejlesztői integrációhoz.
Miért fontos?
A natív omnimodális modellek a világ egységesebb megértését teszik lehetővé a különböző típusú információk egyetlen adatfolyamban történő feldolgozásával, kikövezve az utat az emberibb AI-asszisztensek felé.