A Qwen kiadta a 3.5-Omni natív omnimodális modellt valós idejű streaminggel

KIPRÓBÁLHATÓ ÚJDONSÁGOK

A Qwen kiadta a 3.5-Omni natív omnimodális modellt valós idejű streaminggel

2026. március 31. · MI Történik? · 1 perc olvasás

A Qwen megjelentette a 3.5-Omni modellt, egy natív omnimodális modellt, amely szöveget, képet, hangot és videót kezel bemenetként és kimenetként is, valós idejű streaming mellett. Ellentétben a korábbi rendszerekkel, amelyek különálló modelleket kombinálhattak a különböző médiatípusokhoz, ez egy egységes architektúra, amelyet több formátum egyidejű feldolgozására terveztek. Ez gördülékenyebb és válaszkészebb interakciókat tesz lehetővé a különböző médiatípusok között.

Natívan kezeli a szöveg, kép, hang és videó bemenetét és kimenetét.
Támogatja a valós idejű streaminget az alacsony késleltetésű, társalgási interakciók érdekében.
Elérhető online és offline demókon keresztül a Hugging Face platformon.
A teljes API-dokumentáció megjelent az Alibaba Cloud-on keresztül a fejlesztői integrációhoz.

Miért fontos?

A natív omnimodális modellek a világ egységesebb megértését teszik lehetővé a különböző típusú információk egyetlen adatfolyamban történő feldolgozásával, kikövezve az utat az emberibb AI-asszisztensek felé.

Eredeti forrás megtekintése (angol) →