ALIBABA
Az Alibaba Qwen2.5-Omni modellje többérzékelős AI-feldolgozást hoz a mobilkészülékekre
Az Alibaba kiadta a Qwen2.5-Omni-7B-t, egy új multimodális AI-t, amely képes szöveg, képek, hang és videó egyidejű feldolgozására. Sok nagyméretű modellel ellentétben ez a rendszer elég hatékony ahhoz, hogy közvetlenül fogyasztói hardvereken, például okostelefonokon és laptopokon fusson, lehetővé téve a valós idejű edge-feldolgozást.
- A modell egy új „Thinker-Talker” rendszert használ a modalitások (szöveg, hang, kép, videó) közötti valós idejű feldolgozáshoz, szöveges és beszélt kimenettel.
- Erős teljesítményt mutat a beszédértés és -generálás terén, a benchmark teszteken felülmúlva a specializált audiomodelleket.
- Az Alibaba szerint az Omni-7B hatékonyan fut telefonokon és laptopokon, lehetővé téve olyan gyakorlati alkalmazásokat, mint a látássérültek számára készített valós idejű hangleírások.
- Azonnal elérhető a Hugging Face-en és a GitHubon; az Alibaba a modellt a praktikus AI-ágensek fejlesztésének alapjaként pozicionálja.
Miért fontos?
A „mindent tudó” modellek kora már majdnem itt van, az omni-rendszerek pedig teljesen új élményeket és alkalmazáskategóriákat fognak megnyitni. Az az intelligencia, amely képes megérteni az emberi környezet teljes összetettségét és reagálni rá – miközben open-source és könnyen hozzáférhető –, rendkívül erőteljes kombináció. ---