Az Alibaba Qwen2.5-Omni modellje többérzékelős AI-feldolgozást hoz a mobilkészülékekre

ALIBABA

Az Alibaba Qwen2.5-Omni modellje többérzékelős AI-feldolgozást hoz a mobilkészülékekre

2025. március 27. · MI Történik? · 1 perc olvasás

Az Alibaba kiadta a Qwen2.5-Omni-7B-t, egy új multimodális AI-t, amely képes szöveg, képek, hang és videó egyidejű feldolgozására. Sok nagyméretű modellel ellentétben ez a rendszer elég hatékony ahhoz, hogy közvetlenül fogyasztói hardvereken, például okostelefonokon és laptopokon fusson, lehetővé téve a valós idejű edge-feldolgozást.

A modell egy új „Thinker-Talker” rendszert használ a modalitások (szöveg, hang, kép, videó) közötti valós idejű feldolgozáshoz, szöveges és beszélt kimenettel.
Erős teljesítményt mutat a beszédértés és -generálás terén, a benchmark teszteken felülmúlva a specializált audiomodelleket.
Az Alibaba szerint az Omni-7B hatékonyan fut telefonokon és laptopokon, lehetővé téve olyan gyakorlati alkalmazásokat, mint a látássérültek számára készített valós idejű hangleírások.
Azonnal elérhető a Hugging Face-en és a GitHubon; az Alibaba a modellt a praktikus AI-ágensek fejlesztésének alapjaként pozicionálja.

Miért fontos?

A „mindent tudó” modellek kora már majdnem itt van, az omni-rendszerek pedig teljesen új élményeket és alkalmazáskategóriákat fognak megnyitni. Az az intelligencia, amely képes megérteni az emberi környezet teljes összetettségét és reagálni rá – miközben open-source és könnyen hozzáférhető –, rendkívül erőteljes kombináció. ---

Eredeti forrás megtekintése (angol) →