MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Multimodális és audio AI fejlődés az Eagle és a Qwen2 modellekkel

A multimodális AI területén az Nvidia Eagle és az Alibaba Qwen2-VL modelljei lenyűgöző teljesítményt nyújtottak a vizuális értelmezési feladatokban. Ezzel párhuzamosan az audio AI is jelentős lépéseket tett előre a többnyelvű hanginterakciót biztosító Qwen2-Audio, valamint a HuggingFace továbbfejlesztett szövegfelolvasó képességeket kínáló Parler TTS megoldása révén.
Miért fontos?

A multimodális és audio AI fejlődése a különböző érzékszervi bemeneteken keresztül megvalósuló természetesebb, emberibb interakciók felé tereli az iparágat.

Eredeti forrás megtekintése (angol) →