MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Kyutai nyílt forráskódú neurális beszédrendszert adott ki STT és TTS feladatokhoz

A Kyutai, egy európai nyílt tudományos laboratórium, egy lenyűgöző neurális beszédrendszert tett közzé, amely nagy teljesítményű modelleket tartalmaz mind a beszéd-szöveg (STT), mind a szöveg-beszéd (TTS) átalakításhoz. Ezeket a modelleket a delayed streams modeling (DSM) technológia hajtja, amely egy rugalmas megközelítés a streaming típusú, multimodális sequence-to-sequence tanuláshoz. Az STT modelleket valós idejű használatra optimalizálták és kötegelhetőek a hatékonyság érdekében, míg a TTS modellek implementációi különféle platformokon, többek között mobil eszközökön is elérhetőek.
Miért fontos?

Bármikor, amikor könnyebbé és intuitívabbá tesszük az AI-val való interakciót, az emberek több időt töltenek az AI rendszerekkel. Az olyan technológiák, mint a nagy teljesítményű és szabadon elérhető STT és TTS, masszívan növelni fogják az AI-t használó, fogyasztóbarát alkalmazások körét, amelyeket bárki megépíthet. ---

Eredeti forrás megtekintése (angol) →