OPEN SOURCE AI
A Kyutai nyílt forráskódú neurális beszédrendszert adott ki STT és TTS feladatokhoz
A Kyutai, egy európai nyílt tudományos laboratórium, egy lenyűgöző neurális beszédrendszert tett közzé, amely nagy teljesítményű modelleket tartalmaz mind a beszéd-szöveg (STT), mind a szöveg-beszéd (TTS) átalakításhoz. Ezeket a modelleket a delayed streams modeling (DSM) technológia hajtja, amely egy rugalmas megközelítés a streaming típusú, multimodális sequence-to-sequence tanuláshoz. Az STT modelleket valós idejű használatra optimalizálták és kötegelhetőek a hatékonyság érdekében, míg a TTS modellek implementációi különféle platformokon, többek között mobil eszközökön is elérhetőek.
- Kiadtak angol és francia nyelvű modelleket körülbelül 1 milliárd paraméterrel.
- Közzétettek egy csak angol nyelvű modellt körülbelül 2,6 milliárd paraméterrel.
- Az STT modellek szó szintű időbélyegeket adnak vissza, és tartalmazzák a szemantikus hangaktivitás-érzékelést (VAD).
- A TTS implementációk elérhetőek PyTorch, Rust és MLX platformokon az iPhone-on és Mac-en történő eszközön belüli futtatáshoz.
- A Rust szerver streaming hozzáférést biztosít a modellekhez websocketteken keresztül produkciós használatra.
Miért fontos?
Bármikor, amikor könnyebbé és intuitívabbá tesszük az AI-val való interakciót, az emberek több időt töltenek az AI rendszerekkel. Az olyan technológiák, mint a nagy teljesítményű és szabadon elérhető STT és TTS, masszívan növelni fogják az AI-t használó, fogyasztóbarát alkalmazások körét, amelyeket bárki megépíthet. ---