A Kyutai nyílt forráskódú neurális beszédrendszert adott ki STT és TTS feladatokhoz

OPEN SOURCE AI

A Kyutai nyílt forráskódú neurális beszédrendszert adott ki STT és TTS feladatokhoz

2025. július 7. · MI Történik? · 1 perc olvasás

A Kyutai, egy európai nyílt tudományos laboratórium, egy lenyűgöző neurális beszédrendszert tett közzé, amely nagy teljesítményű modelleket tartalmaz mind a beszéd-szöveg (STT), mind a szöveg-beszéd (TTS) átalakításhoz. Ezeket a modelleket a delayed streams modeling (DSM) technológia hajtja, amely egy rugalmas megközelítés a streaming típusú, multimodális sequence-to-sequence tanuláshoz. Az STT modelleket valós idejű használatra optimalizálták és kötegelhetőek a hatékonyság érdekében, míg a TTS modellek implementációi különféle platformokon, többek között mobil eszközökön is elérhetőek.

Kiadtak angol és francia nyelvű modelleket körülbelül 1 milliárd paraméterrel.
Közzétettek egy csak angol nyelvű modellt körülbelül 2,6 milliárd paraméterrel.
Az STT modellek szó szintű időbélyegeket adnak vissza, és tartalmazzák a szemantikus hangaktivitás-érzékelést (VAD).
A TTS implementációk elérhetőek PyTorch, Rust és MLX platformokon az iPhone-on és Mac-en történő eszközön belüli futtatáshoz.
A Rust szerver streaming hozzáférést biztosít a modellekhez websocketteken keresztül produkciós használatra.

Miért fontos?

Bármikor, amikor könnyebbé és intuitívabbá tesszük az AI-val való interakciót, az emberek több időt töltenek az AI rendszerekkel. Az olyan technológiák, mint a nagy teljesítményű és szabadon elérhető STT és TTS, masszívan növelni fogják az AI-t használó, fogyasztóbarát alkalmazások körét, amelyeket bárki megépíthet. ---

Eredeti forrás megtekintése (angol) →