MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Microsoft kiadta a VibeVoice nyílt forráskódú modellt hosszú szövegek beszéddé alakításához

A Microsoft nemrég tette közzé a VibeVoice-t, egy új, nyílt forráskódú text-to-speech modellt, amelyet hosszú formátumú hanganyagok kezelésére terveztek. Képes akár 90 percnyi, több beszélős párbeszédet generálni mindössze 1,5 milliárd paraméter felhasználásával. A modell podcast-minőségű beszélgetéseket hoz létre akár négy különböző hanggal, megőrizve a beszélők egyedi jellemzőit az egyórás dialógusok során is.
Miért fontos?

Míg a korábbi modellek két személy közötti beszélgetést tudtak kezelni, négy hang koordinálása hosszú formátumú párbeszédekben lenyűgöző bármely modelltől — különösen egy olyantól, amely elég kicsi ahhoz, hogy lakossági eszközökön is fusson. Hamarosan túllépünk a rövid AI podcastokon a teljes AI-szakértői panelek által készített hosszú tartalmak felé. ---

Eredeti forrás megtekintése (angol) →