AI Hírek

A Microsoft kiadta a VibeVoice nyílt forráskódú modellt hosszú szövegek beszéddé alakításához

2025. augusztus 26. · MI Történik? · 1 perc olvasás

A Microsoft nemrég tette közzé a VibeVoice-t, egy új, nyílt forráskódú text-to-speech modellt, amelyet hosszú formátumú hanganyagok kezelésére terveztek. Képes akár 90 percnyi, több beszélős párbeszédet generálni mindössze 1,5 milliárd paraméter felhasználásával. A modell podcast-minőségű beszélgetéseket hoz létre akár négy különböző hanggal, megőrizve a beszélők egyedi jellemzőit az egyórás dialógusok során is.

A modell podcast-minőségű beszélgetéseket generál akár négy különböző hanggal, megőrizve a beszélők egyedi jellemzőit a hosszú párbeszédek alatt.
A Microsoft jelentős hatékonysági frissítéseket ért el, 80-szorosára javítva az audióadatok tömörítését, így a technológia fogyasztói eszközökön is futtatható.
A Microsoft integrálta a Qwen2.5 modellt, hogy lehetővé tegye a természetes szóváltást és a kontextusfüggő beszédmintákat, amelyek a hosszú beszélgetésekre jellemzőek.
A beépített biztonsági funkciók automatikusan beszúrják a „generálta az AI” figyelmeztetést és rejtett vízjeleket a hangfájlokba, lehetővé téve a szintetikus tartalom ellenőrzését.

Miért fontos?

Míg a korábbi modellek két személy közötti beszélgetést tudtak kezelni, négy hang koordinálása hosszú formátumú párbeszédekben lenyűgöző bármely modelltől — különösen egy olyantól, amely elég kicsi ahhoz, hogy lakossági eszközökön is fusson. Hamarosan túllépünk a rövid AI podcastokon a teljes AI-szakértői panelek által készített hosszú tartalmak felé. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Személyes AI persona lead generáláshoz

11 órája

Személyi stylist ruhatár-munkafolyamat

15 órája

A Claude Voice mód kiterjesztésre került a Sonnet és Opus modellekre

tegnap

Tudj meg többet

Microsoft Copilot: Teljes útmutató magyarul (2026)