Az Inworld kiadta expresszív TTS-1.5 modelljét valós idejű AI alkalmazásokhoz

2026. január 23. · MI Történik? · 1 perc olvasás

Az Inworld kiadta a TTS-1.5-öt, építve az Artificial Analysis és a Hugging Face TTS arénáiban elért első helyezéseire. Az új modellt olyan fejlesztőknek szánták, akik nagy igénybevételű, valós idejű alkalmazásokat építenek fogyasztói léptékben. Célja, hogy szinkronszínész minőségű hangot nyújtson valós idejű sebességgel, jelentősen alacsonyabb költségek és nagyobb megbízhatóság mellett, mint a korábbi generációk.

Produkciós szintű valós idejű késleltetés: 250 ms alatti késleltetés a Max modellnél és 130 ms alatti a Mini modellnél, ami négyszer gyorsabb az előző generációknál.
Elköteleződésre optimalizált minőség: 30%-kal kifejezőbb hang azon alkalmazások számára, ahol a beszédstílus és személyiség kritikus fontosságú.
Hibacsökkentés: 40%-kal alacsonyabb szóhiba-arány, ami kevesebb hallucinációt, hirtelen megszakadást és zajt eredményez.
Fogyasztói léptékű árazás: 25-ször alacsonyabb költség az alternatívákhoz képest, 15 nyelv támogatásával és fejlett hangklónozással API-n keresztül.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Google AI Overviews már a keresési találatok 43%-ában jelenik meg

most

Heti cél ellenőrző sablon létrehozása ChatGPT-vel

2 órája

A Claude Opus 5 lenyűgöz egy 8 oldalas munkafüzet elemzésével

5 órája