Az Amazon bemutatta a 100 000 órányi beszéden tanított Base TTS-t

2024. március 9. · MI Történik? · 1 perc olvasás

Az Amazon bemutatta a Base TTS-t, az eddigi legnagyobb text-to-speech modellt. A több mint 100 000 órányi beszédadaton tanított modell a beszédmintézis természetességének új szintjét éri el. Egy újszerű tokenizációs módszert alkalmaz, amely lehetővé teszi az emberi beszéd árnyalatainak minden eddigi modellnél hatékonyabb rögzítését.

A legnagyobb text-to-speech modell 100 ezer órányi tanítóadattal
Példátlan természetességet és prozódiát ér el
Újszerű tokenizációs rendszert használ a jobb audio-reprezentáció érdekében
Új technológiai csúcsot (state-of-the-art) állít fel a szintetikus hangminőségben

Miért fontos?

A TTS modellek méretének növelése élethűbb AI asszisztensekhez és digitális hangokhoz vezet, ami potenciálisan megkülönböztethetetlenné teszi a szintetikus beszédet az emberi felvételektől. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Waymo és mások robotaxi-teszteket indítanak európai nagyvárosokban

most

Az XPeng vezérigazgatója irányítja a humanoid robotok sorozatgyártását

most

Boston Dynamics Spot robotok járőröznek a 2026-os FIFA Világbajnokság stadionjaiban

most