Az Amazon AGI csapata milliárdos paraméterszámú BASE modellel skálázza a szövegfelolvasást

2024. február 26. · MI Történik? · 1 perc olvasás

Az Amazon egy nagy szövegfelolvasó modellcsaládot épített 100 ezer órányi közkinccsé tett beszédadaton. A modell, a Big Adaptive Streamable TTS with Emergent abilities (BASE), három változatban érhető el: BASE-small (1000 óra, 150 millió paraméter), BASE-medium (10 ezer óra, 400 millió paraméter), és BASE-large (100 ezer óra, 980 millió paraméter).

Egy kutatási tanulmányban az Amazon bemutatja, hogy a nyelvi modellekhez hasonlóan a TTS modell méretének növelésével „felbukkanó képességek” (emergent abilities) jelennek meg, amelyek révén a modell természetesebb hangzásúvá válik, jobban kezeli az összetett főneveket és egyebeket. A tanulmányban az Amazon közzétett egy tesztkészletet is, amely segít a TTS modellek képességeinek vizsgálatában. Ezek olyan szövegsorok, amelyeket a modellnek hanggá kell alakítania, és a kategóriák a kérdésektől az érzelmeken át az összetett főnevekig és idegen szavakig terjednek.

„Megközelítésünknek továbbra is vannak korlátai: a) a BASE TTS alkalmanként hallucinációkat és szakadásokat produkál, ahol vagy extra, vagy hiányos hangot generál a szöveghez képest” – jegyzi meg az Amazon, hozzátéve, hogy még mindig nem világos, mi a legjobb reprezentáció a GPT-stílusú TTS modellek számára.

BASE-small: 1000 órán tanítva, 150 millió paraméterrel
BASE-medium: 10 ezer órán tanítva, 400 millió paraméterrel
BASE-large: 100 ezer órán tanítva, 980 millió paraméterrel
Jobb szóhibaarányt (WER) ért el, mint az olyan kereskedelmi rendszerek, mint a Bark, a Tortoise és a YourTTS
Skálázásnál megjelenő „felbukkanó képességeket” mutat a természetesség és az összetett főnevek terén
Kiadott egy tesztkészletet a felbukkanó képességek vizsgálatára (kérdések, érzelmek, idegen szavak)
Továbbra is fennállnak korlátok, például alkalmi hallucinációk és hangszakadás

Miért fontos?

A nyelvi modellezés „nagy, egyszerű” jelensége (csak próbáld megjósolni a sorozat következő elemét, és skálázd fel a módszert rengeteg adaton) az AI legtöbb más területére és bemeneti/kimeneti módjára is átterjedt. Az olyan rendszerek, mint a BASE TTS, rávilágítanak arra, hogy mindenki kísérletezik ezzel a megközelítéssel – és ez továbbra is működik!

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

4 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

5 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.