MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Amazon AGI csapata milliárdos paraméterszámú BASE modellel skálázza a szövegfelolvasást

Az Amazon egy nagy szövegfelolvasó modellcsaládot épített 100 ezer órányi közkinccsé tett beszédadaton. A modell, a Big Adaptive Streamable TTS with Emergent abilities (BASE), három változatban érhető el: BASE-small (1000 óra, 150 millió paraméter), BASE-medium (10 ezer óra, 400 millió paraméter), és BASE-large (100 ezer óra, 980 millió paraméter). Egy kutatási tanulmányban az Amazon bemutatja, hogy a nyelvi modellekhez hasonlóan a TTS modell méretének növelésével „felbukkanó képességek” (emergent abilities) jelennek meg, amelyek révén a modell természetesebb hangzásúvá válik, jobban kezeli az összetett főneveket és egyebeket. A tanulmányban az Amazon közzétett egy tesztkészletet is, amely segít a TTS modellek képességeinek vizsgálatában. Ezek olyan szövegsorok, amelyeket a modellnek hanggá kell alakítania, és a kategóriák a kérdésektől az érzelmeken át az összetett főnevekig és idegen szavakig terjednek. „Megközelítésünknek továbbra is vannak korlátai: a) a BASE TTS alkalmanként hallucinációkat és szakadásokat produkál, ahol vagy extra, vagy hiányos hangot generál a szöveghez képest” – jegyzi meg az Amazon, hozzátéve, hogy még mindig nem világos, mi a legjobb reprezentáció a GPT-stílusú TTS modellek számára.
Miért fontos?

A nyelvi modellezés „nagy, egyszerű” jelensége (csak próbáld megjósolni a sorozat következő elemét, és skálázd fel a módszert rengeteg adaton) az AI legtöbb más területére és bemeneti/kimeneti módjára is átterjedt. Az olyan rendszerek, mint a BASE TTS, rávilágítanak arra, hogy mindenki kísérletezik ezzel a megközelítéssel – és ez továbbra is működik!

Eredeti forrás megtekintése (angol) →