A Microsoft VALL-E 2 elérte az emberi szintet a zero-shot hangszintézisben

2024. június 17. · MI Történik? · 1 perc olvasás

A Microsoft további előrelépést ért el a szövegfelolvasás (text-to-speech) terén a VALL-E 2-vel, egy olyan rendszerrel, amely akár egyetlen három másodperces hangfelvételből rendkívül jó hangmintákat képes generálni tetszőleges mondatokhoz. A VALL-E 2 a Microsoft korábbi VALL-E munkájára épül, és technikai fejlesztéseket tartalmaz, amelyek lehetővé teszik a zero-shot szövegfelolvasás javítását, „először érve el az emberi szintet”.

„A VALL-E 2 következetesen kiváló minőségű beszédet szintetizál, még olyan mondatok esetében is, amelyek hagyományosan kihívást jelentenek összetettségük vagy ismétlődő kifejezéseik miatt” – írja a Microsoft. „Továbbá megfigyeléseink feltárják, hogy a VALL-E 2 képes megbízhatóan szintetizálni a beszédet összetett mondatokhoz is, beleértve azokat is, amelyeket nehéz olvasni, vagy számos ismétlődő kifejezést tartalmaznak.”

Jelenleg a Microsoft kijelenti, hogy a VALL-E 2 pusztán kutatási projekt, és nem tervezik a nyilvános hozzáférés kiterjesztését.

Ismétlés-tudatos mintavételezés (Repetition aware sampling): A véletlenszerű mintavételezés javítása, amely adaptívan alkalmazza a nukleusz-mintavételezést a token-ismétlési előzmények alapján a végtelen ciklusok elkerülése érdekében.
Csoportosított kódmodellezés (Grouped code modeling): A codec-kódokat egyetlen keretben modellezett csoportokra osztja a következtetés (inference) felgyorsítása és a hosszú kontextusmodellezési problémák mérséklése érdekében.
Mindössze három másodperces hangfelvétel szükséges egy hang klónozásához tetszőleges szöveggeneráláshoz.
A visszaélések kockázata miatt jelenleg nem tervezik a termék kiadását vagy a nyilvános hozzáférést.

Miért fontos?

A Microsoft kutatása azt mutatja, hogy az azonnali hangklónozási technológia hamarosan elérhetővé válik: az AI-ban néha nem az eredeti kutatás terjesztése (pl. VALL-E 2) indítja el egy technológia elterjedését, hanem pusztán annak megmutatása, hogy valami megvalósítható. A VALL-E 2 azt üzeni nekünk, hogy a zero-shot hangklónozás lehetséges. Bár a Microsoft nem adja ki, számítanunk kell arra, hogy valaki hamarosan használni fogja ezt a képességet. Ennek a pozitív alkalmazások széles skálája lesz, de tovább mélyíti a „valóság összeomlását” (reality collapse), amelyet az egyre inkább szintetikus médiával teli világ okoz.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az Anthropic kutatója négy kulcsfontosságú promptstratégiát vázolt fel a Claude Fable 5-höz

7 órája

Az Apple bemutatta a Siri AI funkcióit és az iOS 27-et a WWDC nyitóelőadásán

9 órája

A NASA X-59-es repülőgépe elérte a szuperszonikus sebességet, ami jelentős mérföldkő a repülésben

12 órája

Tudj meg többet

Microsoft Copilot: Teljes útmutató magyarul (2026)