A Microsoft VALL-E 2 elérte az emberi szintet a zero-shot hangszintézisben
A Microsoft további előrelépést ért el a szövegfelolvasás (text-to-speech) terén a VALL-E 2-vel, egy olyan rendszerrel, amely akár egyetlen három másodperces hangfelvételből rendkívül jó hangmintákat képes generálni tetszőleges mondatokhoz. A VALL-E 2 a Microsoft korábbi VALL-E munkájára épül, és technikai fejlesztéseket tartalmaz, amelyek lehetővé teszik a zero-shot szövegfelolvasás javítását, „először érve el az emberi szintet”.
„A VALL-E 2 következetesen kiváló minőségű beszédet szintetizál, még olyan mondatok esetében is, amelyek hagyományosan kihívást jelentenek összetettségük vagy ismétlődő kifejezéseik miatt” – írja a Microsoft. „Továbbá megfigyeléseink feltárják, hogy a VALL-E 2 képes megbízhatóan szintetizálni a beszédet összetett mondatokhoz is, beleértve azokat is, amelyeket nehéz olvasni, vagy számos ismétlődő kifejezést tartalmaznak.”
Jelenleg a Microsoft kijelenti, hogy a VALL-E 2 pusztán kutatási projekt, és nem tervezik a nyilvános hozzáférés kiterjesztését.
- Ismétlés-tudatos mintavételezés (Repetition aware sampling): A véletlenszerű mintavételezés javítása, amely adaptívan alkalmazza a nukleusz-mintavételezést a token-ismétlési előzmények alapján a végtelen ciklusok elkerülése érdekében.
- Csoportosított kódmodellezés (Grouped code modeling): A codec-kódokat egyetlen keretben modellezett csoportokra osztja a következtetés (inference) felgyorsítása és a hosszú kontextusmodellezési problémák mérséklése érdekében.
- Mindössze három másodperces hangfelvétel szükséges egy hang klónozásához tetszőleges szöveggeneráláshoz.
- A visszaélések kockázata miatt jelenleg nem tervezik a termék kiadását vagy a nyilvános hozzáférést.
A Microsoft kutatása azt mutatja, hogy az azonnali hangklónozási technológia hamarosan elérhetővé válik: az AI-ban néha nem az eredeti kutatás terjesztése (pl. VALL-E 2) indítja el egy technológia elterjedését, hanem pusztán annak megmutatása, hogy valami megvalósítható. A VALL-E 2 azt üzeni nekünk, hogy a zero-shot hangklónozás lehetséges. Bár a Microsoft nem adja ki, számítanunk kell arra, hogy valaki hamarosan használni fogja ezt a képességet. Ennek a pozitív alkalmazások széles skálája lesz, de tovább mélyíti a „valóság összeomlását” (reality collapse), amelyet az egyre inkább szintetikus médiával teli világ okoz.