AI KUTATÁS
A Microsoft VALL-E 2 elérte az emberi szintet a zero-shot hangszintézisben
A Microsoft újabb haladást ért el a szövegfelolvasás (text-to-speech) területén a VALL-E 2-vel, egy olyan rendszerrel, amely képes rendkívül jó hangmintákat generálni tetszőleges mondatokhoz, akár egy mindössze három másodperces hangfelvétel alapján. A VALL-E 2 a Microsoft korábbi VALL-E munkájára épít, és olyan technikai fejlesztéseket tartalmaz, amelyekkel először sikerült elérni az emberi szintet a zero-shot szövegfelolvasásban. A VALL-E 2 következetesen kiváló minőségű beszédet szintetizál még az olyan mondatok esetében is, amelyek bonyolultságuk vagy ismétlődő kifejezéseik miatt hagyományosan nagy kihívást jelentenek. Ezenfelül a rendszer képes megbízhatóan beszédet szintetizálni összetett mondatokhoz, beleértve azokat is, amelyeket nehéz felolvasni, vagy számos ismétlődő kifejezést tartalmaznak.
- Ismétlés-tudatos mintavételezés (Repetition aware sampling): Adaptívan alkalmaz véletlenszerű vagy nukleusz-mintavételezést a token-ismétlési előzmények alapján a stabilitás növelése és a végtelen ciklusok elkerülése érdekében.
- Csoportosított kódmodellezés (Grouped code modeling): A kodek-kódokat csoportokra osztja, amelyeket egyetlen keretben modellez, felgyorsítva az következtetést (inference) és enyhítve a hosszú kontextus modellezési problémáit.
- Kutatási állapot: A VALL-E 2 jelenleg csak kutatási projekt; a Microsoft nem tervezi a nyilvános kiadását vagy termékbe való integrálását.
Miért fontos?
A Microsoft kutatása azt mutatja, hogy az azonnali hangklónozási technológia hamarosan elérhetővé válik: az AI világában néha nem az eredeti kutatás terjesztése indítja be egy technológia elterjedését, hanem egyszerűen annak bizonyítása, hogy valami megvalósítható. A VALL-E 2 megmutatja, hogy a zero-shot hangklónozás lehetséges. Ennek számos pozitív alkalmazása lesz, de tovább mélyíti a „valóság összeomlását”, amelyet az egyre inkább szintetikus médiával teli világ okoz. ---