MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Microsoft VALL-E 2 elérte az emberi szintet a zero-shot hangszintézisben

A Microsoft újabb haladást ért el a szövegfelolvasás (text-to-speech) területén a VALL-E 2-vel, egy olyan rendszerrel, amely képes rendkívül jó hangmintákat generálni tetszőleges mondatokhoz, akár egy mindössze három másodperces hangfelvétel alapján. A VALL-E 2 a Microsoft korábbi VALL-E munkájára épít, és olyan technikai fejlesztéseket tartalmaz, amelyekkel először sikerült elérni az emberi szintet a zero-shot szövegfelolvasásban. A VALL-E 2 következetesen kiváló minőségű beszédet szintetizál még az olyan mondatok esetében is, amelyek bonyolultságuk vagy ismétlődő kifejezéseik miatt hagyományosan nagy kihívást jelentenek. Ezenfelül a rendszer képes megbízhatóan beszédet szintetizálni összetett mondatokhoz, beleértve azokat is, amelyeket nehéz felolvasni, vagy számos ismétlődő kifejezést tartalmaznak.
Miért fontos?

A Microsoft kutatása azt mutatja, hogy az azonnali hangklónozási technológia hamarosan elérhetővé válik: az AI világában néha nem az eredeti kutatás terjesztése indítja be egy technológia elterjedését, hanem egyszerűen annak bizonyítása, hogy valami megvalósítható. A VALL-E 2 megmutatja, hogy a zero-shot hangklónozás lehetséges. Ennek számos pozitív alkalmazása lesz, de tovább mélyíti a „valóság összeomlását”, amelyet az egyre inkább szintetikus médiával teli világ okoz. ---

Eredeti forrás megtekintése (angol) →