Alacsony késleltetésű hangátalakító AI-t tettek közzé kutatók a valós idejű hangmódosításhoz

2023. november 6. · MI Történik? · 1 perc olvasás

A Koe AI startup kutatói részleteket és kódot tettek közzé, amely segít az alacsony késleltetésű hangátalakító AI modellek betanításában. A hangátalakító modellek lehetővé teszik a hang valós idejű módosítását valami mássá. A technológia gyakorlati alkalmazásai közé tartozik a beszédszintézis, a hang anonimizálása, valamint a vokális identitás megváltoztatása személyes, kreatív vagy szakmai célokból. Egy LLVC (Low-latency Low-resource Voice Conversion) nevű modellt építettek, amely 20 ms alatti késleltetést ér el 16 kHz-es bitráta mellett, és magas pontszámot kapott a célhanghoz való hasonlóság tekintetében. Rendszerüket a Waveformer megközelítésre alapozták, és a „LibriSpeech” adatsort használták a tanításhoz. Az LLVC-t egy mesterséges, párhuzamos adatsoron tanították be, ahol különböző beszélők hangját alakították át egyetlen célbeszélő hangjává, azzal a céllal, hogy minimalizálják az észlelhető különbséget a modell kimenete és a szintetikus célhang között.

20 milliszekundum alatti teljes (end-to-end) késleltetést értek el 16 kHz-es bitráta mellett.
Az alapmodellt 500 000 lépésen keresztül (53 epoch) tanították egyetlen RTX 3090 GPU-n, 3 nap alatt.
Sikeresen tesztelték lakossági hardveren (Intel Core i9 CPU).
Magas pontszámokat értek el a „természetesség” és a „hasonlóság” mutatóiban a célbeszélőkhöz képest.
A kódot nyilvánosan közzétették, így a felhasználók saját átalakító modelleket taníthatnak be.

Miért fontos?

A Koe hangátalakító technológiájához hasonló modellek a társadalom előtt álló „valóság összeomlásának” tünetei, hiszen bárki az interneten bármivé (és bárkivé) változtathatja magát – ráadásul olcsón, helyi számítógépeket használva, felhőalapú szolgáltatás nélkül.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

3 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

4 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

AI adatbiztonság és adatvédelem: Hogyan használd az AI-t biztonságosan?