AI KUTATÁS
Alacsony késleltetésű hangátalakító AI-t tettek közzé kutatók a valós idejű hangmódosításhoz
A Koe AI startup kutatói részleteket és kódot tettek közzé, amely segít az alacsony késleltetésű hangátalakító AI modellek betanításában. A hangátalakító modellek lehetővé teszik a hang valós idejű módosítását valami mássá. A technológia gyakorlati alkalmazásai közé tartozik a beszédszintézis, a hang anonimizálása, valamint a vokális identitás megváltoztatása személyes, kreatív vagy szakmai célokból. Egy LLVC (Low-latency Low-resource Voice Conversion) nevű modellt építettek, amely 20 ms alatti késleltetést ér el 16 kHz-es bitráta mellett, és magas pontszámot kapott a célhanghoz való hasonlóság tekintetében. Rendszerüket a Waveformer megközelítésre alapozták, és a „LibriSpeech” adatsort használták a tanításhoz. Az LLVC-t egy mesterséges, párhuzamos adatsoron tanították be, ahol különböző beszélők hangját alakították át egyetlen célbeszélő hangjává, azzal a céllal, hogy minimalizálják az észlelhető különbséget a modell kimenete és a szintetikus célhang között.
- 20 milliszekundum alatti teljes (end-to-end) késleltetést értek el 16 kHz-es bitráta mellett.
- Az alapmodellt 500 000 lépésen keresztül (53 epoch) tanították egyetlen RTX 3090 GPU-n, 3 nap alatt.
- Sikeresen tesztelték lakossági hardveren (Intel Core i9 CPU).
- Magas pontszámokat értek el a „természetesség” és a „hasonlóság” mutatóiban a célbeszélőkhöz képest.
- A kódot nyilvánosan közzétették, így a felhasználók saját átalakító modelleket taníthatnak be.
Miért fontos?
A Koe hangátalakító technológiájához hasonló modellek a társadalom előtt álló „valóság összeomlásának” tünetei, hiszen bárki az interneten bármivé (és bárkivé) változtathatja magát – ráadásul olcsón, helyi számítógépeket használva, felhőalapú szolgáltatás nélkül.