MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Alacsony késleltetésű hangátalakító AI-t tettek közzé kutatók a valós idejű hangmódosításhoz

A Koe AI startup kutatói részleteket és kódot tettek közzé, amely segít az alacsony késleltetésű hangátalakító AI modellek betanításában. A hangátalakító modellek lehetővé teszik a hang valós idejű módosítását valami mássá. A technológia gyakorlati alkalmazásai közé tartozik a beszédszintézis, a hang anonimizálása, valamint a vokális identitás megváltoztatása személyes, kreatív vagy szakmai célokból. Egy LLVC (Low-latency Low-resource Voice Conversion) nevű modellt építettek, amely 20 ms alatti késleltetést ér el 16 kHz-es bitráta mellett, és magas pontszámot kapott a célhanghoz való hasonlóság tekintetében. Rendszerüket a Waveformer megközelítésre alapozták, és a „LibriSpeech” adatsort használták a tanításhoz. Az LLVC-t egy mesterséges, párhuzamos adatsoron tanították be, ahol különböző beszélők hangját alakították át egyetlen célbeszélő hangjává, azzal a céllal, hogy minimalizálják az észlelhető különbséget a modell kimenete és a szintetikus célhang között.
Miért fontos?

A Koe hangátalakító technológiájához hasonló modellek a társadalom előtt álló „valóság összeomlásának” tünetei, hiszen bárki az interneten bármivé (és bárkivé) változtathatja magát – ráadásul olcsón, helyi számítógépeket használva, felhőalapú szolgáltatás nélkül.

Eredeti forrás megtekintése (angol) →