MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Pocket TTS gyors hangklónozást tesz lehetővé lakossági processzorokon

A Kyutai nevű francia AI laboratórium kiadta a Pocket TTS-t, egy text-to-speech modellt, amely egy egyszerű, 5 másodperces hangminta alapján képes hangot klónozni. A modellt hatékonyságra optimalizálták: egy szabványos laptop CPU-ján a valós időnél hatszor gyorsabban fut, GPU igénybevétele nélkül. Az architektúra 100 millió paramétert és folytonos latenseket (continuous latents) használ tokenek helyett, ami a kutatók szerint lehetővé teszi, hogy hangminőségben lekörözze a sokkal nagyobb modelleket is.
Miért fontos?

Ez a bemutató bizonyítja, hogy a kiváló minőségű, valós idejű hangszintézis és hangklónozás függetleníthető a hatalmas GPU-fürtöktől, és helyileg is futtatható általános lakossági hardvereken. ---

Eredeti forrás megtekintése (angol) →