KIPRÓBÁLANDÓ ÉRDEKESSÉGEK
A Pocket TTS gyors hangklónozást tesz lehetővé lakossági processzorokon
A Kyutai nevű francia AI laboratórium kiadta a Pocket TTS-t, egy text-to-speech modellt, amely egy egyszerű, 5 másodperces hangminta alapján képes hangot klónozni. A modellt hatékonyságra optimalizálták: egy szabványos laptop CPU-ján a valós időnél hatszor gyorsabban fut, GPU igénybevétele nélkül. Az architektúra 100 millió paramétert és folytonos latenseket (continuous latents) használ tokenek helyett, ami a kutatók szerint lehetővé teszi, hogy hangminőségben lekörözze a sokkal nagyobb modelleket is.
- Hangok klónozása egy 5 másodperces hangmintából.
- 6-szor gyorsabb a valós időnél egy átlagos laptop CPU-ján.
- Dedikált GPU nélkül is működik.
- Tokenek helyett folytonos latenseket alkalmaz a magas minőség megőrzéséhez kisebb modellméret mellett.
Miért fontos?
Ez a bemutató bizonyítja, hogy a kiváló minőségű, valós idejű hangszintézis és hangklónozás függetleníthető a hatalmas GPU-fürtöktől, és helyileg is futtatható általános lakossági hardvereken. ---