AI ESZKÖZÖK
A Mistral kiadta a Voxtral TTS modellt, amely vakteszteken felülmúlja az ElevenLabs-et
A Mistral megjelentette a Voxtral TTS-t, egy open-source szövegfelolvasó modellt, amely mindössze egy ötmásodperces minta alapján képes bármilyen hang klónozására. Kis mérete ellenére – elfér egy okosórán és csupán 3GB RAM-ot igényel – a vakteszteken jobban teljesített, mint a piacvezető ElevenLabs. A modell kilenc nyelven támogatja a beszédgenerálást, és ingyenesen elérhető open-source projektként.
- Bármilyen hangot nagy hűséggel klónoz mindössze egy 5 másodperces hangminta alapján.
- 9 nyelven generál beszédet, miközben csak 3GB RAM-ot igényel.
- Különböző vakteszt-szcenáriókban felülmúlta az ElevenLabs-et.
- Open-source modellként érhető el, lehetővé téve a lokális és offline hang-AI alkalmazásokat.
Miért fontos?
Egy rendkívül hatékony, open-source hangklónozó modell megjelenése kihívást jelent a fizetős, zárt forráskódú szolgáltatások dominanciájával szemben, és elérhetővé teszi a kiváló minőségű TTS-t az alacsony erőforrású hardverek számára is. ---