NARI LABS
Két egyetemi hallgató bemutatta a legmodernebb nyílt forráskódú hangalapú AI-t
A koreai startup, a Nari Labs kiadta a Dia-t, egy nyílt forráskódú text-to-speech modellt, amely állítása szerint felülmúlja az olyan vezető kereskedelmi megoldások képességeit, mint az ElevenLabs és a Sesame – mindezt két egyetemi hallgató fejlesztette ki külső tőke nélkül.
- Az 1,6 milliárd paraméteres modell olyan fejlett funkciókat támogat, mint az érzelmi tónusok, több beszélőhöz tartozó címkék és a nem verbális jelek, például a nevetés, a köhögés és a sikoltozás.
- A munkát a Google NotebookLM-je inspirálta, a Nari pedig a Google TPU Research Cloud programját vette igénybe a számítási kapacitás eléréséhez.
- Az összehasonlító tesztek azt mutatják, hogy a Dia felülmúlja az ElevenLabs Studio-t és a Sesame CSM-1B-t az időzítés, a kifejezőkészség és a nem verbális forgatókönyvek kezelése terén.
- A Nari Labs alapítója, Toby Kim elmondta, hogy a startup egy olyan fogyasztói alkalmazás fejlesztését tervezi, amely a modellre alapozva a közösségi tartalomgyártásra és remixekre fókuszál.
Miért fontos?
A Dia élő bizonyítéka Sam Altman „egyszerűen csak csinálj dolgokat” tweetjének: két tapasztalatlan egyetemista egy olyan nyílt forráskódú modellt tanított be, amely versenyre kel a piacon lévő legjobb hangtechnológiákkal. Soha nem volt jobb alkalom arra, hogy megpróbáljunk felépíteni valamit, mivel az AI minden eddiginél nagyobb hozzáférést biztosít a tanuláshoz. ---