Két egyetemi hallgató bemutatta a legmodernebb nyílt forráskódú hangalapú AI-t

NARI LABS

Két egyetemi hallgató bemutatta a legmodernebb nyílt forráskódú hangalapú AI-t

2025. április 23. · MI Történik? · 1 perc olvasás

A koreai startup, a Nari Labs kiadta a Dia-t, egy nyílt forráskódú text-to-speech modellt, amely állítása szerint felülmúlja az olyan vezető kereskedelmi megoldások képességeit, mint az ElevenLabs és a Sesame – mindezt két egyetemi hallgató fejlesztette ki külső tőke nélkül.

Az 1,6 milliárd paraméteres modell olyan fejlett funkciókat támogat, mint az érzelmi tónusok, több beszélőhöz tartozó címkék és a nem verbális jelek, például a nevetés, a köhögés és a sikoltozás.
A munkát a Google NotebookLM-je inspirálta, a Nari pedig a Google TPU Research Cloud programját vette igénybe a számítási kapacitás eléréséhez.
Az összehasonlító tesztek azt mutatják, hogy a Dia felülmúlja az ElevenLabs Studio-t és a Sesame CSM-1B-t az időzítés, a kifejezőkészség és a nem verbális forgatókönyvek kezelése terén.
A Nari Labs alapítója, Toby Kim elmondta, hogy a startup egy olyan fogyasztói alkalmazás fejlesztését tervezi, amely a modellre alapozva a közösségi tartalomgyártásra és remixekre fókuszál.

Miért fontos?

A Dia élő bizonyítéka Sam Altman „egyszerűen csak csinálj dolgokat” tweetjének: két tapasztalatlan egyetemista egy olyan nyílt forráskódú modellt tanított be, amely versenyre kel a piacon lévő legjobb hangtechnológiákkal. Soha nem volt jobb alkalom arra, hogy megpróbáljunk felépíteni valamit, mivel az AI minden eddiginél nagyobb hozzáférést biztosít a tanuláshoz. ---

Eredeti forrás megtekintése (angol) →