A Meta kiadta a MusicGen AI-t az irányítható hanggeneráláshoz

AI ESZKÖZÖK

A Meta kiadta a MusicGen AI-t az irányítható hanggeneráláshoz

2023. június 12. · MI Történik? · 1 perc olvasás

A Facebook megalkotta a MusicGen nevű AI-modellt, amely „egylépcsős nyelvi modellként, hatékony kódkönyv-összefűzési stratégia révén képes konzisztens zenét generálni”. A kutatás közzététele mellett a Facebook azzal a szokatlan lépéssel is élt, hogy magát a modellt is elérhetővé tette. Több transformer-alapú modellt tanítottak 300 millió, 1,5 milliárd és 3,3 milliárd paraméteres méretben, mintegy 20 000 órányi licencelt zenén. A hanganyag egy „10 000 kiváló minőségű zeneszámból álló belső adatkészletből, valamint a ShutterStock és a Pond5 gyűjteményeiből (25 000, illetve 365 000, csak hangszereket tartalmazó számból)” állt össze. A tesztek során modelljeik felülmúlták a Google MusicLM modelljét – amely egy rendkívül jó, de zárt modell –, valamint a szélesebb körben elérhető Riffusion és Mousai modelleket is.

20 000 órányi licencelt zenén tanították (ShutterStock és Pond5).
300M, 1.5B és 3.3B paraméteres méretben érhető el.
Bevezeti a „dallamkondicionálást” (melody conditioning), amellyel tetszőleges stílusú zenét generálhatunk egy audio bemenet alapján.
A teszteken megelőzte a Google MusicLM-et és az olyan nyílt modelleket, mint a Riffusion.
A teljes modellt és a forráskódot is nyilvánossá tették.

Miért fontos?

A modell nyílt forrásúvá tételével a Meta megkülönbözteti magát a Google zárt modellstratégiájától, célja pedig, hogy amatőröket és profikat egyaránt fejlett kreatív irányítási lehetőségekkel ruházzon fel. ---

Eredeti forrás megtekintése (angol) →