AI ESZKÖZÖK
A Meta kiadta a MusicGen AI-t az irányítható hanggeneráláshoz
A Facebook megalkotta a MusicGen nevű AI-modellt, amely „egylépcsős nyelvi modellként, hatékony kódkönyv-összefűzési stratégia révén képes konzisztens zenét generálni”. A kutatás közzététele mellett a Facebook azzal a szokatlan lépéssel is élt, hogy magát a modellt is elérhetővé tette.
Több transformer-alapú modellt tanítottak 300 millió, 1,5 milliárd és 3,3 milliárd paraméteres méretben, mintegy 20 000 órányi licencelt zenén. A hanganyag egy „10 000 kiváló minőségű zeneszámból álló belső adatkészletből, valamint a ShutterStock és a Pond5 gyűjteményeiből (25 000, illetve 365 000, csak hangszereket tartalmazó számból)” állt össze. A tesztek során modelljeik felülmúlták a Google MusicLM modelljét – amely egy rendkívül jó, de zárt modell –, valamint a szélesebb körben elérhető Riffusion és Mousai modelleket is.
- 20 000 órányi licencelt zenén tanították (ShutterStock és Pond5).
- 300M, 1.5B és 3.3B paraméteres méretben érhető el.
- Bevezeti a „dallamkondicionálást” (melody conditioning), amellyel tetszőleges stílusú zenét generálhatunk egy audio bemenet alapján.
- A teszteken megelőzte a Google MusicLM-et és az olyan nyílt modelleket, mint a Riffusion.
- A teljes modellt és a forráskódot is nyilvánossá tették.
Miért fontos?
A modell nyílt forrásúvá tételével a Meta megkülönbözteti magát a Google zárt modellstratégiájától, célja pedig, hogy amatőröket és profikat egyaránt fejlett kreatív irányítási lehetőségekkel ruházzon fel. ---