VIDEÓGENERÁLÁS
A generatív videós tér hosszabb időtartamokkal és nyelvfordítással fejlődik
A generatív videómodellek gyakorlatilag stagnáltak 2022-ben, csupán néhány ízelítő és zárt béta jelent meg a Google-től és a Meta-tól. Ez 2023-ban megváltozott számos nyílt forráskódú csomag megjelenésével és a kereskedelmi termékek jelentős fejlődésével. Ezek a fejlesztések magukban foglalják a maximális videóhossz 18 másodpercre történő növelését (a 2022-es 4 másodpercről), valamint a videóminőség és a konzisztencia jelentős javulását.
- A Pika Labs és a Runway vezetik a piacot saját alap text-to-video modelljeikkel
- Az új képességek közé tartozik a videós inpainting, outpainting és különböző stílusok, például anime renderelése
- A HeyGen AI segítségével 30 nyelvre fordít le videókat a hang klónozásával és a szájmozgás igazításával
- A VideoCrafter1 és a ModelScope a jelenlegi legfejlettebb open-source modellek
- A videószintézis a rövid, 4 másodperces klipektől a konzisztensebb 18 másodperces hosszúság felé mozdult el
Miért fontos?
A stagnáló technológiától a stílusrenderelésre és nyelvfordításra képes eszközökig tartó gyors fejlődés a videót jelöli meg a generatív AI következő nagy határterületeként.