A generatív videós tér hosszabb időtartamokkal és nyelvfordítással fejlődik

2023. december 28. · MI Történik? · 1 perc olvasás

A generatív videómodellek gyakorlatilag stagnáltak 2022-ben, csupán néhány ízelítő és zárt béta jelent meg a Google-től és a Meta-tól. Ez 2023-ban megváltozott számos nyílt forráskódú csomag megjelenésével és a kereskedelmi termékek jelentős fejlődésével. Ezek a fejlesztések magukban foglalják a maximális videóhossz 18 másodpercre történő növelését (a 2022-es 4 másodpercről), valamint a videóminőség és a konzisztencia jelentős javulását.

A Pika Labs és a Runway vezetik a piacot saját alap text-to-video modelljeikkel
Az új képességek közé tartozik a videós inpainting, outpainting és különböző stílusok, például anime renderelése
A HeyGen AI segítségével 30 nyelvre fordít le videókat a hang klónozásával és a szájmozgás igazításával
A VideoCrafter1 és a ModelScope a jelenlegi legfejlettebb open-source modellek
A videószintézis a rövid, 4 másodperces klipektől a konzisztensebb 18 másodperces hosszúság felé mozdult el

Miért fontos?

A stagnáló technológiától a stílusrenderelésre és nyelvfordításra képes eszközökig tartó gyors fejlődés a videót jelöli meg a generatív AI következő nagy határterületeként.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A generatív videótechnológia hosszabb időtartammal és AI fordítással fejlődik

2023. december 28.

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

most

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

3 órája

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

Generatív AI közérthetően: Hogyan készít képet, szöveget és zenét az AI?