VIDEÓGENERÁLÁS
A generatív videótechnológia hosszabb időtartammal és AI fordítással fejlődik
A videógeneratív modellek 2022-ben gyakorlatilag alvó állapotban voltak, de ez 2023-ban megváltozott számos open-source csomagnak és a kereskedelmi termékek jelentős fejlődésének köszönhetően. Ezek az előrelépések magukban foglalják a maximális videóhossz 18 másodpercre növelését (a 2022-es 4 másodpercről), valamint a minőség és a folytonosság jelentős javulását. Az olyan új versenyzők, mint a HeyGen, bevezették a videófordítást, amely klónozza a beszélő hangját és igazítja a szájmozgást.
- A Pika Labs és a Runway vezetik a kereskedelmi text-to-video alapmodellek piacát
- Megjelent a videós inpainting, outpainting és a speciális stílusú (anime, cinematic) renderelés
- A HeyGen lehetővé teszi a videók 30 nyelvre történő lefordítását hangklónozással és szájmozgás-szinkronizálással
- A VideoCrafter1 és a ModelScope képviselik a jelenlegi legjobb (SOTA) open-source megoldásokat
Miért fontos?
A videók hosszának és minőségének ugrásszerű növekedése, az olyan új funkciókkal együtt, mint az inpainting és a hangszinkronizált fordítás, elmozdulást jelez a kísérleti klipektől a praktikus tartalomgyártó eszközök felé. ---