A Runway kiadta a Gen-3 video-to-video modelljét a fokozott kreatív kontroll érdekében
A Runway a múlt pénteken hivatalosan is kiadta a Gen-3 modelljéhez kapcsolódó video-to-video funkciót, amely új szintre emeli a kreatív kontrollt a generatív videókészítés terén. Ez az új eszköz alapvetően azt teszi lehetővé a felhasználók számára, hogy egy meglévő forrásvideót egyszerű szöveges parancsok, vagyis promptok segítségével alakítsanak át. Képzeljük el, hogy egy egyszerű otthoni felvételt készítünk magunkról, majd egy rövid utasítással – például: „változtasd meg a hátteret mögöttem, mintha New Yorkban sétálnék” – teljesen új környezetbe helyezzük a jelenetet. A funkció óriási lépést jelent a tartalomgyártásban, hiszen közvetlenebb irányítást biztosít az alkotók kezében.
A technikai részleteket tekintve a rendszer meglehetősen rugalmas megoldásokat kínál a vizuális tartalom módosítására. A felhasználóknak csupán fel kell tölteniük egy referenciavideót, majd szöveges parancsokkal megadniuk a kívánt díszletet vagy stílust. A maximális bemeneti fájlméret jelenleg 64 MB lehet, legfeljebb 1280x768p felbontás mellett, míg a generált kimenet 720p felbontású lesz. Az új funkciók között szerepel egy strukturális transzformációs pontszám is, amely 0 és 1 közötti skálán mozog. Ez a mutató rendkívül fontos, hiszen segítségével precízen szabályozható, hogy az AI mennyire térjen el az eredeti forrásanyagtól. A rendszer alkalmazási köre rendkívül széles: alkalmas arra, hogy táncos videókat különféle szűrőkkel lásson el, játékokat vagy kézműves alkotásokat animáljon, sőt, a motion capture CGI felvételeket képes teljesen renderelt animációkká alakítani. Emellett a valósághű szájmozgás-szinkronizálást és a vizuális effekt maszkok készítését is támogatja.
Bár az új funkció izgalmas lehetőségeket rejt, a korai tesztelők és az első felhasználói visszajelzések rávilágítanak a technológia jelenlegi korlátaira is. Sokan megjegyzik, hogy a vizuális stílus nem mindig konzisztens a különböző klipek között, és sokszor széles szakadék tátong a kiemelkedően nagy hűségű és a homályos, maszatos képek között. Bár az új videó remekül megőrzi az eredeti felvétel mozgásait, a fizikai törvényszerűségek pontos emulálása még mindig nehézségekbe ütközik. Megtörténhet például, hogy a felhasználó azt kéri, egy főnix repüljön át a dzsungelen, ám a végeredményben egy olyan főnixet kap, amely maga a dzsungel. A stílusbeli konzisztencia javítása érdekében a tapasztaltabbak azt ajánlják, hogy érdemes rövidebb, 5-10 másodperces klipekkel dolgozni, és rögzített seedeket használni a generálás során.
Minden kezdeti nehézség ellenére a video-to-video funkció megjelenése mérföldkő az AI-alapú mozgóképgyártásban. Jelenleg valószínűleg ez a legközelebbi és leghatékonyabb megoldás arra, hogy az alkotók valóban irányítani tudják egy videogenerátor kimenetét. Nem csupán egy újabb egyszerű effektről van szó, hanem egy olyan alapvető eszközről, amely kötelező elemmé válik mindenki számára, aki komolyan szeretne AI videókat készíteni. A Runway legújabb fejlesztése ezzel közelebb hozza azt a világot, ahol a professzionális filmgyártási effektek és animációk bárki számára könnyedén elérhetővé válnak.
- Tölts fel egy referenciavideót és írj szöveges parancsokat a díszlet vagy a stílus megváltoztatásához
- A strukturális transzformációs pontszám (0-1) lehetővé teszi a felhasználóknak, hogy kontrollálják, mennyire változzon meg az eredeti anyag
- A képességek közé tartozik a táncos videók szűrőkkel való ellátása, valamint játékok vagy kézműves alkotások animálása
- Képes a motion capture CGI-t teljesen renderelt animációkká alakítani
- Lehetővé teszi a valósághű szájmozgás-szinkronizálást és vizuális effekt maszkok készítését
- A maximális bemenet 64 MB (1280x768p), 720p kimenettel
- A stílus konzisztenciája érdekében ajánlott 5-10 másodperces klipeket és rögzített seedeket használni
A video-to-video valószínűleg a legközelebbi megoldás ahhoz, hogy „irányítsd” egy videogenerátor kimenetét, így kötelező eszköz, ha komolyan szeretnél AI videókat készíteni. ---