Az Alibaba kiadta a Wan2.1 open-source AI videógeneráló programcsomagot
Az Alibaba technológiai divíziója, a Tongyi Lab, a napokban hivatalosan is elérhetővé tette a Wan2.1 elnevezésű, nyílt forráskódú videógeneráló modellcsomagját, amely komoly változásokat hozhat a generatív AI területén. Az új fejlesztés különlegessége, hogy a különböző iparági benchmarkteszteken nem csupán az open-source megoldások között teljesít kiemelkedően, de a piacvezető zárt rendszereket, így a Sora modellt is képes felülmúlni. A Wan2.1 egyik legfontosabb technikai előnye a jelentős sebességbeli fölény, hiszen a generálási folyamatok az eddigi piaci sztenderdekhez képest mintegy 2,5-szer gyorsabban zajlanak, ami új szintre emeli a videókészítés hatékonyságát.
A modellcsomag zászlóshajója, a Wan2.1-T2V-14B a VBench ranglistájának élén áll, ami kiváló mozgásdinamikájának, élethű fizikai szimulációjának és kiemelkedő szöveggeneráló képességének köszönhető. A rendszer úttörő módon támogatja az angol és a kínai nyelvű szövegek pontos renderelését a videókban, ami eddig jelentős kihívást jelentett az AI-modellek számára. A csomag sokoldalúságát tovább növeli, hogy a felhasználók a text-to-video funkciók mellett image-to-video és video-to-audio opciókkal is dolgozhatnak, a beépített szerkesztőeszközök pedig lehetővé teszik a videós inpainting és outpainting alkalmazását, valamint a komplex karakterek és struktúrák konzisztens megőrzését a szerkesztési folyamatok során.
A projekt hozzáférhetőségét az Alibaba egy 1,3 milliárd paraméteres, könnyített verzióval biztosítja, amely a hétköznapi lakossági hardvereken is futtatható. Ez a gyakorlatban annyit jelent, hogy egy átlagos otthoni felhasználó, aki egy RTX 4090-es grafikus kártyával rendelkezik, körülbelül négy perc alatt képes legenerálni egy 5 másodperces, 480P felbontású videót. A fejlesztés jelentősége abban rejlik, hogy az Alibaba a Qwen modellek után a Wan2.1-gyel ismét bebizonyította, hogy az open-source piacon képes közvetlen és komoly versenyt támasztani a legnagyobb nyugati tech óriásoknak. Az olyan technológiai hibák, mint a szaggatott mozgás vagy a tipikus képi torzítások, ebben a modellben szinte teljesen eltűntek, ami jól mutatja az AI-videógenerálás ugrásszerű fejlődését, és az Alibaba meghatározó szerepét a 2025-ös év piaci versenyében.
- A Wan2.1-T2V-14B vezeti a VBench ranglistáját, és olyan területeken jeleskedik, mint a komplex mozgásdinamika, a valós fizikai szimuláció és a szöveggenerálás.
- Minden modell támogatja a text-to-video, image-to-video és video-to-audio funkciókat, és ezek az elsők, amelyek képesek szöveget renderelni angol és kínai nyelven egyaránt.
- A Wan szerkesztőeszközei közé tartozik a videós inpainting és outpainting, a többképes referálás, valamint a meglévő struktúrák és karakterek megőrzésének képessége.
- A kiadás tartalmaz egy könnyű, 1.3B verziót is, amely képes lakossági hardvereken is futni – egy 5 másodperces, 480P felbontású klipet 4 perc alatt képes generálni egy RTX 4090-es kártyán.
Újabb nap, újabb durva open-source megjelenés Kínából. A Wan jól mutatja azt a gyorsuló minőségi javulást, amit a közelmúltbeli bevezetéseknél, például a Google Veo 2-nél láttunk – ahol az árulkodó AI-jelek (szaggatott mozgás, képhibák stb.) szinte teljesen eltűntek. A Qwen és a Wan között az Alibaba rendesen odapörköl az open-source piacon 2025-ben. ---