A Microsoft VASA-1 modellje élethű beszélőfejes videókat készít állóképekből
A Microsoft kutatói a napokban bemutatták a VASA-1 nevű technológiát, amely új szintre emeli a generatív AI képességeit azáltal, hogy egyetlen állóképből és egy tetszőleges hangfájlból képes rendkívül élethű, beszélőfejes videókat létrehozni. A modell az egyszerű szájszinkronizáción messze túlmutatva képes természetes fejmozdulatokat, árnyalt arckifejezéseket, sőt még élethű éneklési teljesítményeket is generálni, mindezt úgy, hogy a videó alanya az eredeti fotó alapján teljesen valóságosnak hat. Ez az innováció alapjaiban változtathatja meg a digitális karakterek előállítását, hiszen a rendszer segítségével minimális forrásanyagból hozhatók létre animált tartalmak.
A technológia működésének egyik kulcsa a felhasználói kontrollban rejlik, ugyanis a rendszer lehetővé teszi, hogy az alkotók különböző csúszkák segítségével finomhangolják a generált videó egyes jellemzőit. Ilyen módon lehetőség van szabályozni például a beszélő tekintetének irányát, a fej távolságát a kamerától, illetve a kifejezett érzelmi tónust is. Ez a fajta interaktivitás és pontosság jelentős előrelépést jelent a korábbi megoldásokhoz képest, ahol az animáció gyakran merevnek vagy természetellenesnek tűnt. A Microsoft célja ezzel a fejlesztéssel az, hogy a virtuális avatarok, a játékipar és a számítógépes animáció területén a lehető legmagasabb minőségű és életszerűbb eredményeket biztosítsák a tartalomgyártók számára.
Bár a VASA-1 jelenleg még csak egy kutatási demó fázisában van, a technológia megjelenése számos kérdést vet fel a biztonság és az etika kapcsán is. A képesség, hogy ilyen szintű, megkülönböztethetetlenül valósághű videók generálhatók, felerősíti a deepfake tartalmakkal kapcsolatos aggodalmakat. Mivel a rendszer képes bárkiből – vagy bárkinek a képéből – egy beszélő videót készíteni, a rosszindulatú szereplők könnyen visszaélhetnek ezzel a technológiával, ami különösen kockázatos lehet a közelgő választások idején, vagy félretájékoztatás terjesztése céljából. A VASA-1 így egyszerre mutatja be az AI-ban rejlő hatalmas kreatív lehetőségeket és azt a komoly felelősséget, amellyel a fejlesztőknek és a társadalomnak szembe kell néznie az ilyen típusú deepfake eszközök elterjedése esetén.
- A VASA-1-nek mindössze egyetlen fotóra és egy beszédet tartalmazó hangfájlra van szüksége ahhoz, hogy valósághű videót készítsen a beszélő alanyról, szinkronizált szájmozgással és érzelmeket kifejező animációkkal.
- A modell képes árnyalt arckifejezések, természetes fejmozdulatok és akár élethű éneklési teljesítmények generálására is, messze túlmutatva az egyszerű szájszinkronizáláson.
- A felhasználók csúszkák segítségével szabályozhatják a generált videó különböző szempontjait, mint például a tekintet irányát, a fej távolságát és az érzelmi tónust.
A VASA-1 hatalmas ugrást jelent, és olyan területeken használható fel, mint a virtuális avatarok, a játékok és a számítógépes animáció. Ám bár még csak egy kutatási demóról van szó, az őrülten valósághű deepfake-ek generálásának képessége egyértelműen elérhetővé vált – ami komoly következményekkel járhat a közelgő választások és a rosszindulatú szereplők általi szélesebb körű elterjedés fényében. ---