GOOGLE
A Google DeepMind bemutatta a V2A rendszert szinkronizált videós hangsávokhoz
A Google DeepMind új kutatást tett közzé a laboratórium video-to-audio (V2A) rendszeréről, amely képes részletes, szinkronizált hangsávokat generálni videókhoz – beleértve a zenét, a hangeffekteket, a párbeszédeket és egyebeket.
- A V2A nyers videópixeleket kombinál szöveges leírásokkal, hogy a videó látványvilágához és hangulatához illeszkedő, valósághű hangot hozzon létre.
- A V2A modellt videókon, hangfelvételeken, hangeffekt-annotációkon és beszédfelkéréseken tanították, hogy elsajátítsa a vizuális és hanghatások közötti összefüggéseket.
- A DeepMind közölte, hogy vezető filmesekkel teszteli a V2A modellt, és további biztonsági teszteket tervez, mielőtt a nyilvánosság számára is elérhetővé tenné.
Miért fontos?
Bár az AI videógenerálás gyorsan fejlődik, az eredmények gyakran kísértetiesen némák. A V2A integrációja a Veo-val vagy más modellekkel új szintre emelheti a kreatív lehetőségeket – hamarosan a párbeszédek, hangeffektek és zenék zökkenőmentesen illeszthetők lesznek a generált videókhoz. ---