A Google DeepMind bemutatta a V2A rendszert szinkronizált videós hangsávokhoz

GOOGLE

A Google DeepMind bemutatta a V2A rendszert szinkronizált videós hangsávokhoz

2024. június 18. · MI Történik? · 1 perc olvasás

A Google DeepMind új kutatást tett közzé a laboratórium video-to-audio (V2A) rendszeréről, amely képes részletes, szinkronizált hangsávokat generálni videókhoz – beleértve a zenét, a hangeffekteket, a párbeszédeket és egyebeket.

A V2A nyers videópixeleket kombinál szöveges leírásokkal, hogy a videó látványvilágához és hangulatához illeszkedő, valósághű hangot hozzon létre.
A V2A modellt videókon, hangfelvételeken, hangeffekt-annotációkon és beszédfelkéréseken tanították, hogy elsajátítsa a vizuális és hanghatások közötti összefüggéseket.
A DeepMind közölte, hogy vezető filmesekkel teszteli a V2A modellt, és további biztonsági teszteket tervez, mielőtt a nyilvánosság számára is elérhetővé tenné.

Miért fontos?

Bár az AI videógenerálás gyorsan fejlődik, az eredmények gyakran kísértetiesen némák. A V2A integrációja a Veo-val vagy más modellekkel új szintre emelheti a kreatív lehetőségeket – hamarosan a párbeszédek, hangeffektek és zenék zökkenőmentesen illeszthetők lesznek a generált videókhoz. ---

Eredeti forrás megtekintése (angol) →