A Google Gemini Omni multimodális videómodellje elképesztő demókkal hívta fel magára a figyelmet

2026. június 1. · MI Történik? · 2 perc olvasás

A Google a közelmúltban megrendezett Google I/O konferencián mutatta be legújabb fejlesztését, a Gemini Omni modellt, amely új mércét állíthat fel a mesterséges intelligencia alapú tartalomgyártásban. Ez az új multimodális videómodell forradalmi elmozdulást jelent, hiszen nem csupán egyszerű szöveges utasítások alapján képes alkotni. A rendszer bemenetként szöveget, képeket, hanganyagokat és már meglévő videófelvételeket is képes fogadni, amiből rövid, elképesztően élethű videóklipeket generál. A Gemini Omni képességei messze túlmutatnak az eddig látott megoldásokon, mivel képes a valóságot és a mesterségesen generált elemeket olyan szinten ötvözni, hogy a végeredmény szinte megkülönböztethetetlen a valódi felvételektől.

A bejelentést követően szinte azonnal felbukkantak az első közösségi médiás demók, amelyek alaposan felkavarták a technológiai közösséget. Az egyik legnépszerűbb videó a Reddit felületén terjedt el, amelyben a Gemini Omni egy teljesen üres, elhagyatott gyalogútról készült felvételt alakított át. A modell segítségével egy hatalmas, realisztikusan mozgó tömeget illesztettek az eredetileg néptelen ösvényre, miközben a generált karakterek mozgása, árnyékai és a környezet fényviszonyai tökéletesen illeszkedtek az eredeti videóhoz. Egy másik, az X felületén vírusként terjedő felvétel még ennél is látványosabb interakciót mutatott be: a videón egy laptop képernyőjén látható digitális madár tűnt fel, amely egyszer csak látszólag kiugrott a kijelzőből egyenesen a felhasználó kezébe. Mindezt bármiféle látható utómunka, speciális effektek vagy zöld háttér használata nélkül érte el az algoritmus.

A Gemini Omni sikerének kulcsa a valódi multimodalitásban rejlik, amely lehetővé teszi, hogy az AI komplex módon értelmezze a környezetét. Nem csupán statikus vizuális elemeket ad hozzá a térhez, hanem figyelembe veszi a meglévő felvételek dinamikáját és fizikai mélységét is. Ennek köszönhető, hogy a generált tartalom ennyire hihetővé válik a digitális és a fizikai objektumok közötti interakciók során. Ugyanakkor éppen ez az elképesztő realizmus váltott ki némi aggodalmat is a felhasználók körében; sokan egyenesen riasztónak nevezték a technológia fejlettségét. A szakértők szerint ez a szintű vizuális manipuláció alapjaiban írhatja felül azt, amit eddig a hiteles videófelvételekről gondoltunk, hiszen mostantól egy egyszerű mobiltelefonos felvétel is alapjául szolgálhat egy teljesen megváltoztatott, mégis valódinak tűnő jelenetnek.

Ez a technológiai áttörés új korszakot nyit a Google ökoszisztémájában, és komoly kihívást jelent a konkurenciának is az AI videógenerálás területén. A Gemini Omni képessége, hogy a meglévő videókat új tartalommal egészítse ki vagy népesítse be, hatalmas lehetőségeket rejt a filmipar, a tartalomkészítők és a marketing szakemberek számára. Mivel a modell közvetlenül képes reagálni a különféle bemeneti formátumokra, a kreatív munkafolyamatok jelentősen felgyorsulhatnak és egyszerűsödhetnek. A Google ezzel a lépéssel egyértelművé tette, hogy a multimodális modellek fejlesztése már nem csupán a szöveges válaszok finomításáról szól, hanem a digitális és a fizikai világ határvonalainak teljes elmosásáról a vizuális tartalomgyártásban.

A Gemini Omni bemenetként szöveget, képeket, hangot és meglévő felvételeket fogad.
Rövid videóklipeket készít, amelyek valódi felvételnek tűnnek.
Demókban használták üres terek tömeggel való benépesítésére, valamint digitális és fizikai objektumok közötti interakció létrehozására.
A Google I/O konferencián jelentették be mint új multimodális videómodellt.
--

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Ultra-realisztikus luxustermék-reklámképek generálása

3 órája

A BackSearch lehetővé teszi a weben való keresést konkrét múltbeli dátumokra

5 órája

A Notion bevezette a „Notion as code” koncepciót a munkaterületek üzembe helyezéséhez

5 órája

Tudj meg többet

Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád

Gemini AI: A Google mesterséges intelligenciája közérthetően