MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
A Google Gemini Omni multimodális videómodellje elképesztő demókkal hívta fel magára a figyelmet

A Google Gemini Omni multimodális videómodellje elképesztő demókkal hívta fel magára a figyelmet

A Google a közelmúltban megrendezett Google I/O konferencián mutatta be legújabb fejlesztését, a Gemini Omni modellt, amely új mércét állíthat fel a mesterséges intelligencia alapú tartalomgyártásban. Ez az új multimodális videómodell forradalmi elmozdulást jelent, hiszen nem csupán egyszerű szöveges utasítások alapján képes alkotni. A rendszer bemenetként szöveget, képeket, hanganyagokat és már meglévő videófelvételeket is képes fogadni, amiből rövid, elképesztően élethű videóklipeket generál. A Gemini Omni képességei messze túlmutatnak az eddig látott megoldásokon, mivel képes a valóságot és a mesterségesen generált elemeket olyan szinten ötvözni, hogy a végeredmény szinte megkülönböztethetetlen a valódi felvételektől.

A bejelentést követően szinte azonnal felbukkantak az első közösségi médiás demók, amelyek alaposan felkavarták a technológiai közösséget. Az egyik legnépszerűbb videó a Reddit felületén terjedt el, amelyben a Gemini Omni egy teljesen üres, elhagyatott gyalogútról készült felvételt alakított át. A modell segítségével egy hatalmas, realisztikusan mozgó tömeget illesztettek az eredetileg néptelen ösvényre, miközben a generált karakterek mozgása, árnyékai és a környezet fényviszonyai tökéletesen illeszkedtek az eredeti videóhoz. Egy másik, az X felületén vírusként terjedő felvétel még ennél is látványosabb interakciót mutatott be: a videón egy laptop képernyőjén látható digitális madár tűnt fel, amely egyszer csak látszólag kiugrott a kijelzőből egyenesen a felhasználó kezébe. Mindezt bármiféle látható utómunka, speciális effektek vagy zöld háttér használata nélkül érte el az algoritmus.

A Gemini Omni sikerének kulcsa a valódi multimodalitásban rejlik, amely lehetővé teszi, hogy az AI komplex módon értelmezze a környezetét. Nem csupán statikus vizuális elemeket ad hozzá a térhez, hanem figyelembe veszi a meglévő felvételek dinamikáját és fizikai mélységét is. Ennek köszönhető, hogy a generált tartalom ennyire hihetővé válik a digitális és a fizikai objektumok közötti interakciók során. Ugyanakkor éppen ez az elképesztő realizmus váltott ki némi aggodalmat is a felhasználók körében; sokan egyenesen riasztónak nevezték a technológia fejlettségét. A szakértők szerint ez a szintű vizuális manipuláció alapjaiban írhatja felül azt, amit eddig a hiteles videófelvételekről gondoltunk, hiszen mostantól egy egyszerű mobiltelefonos felvétel is alapjául szolgálhat egy teljesen megváltoztatott, mégis valódinak tűnő jelenetnek.

Ez a technológiai áttörés új korszakot nyit a Google ökoszisztémájában, és komoly kihívást jelent a konkurenciának is az AI videógenerálás területén. A Gemini Omni képessége, hogy a meglévő videókat új tartalommal egészítse ki vagy népesítse be, hatalmas lehetőségeket rejt a filmipar, a tartalomkészítők és a marketing szakemberek számára. Mivel a modell közvetlenül képes reagálni a különféle bemeneti formátumokra, a kreatív munkafolyamatok jelentősen felgyorsulhatnak és egyszerűsödhetnek. A Google ezzel a lépéssel egyértelművé tette, hogy a multimodális modellek fejlesztése már nem csupán a szöveges válaszok finomításáról szól, hanem a digitális és a fizikai világ határvonalainak teljes elmosásáról a vizuális tartalomgyártásban.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Használd ezt az X + OpenClaw összeállítást virális tartalmak írásához
most
A SpaceX 75 milliárd dolláros tőzsdére lépése masszív fogadást jelent a globális AI infrastruktúrára
2 órája
Option AFK: Egy helyi beszéd-szöveg alkalmazás MacOS-re
4 órája
Tudj meg többet
Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád
Gemini AI: A Google mesterséges intelligenciája közérthetően