A Google bemutatja a Gemini 1.5 Pro frissítéseit és a Veo videómodellt

2026. május 23. · MI Történik? · 3 perc olvasás

A Google a napokban megrendezett I/O fejlesztői konferenciáján az AI-ökoszisztémájának eddigi legátfogóbb frissítéscsomagját mutatta be, amely alapjaiban határozza meg a vállalat jövőbeli stratégiáját. A legfontosabb bejelentések között szerepel a zászlóshajónak számító Gemini 1.5 Pro modell jelentős továbbfejlesztése, valamint a régóta várt, OpenAI Sora elleni válaszlépésnek szánt Veo videógeneráló modell leleplezése is. A technológiai óriás célja egyértelmű: az AI-képességek minél szélesebb körű integrálása és az eddigi korlátok ledöntése, legyen szó akár hatalmas adatmennyiségek elemzéséről, akár komplex, mozgóképes alkotások létrehozásáról.

A Gemini 1.5 Pro frissítései kifejezetten a felhasználói élmény és a hatékonyság növelésére fókuszálnak. A modell kontextusablaka elképesztő mértékben, 2 millió tokenre bővült, ami lehetővé teszi, hogy a rendszer egyszerre elemezzen hatalmas mennyiségű dokumentumot, videóanyagot, hangfelvételt vagy akár kiterjedt kódbázisokat. A fejlesztők emellett bemutatták a Gemini 1.5 Flash modellt, amelyet a sebességre és az erőforrás-hatékonyságra optimalizáltak, így ideális megoldás lehet gyorsabb válaszidőt igénylő alkalmazásokhoz. A nyílt forráskódú fejlesztések terén is jelentős a fejlődés, hiszen érkezik a Gemma 2 modell, valamint a PaliGemma látás-nyelv modell, míg a Gemini Advanced előfizetők hamarosan saját, személyre szabott Gemeket is létrehozhatnak, hasonlóan a ChatGPT környezetében megszokott GPT-khez.

A kreatív eszközök tekintetében a Veo és az Imagen 3 modellek bemutatása a legfontosabb mérföldkő. A Veo képességei lenyűgözőek: képes több mint 60 másodperces, 1080p felbontású videók generálására szöveges, képi vagy akár videós promptokból, amivel a Google közvetlen riválist állított az OpenAI Sora modelljének. Ezt egészíti ki az új Imagen 3 szövegből-képet modell, amely a korábbiaknál sokkal részletgazdagabb, természetesebb alkotásokat tesz lehetővé, valamint a VideoFX eszköz, amely scenárióalapú videókészítést és zenei aláfestést kínál az alkotóknak. Bár a technológiák egy része egyelőre csak korlátozott, privát előzetes formájában érhető el, a bejelentések azt bizonyítják, hogy a Google nem csupán tartja a lépést a versenytársakkal, de saját fejlesztéseivel új szintre emeli az AI-alapú kreativitást és adatfeldolgozást. A mostani konferencia világossá tette, hogy a verseny az iparágban éleződik, és a nagy nyelvi modellek képességei már nem csupán szöveges, hanem multimédiás területen is exponenciálisan növekednek.

A 1.5 Pro új frissítései közé tartozik a kontextusablak hatalmas, 2 millió tokenre történő kibővítése, valamint a kódolás, a logika és a képmegértés terén nyújtott fokozott teljesítmény.
A Gemini 1.5 Pro a hosszú kontextust kihasználva különféle médiatípusokat is képes elemezni, beleértve a dokumentumokat, videókat, hanganyagokat és kódbázisokat.
A Google bejelentette a Gemini 1.5 Flash-t, egy új, sebességre és hatékonyságra optimalizált modellt, amely 1 millió tokenes kontextusablakkal rendelkezik.
A Gemma 2, a Google nyílt forráskódú (open-source) modelljeinek következő generációja a következő hetekben jelenik meg, egy új, PaliGemma nevű látás-nyelv (vision-language) modellel együtt.
A Gemini Advanced előfizetők hamarosan egy egyszerű szöveges leírás alapján egyedi személyiségeket, úgynevezett „Gemeket” hozhatnak létre, a ChatGPT GPT-khez hasonlóan.
A Google leleplezett egy új, Veo nevű videómodellt, amely képes több mint 60 másodperces, 1080p felbontású videókat generálni szöveges, képi és videós promptokból.
Az új Imagen 3 szövegből-képet (text-to-image) modellt is bemutatták, amely elődjénél jobb részletgazdagsággal, szöveggenerálással és természetes nyelv megértéssel rendelkezik.
A VideoFX szövegből-videót eszköz jelenetről jelenetre történő storyboard-készítést és a generált anyagokhoz zene hozzáadásának lehetőségét kínálja.
A VideoFX „privát előnézetben” (private preview) indul az Egyesült Államokban a kiválasztott alkotók számára, míg az ImageFX (az Imagen 3-mal) várólistán keresztül próbálható ki.

Miért fontos?

A Gemini már most is iparági vezető kontextusablaka kétszeres növekedést kap, ami végtelen új lehetőséget biztosít az AI hatalmas mennyiségű információval történő használatára. Emellett a Sora hivatalosan is versenytársat kapott a lenyűgöző Veo bemutatóval – de vajon melyik jut el előbb a nyilvános elérésig? A Google bejelentései túl nagyok voltak ahhoz, hogy elférjenek egy szekcióban – görgess tovább az I/O további frissítéseiért.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az IBM vezérigazgatója szerint az AI-infrastruktúra kiépítése hátrányosan érinti a vállalati szoftvereladásokat

19 órája

Az OpenAI hordozható, okos AI-hangszórót dobna piacra

1 napja

A PrismML bemutatta az eddigi legnagyobb, iPhone-on futtatható AI-modellt

1 napja

Tudj meg többet

Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád

Gemini AI: A Google mesterséges intelligenciája közérthetően