A Google bemutatja a Gemini 1.5 Pro frissítéseit és a Veo videómodellt
A Google a napokban megrendezett I/O fejlesztői konferenciáján az AI-ökoszisztémájának eddigi legátfogóbb frissítéscsomagját mutatta be, amely alapjaiban határozza meg a vállalat jövőbeli stratégiáját. A legfontosabb bejelentések között szerepel a zászlóshajónak számító Gemini 1.5 Pro modell jelentős továbbfejlesztése, valamint a régóta várt, OpenAI Sora elleni válaszlépésnek szánt Veo videógeneráló modell leleplezése is. A technológiai óriás célja egyértelmű: az AI-képességek minél szélesebb körű integrálása és az eddigi korlátok ledöntése, legyen szó akár hatalmas adatmennyiségek elemzéséről, akár komplex, mozgóképes alkotások létrehozásáról.
A Gemini 1.5 Pro frissítései kifejezetten a felhasználói élmény és a hatékonyság növelésére fókuszálnak. A modell kontextusablaka elképesztő mértékben, 2 millió tokenre bővült, ami lehetővé teszi, hogy a rendszer egyszerre elemezzen hatalmas mennyiségű dokumentumot, videóanyagot, hangfelvételt vagy akár kiterjedt kódbázisokat. A fejlesztők emellett bemutatták a Gemini 1.5 Flash modellt, amelyet a sebességre és az erőforrás-hatékonyságra optimalizáltak, így ideális megoldás lehet gyorsabb válaszidőt igénylő alkalmazásokhoz. A nyílt forráskódú fejlesztések terén is jelentős a fejlődés, hiszen érkezik a Gemma 2 modell, valamint a PaliGemma látás-nyelv modell, míg a Gemini Advanced előfizetők hamarosan saját, személyre szabott Gemeket is létrehozhatnak, hasonlóan a ChatGPT környezetében megszokott GPT-khez.
A kreatív eszközök tekintetében a Veo és az Imagen 3 modellek bemutatása a legfontosabb mérföldkő. A Veo képességei lenyűgözőek: képes több mint 60 másodperces, 1080p felbontású videók generálására szöveges, képi vagy akár videós promptokból, amivel a Google közvetlen riválist állított az OpenAI Sora modelljének. Ezt egészíti ki az új Imagen 3 szövegből-képet modell, amely a korábbiaknál sokkal részletgazdagabb, természetesebb alkotásokat tesz lehetővé, valamint a VideoFX eszköz, amely scenárióalapú videókészítést és zenei aláfestést kínál az alkotóknak. Bár a technológiák egy része egyelőre csak korlátozott, privát előzetes formájában érhető el, a bejelentések azt bizonyítják, hogy a Google nem csupán tartja a lépést a versenytársakkal, de saját fejlesztéseivel új szintre emeli az AI-alapú kreativitást és adatfeldolgozást. A mostani konferencia világossá tette, hogy a verseny az iparágban éleződik, és a nagy nyelvi modellek képességei már nem csupán szöveges, hanem multimédiás területen is exponenciálisan növekednek.
- A 1.5 Pro új frissítései közé tartozik a kontextusablak hatalmas, 2 millió tokenre történő kibővítése, valamint a kódolás, a logika és a képmegértés terén nyújtott fokozott teljesítmény.
- A Gemini 1.5 Pro a hosszú kontextust kihasználva különféle médiatípusokat is képes elemezni, beleértve a dokumentumokat, videókat, hanganyagokat és kódbázisokat.
- A Google bejelentette a Gemini 1.5 Flash-t, egy új, sebességre és hatékonyságra optimalizált modellt, amely 1 millió tokenes kontextusablakkal rendelkezik.
- A Gemma 2, a Google nyílt forráskódú (open-source) modelljeinek következő generációja a következő hetekben jelenik meg, egy új, PaliGemma nevű látás-nyelv (vision-language) modellel együtt.
- A Gemini Advanced előfizetők hamarosan egy egyszerű szöveges leírás alapján egyedi személyiségeket, úgynevezett „Gemeket” hozhatnak létre, a ChatGPT GPT-khez hasonlóan.
- A Google leleplezett egy új, Veo nevű videómodellt, amely képes több mint 60 másodperces, 1080p felbontású videókat generálni szöveges, képi és videós promptokból.
- Az új Imagen 3 szövegből-képet (text-to-image) modellt is bemutatták, amely elődjénél jobb részletgazdagsággal, szöveggenerálással és természetes nyelv megértéssel rendelkezik.
- A VideoFX szövegből-videót eszköz jelenetről jelenetre történő storyboard-készítést és a generált anyagokhoz zene hozzáadásának lehetőségét kínálja.
- A VideoFX „privát előnézetben” (private preview) indul az Egyesült Államokban a kiválasztott alkotók számára, míg az ImageFX (az Imagen 3-mal) várólistán keresztül próbálható ki.
A Gemini már most is iparági vezető kontextusablaka kétszeres növekedést kap, ami végtelen új lehetőséget biztosít az AI hatalmas mennyiségű információval történő használatára. Emellett a Sora hivatalosan is versenytársat kapott a lenyűgöző Veo bemutatóval – de vajon melyik jut el előbb a nyilvános elérésig? A Google bejelentései túl nagyok voltak ahhoz, hogy elférjenek egy szekcióban – görgess tovább az I/O további frissítéseiért.