A Google bemutatja az „Agentic Vision” funkciót a Gemini 3 Flash modellhez

2026. január 29. · MI Történik? · 1 perc olvasás

A Gemini 3 Flash mostantól képes megtervezni egy kép elemzésének folyamatát, valamint speciális eszközöket használni a ráközelítéshez és annotáláshoz a kiváló vizuális megértés érdekében. A Google ezt a képességet „Agentic Vision”-nek nevezi. Ez a frissítés kifejezetten a vizuális felfogást célozza, lehetővé téve a modell számára, hogy interakcióba lépjen a képekkel, ahelyett, hogy csak statikus bemenetként dolgozná fel azokat. Bár az OpenAI o3 modelljei hasonló képességekkel rendelkeznek, ez a fejlesztés közelebb hozza a Gemini-t a vizuális érvelés élvonalához.

A modell képes önállóan megtervezni az összetett vizuális adatok elemzésének lépéseit.
Funkcionális eszközöket tartalmaz a kép egyes részeire való ráközelítéshez a jobb részletgazdagság érdekében.
Lehetővé teszi a modell számára a képek annotálását, hogy segítse saját érvelési folyamatát.
Becslések szerint 5-10%-kal növeli a teljesítményt a vizuális benchmarkokon.

Miért fontos?

Az Agentic Vision jelentős lépés az „aktív” észlelésre képes AI felé, ami kulcsfontosságú az olyan összetett kutatásokhoz és valós feladatokhoz, amelyek megkövetelik a finom részletekre való összpontosítást egy nagyobb kontextuson belül.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Bejelentették a FLUX 3-at multimodális videó- és hangpredikcióval

1 órája

A Cursor lokális, 7 dolláros „Start” csomagot indít Indiában

3 órája

Ultra-realisztikus luxustermék-reklámképek generálása

11 órája

Tudj meg többet

Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád

Gemini AI: A Google mesterséges intelligenciája közérthetően