A Google bemutatja az „Agentic Vision” funkciót a Gemini 3 Flash modellhez
A Gemini 3 Flash mostantól képes megtervezni egy kép elemzésének folyamatát, valamint speciális eszközöket használni a ráközelítéshez és annotáláshoz a kiváló vizuális megértés érdekében. A Google ezt a képességet „Agentic Vision”-nek nevezi. Ez a frissítés kifejezetten a vizuális felfogást célozza, lehetővé téve a modell számára, hogy interakcióba lépjen a képekkel, ahelyett, hogy csak statikus bemenetként dolgozná fel azokat. Bár az OpenAI o3 modelljei hasonló képességekkel rendelkeznek, ez a fejlesztés közelebb hozza a Gemini-t a vizuális érvelés élvonalához.
- A modell képes önállóan megtervezni az összetett vizuális adatok elemzésének lépéseit.
- Funkcionális eszközöket tartalmaz a kép egyes részeire való ráközelítéshez a jobb részletgazdagság érdekében.
- Lehetővé teszi a modell számára a képek annotálását, hogy segítse saját érvelési folyamatát.
- Becslések szerint 5-10%-kal növeli a teljesítményt a vizuális benchmarkokon.
Miért fontos?
Az Agentic Vision jelentős lépés az „aktív” észlelésre képes AI felé, ami kulcsfontosságú az olyan összetett kutatásokhoz és valós feladatokhoz, amelyek megkövetelik a finom részletekre való összpontosítást egy nagyobb kontextuson belül.