MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google bemutatja az „Agentic Vision” funkciót a Gemini 3 Flash modellhez

A Gemini 3 Flash mostantól képes megtervezni egy kép elemzésének folyamatát, valamint speciális eszközöket használni a ráközelítéshez és annotáláshoz a kiváló vizuális megértés érdekében. A Google ezt a képességet „Agentic Vision”-nek nevezi. Ez a frissítés kifejezetten a vizuális felfogást célozza, lehetővé téve a modell számára, hogy interakcióba lépjen a képekkel, ahelyett, hogy csak statikus bemenetként dolgozná fel azokat. Bár az OpenAI o3 modelljei hasonló képességekkel rendelkeznek, ez a fejlesztés közelebb hozza a Gemini-t a vizuális érvelés élvonalához.
Miért fontos?

Az Agentic Vision jelentős lépés az „aktív” észlelésre képes AI felé, ami kulcsfontosságú az olyan összetett kutatásokhoz és valós feladatokhoz, amelyek megkövetelik a finom részletekre való összpontosítást egy nagyobb kontextuson belül.

Eredeti forrás megtekintése (angol) →