MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google bemutatja az „Agentic Vision” funkciót a Gemini 3 Flash modellhez

A Gemini 3 Flash mostantól képes megtervezni egy kép elemzésének folyamatát, valamint speciális eszközöket használni a ráközelítéshez és annotáláshoz a kiváló vizuális megértés érdekében. A Google ezt a képességet „Agentic Vision”-nek nevezi. Ez a frissítés kifejezetten a vizuális felfogást célozza, lehetővé téve a modell számára, hogy interakcióba lépjen a képekkel, ahelyett, hogy csak statikus bemenetként dolgozná fel azokat. Bár az OpenAI o3 modelljei hasonló képességekkel rendelkeznek, ez a fejlesztés közelebb hozza a Gemini-t a vizuális érvelés élvonalához.

Miért fontos?

Az Agentic Vision jelentős lépés az „aktív” észlelésre képes AI felé, ami kulcsfontosságú az olyan összetett kutatásokhoz és valós feladatokhoz, amelyek megkövetelik a finom részletekre való összpontosítást egy nagyobb kontextuson belül.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára
3 órája
A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón
5 órája
Az Aceii A1 mobil teniszrobot dinamikus AI-edzést kínál
6 órája
Tudj meg többet
Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád
Gemini AI: A Google mesterséges intelligenciája közérthetően