MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google kiterjeszti a Gemini Live videós funkcióit

A Google bejelentette a Gemini Live legújabb frissítését, amelynek keretében a vállalat kiterjeszti a Project Astra néven futó, ígéretes vizuális mesterséges intelligencia képességeit. Az újításnak köszönhetően a felhasználók immár valós időben interakcióba léphetnek az AI-val, méghozzá úgy, hogy a mesterséges intelligencia látja és értelmezi mindazt, amit a telefon kamerája vagy a megosztott képernyő közvetít. Ez a funkció mától elérhető az összes Pixel 9, valamint a Samsung Galaxy S25 sorozatú eszközökön, a Samsung pedig külön költség nélkül teszi elérhetővé a technológiát a csúcskategóriás készülékek tulajdonosai számára. A fejlesztés új távlatokat nyit meg az AI-jal való mindennapi kommunikációban, mivel a Gemini már nem csupán a szöveges vagy hangalapú parancsokra támaszkodik, hanem a felhasználót körülvevő környezetet is képes elemezni.

Bár a technológiai sajtóban és a felhasználói közösségekben nagy várakozás előzte meg a Project Astra érkezését, a korai tapasztalatok rámutatnak, hogy a jelenlegi implementáció még fejlesztés alatt áll. A tavaly májusi Google I/O konferencián bemutatott demókhoz képest a most megjelent verzió inkább továbbfejlesztett, sorozatos Google Lens pillanatfelvételekként funkcionál, semmint a várt folyamatos, valós idejű videóelemzésként. A Gemini Advanced előfizetők számára már a múlt hónapban megnyílt az első lehetőség a rendszer tesztelésére, a mostani szélesebb körű elérhetőség pedig egy újabb lépést jelent a technológia tömeges adaptációja felé. A többnyelvű beszélgetések támogatása a vizuális tartalmakkal kombinálva lehetővé teszi, hogy az AI ténylegesen kontextusba helyezze a felhasználó által mutatott objektumokat vagy helyzeteket.

Az ilyen jellegű fejlesztések rendkívüli jelentőséggel bírnak az AI-asszisztensek evolúciója szempontjából. A technológia képessége, hogy a körülöttünk lévő világot vizuálisan is lássa és megértse, alapjaiban változtatja meg a felhasználói élményt. Bár jelenleg még az okostelefonok képernyője és kamerája a fő interakciós felület, a valódi áttörést az hozhatja el, ha ezek a képességek integrálásra kerülnek az okosszemüvegekbe vagy egyéb viselhető eszközökbe. Ez a jövőbeli forma alakíthatja ki a teljesen kontextusérzékeny, folyamatosan készenlétben álló asszisztenseket, amelyek a környezetünkből érkező információkat azonnal feldolgozva nyújtanak segítséget a mindennapi teendőkben. A Google ezzel a lépéssel egyértelműen a multimodális AI-rendszerek irányába tereli a piacot, ahol a látás, a hallás és a beszéd szimbiózisa válik az új standarddá.

Miért fontos?

Az AI egyre több képességgel rendelkezik a körülöttünk lévő világ látására és megértésére — és bár ez a megvalósítás még nem a teljes Astra, amit kezdetben láttunk, a valós idejű vizuális elemzés gyorsan terjed. Ennek a technológiának az okosszemüvegekkel vagy hordható eszközökkel való összekapcsolása lehet az a végső forma, amely elhozza a teljesen kontextusérzékeny asszisztenseket. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Google AI-ja kilenc megoldatlan matematikai problémát oldott meg
6 napja
A Gemini asszisztens új személyre szabási lehetőségeket kap a Google keresési előzmények révén
2026. május 24.
A Google bemutatta az ultra-hatékony Gemma 3-at, amely egyetlen GPU-n is futtatható
2026. május 24.
Tudj meg többet
Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád
Gemini AI: A Google mesterséges intelligenciája közérthetően