A Google kiterjeszti a Gemini Live videós funkcióit
A Google bejelentette a Gemini Live legújabb frissítését, amelynek keretében a vállalat kiterjeszti a Project Astra néven futó, ígéretes vizuális mesterséges intelligencia képességeit. Az újításnak köszönhetően a felhasználók immár valós időben interakcióba léphetnek az AI-val, méghozzá úgy, hogy a mesterséges intelligencia látja és értelmezi mindazt, amit a telefon kamerája vagy a megosztott képernyő közvetít. Ez a funkció mától elérhető az összes Pixel 9, valamint a Samsung Galaxy S25 sorozatú eszközökön, a Samsung pedig külön költség nélkül teszi elérhetővé a technológiát a csúcskategóriás készülékek tulajdonosai számára. A fejlesztés új távlatokat nyit meg az AI-jal való mindennapi kommunikációban, mivel a Gemini már nem csupán a szöveges vagy hangalapú parancsokra támaszkodik, hanem a felhasználót körülvevő környezetet is képes elemezni.
Bár a technológiai sajtóban és a felhasználói közösségekben nagy várakozás előzte meg a Project Astra érkezését, a korai tapasztalatok rámutatnak, hogy a jelenlegi implementáció még fejlesztés alatt áll. A tavaly májusi Google I/O konferencián bemutatott demókhoz képest a most megjelent verzió inkább továbbfejlesztett, sorozatos Google Lens pillanatfelvételekként funkcionál, semmint a várt folyamatos, valós idejű videóelemzésként. A Gemini Advanced előfizetők számára már a múlt hónapban megnyílt az első lehetőség a rendszer tesztelésére, a mostani szélesebb körű elérhetőség pedig egy újabb lépést jelent a technológia tömeges adaptációja felé. A többnyelvű beszélgetések támogatása a vizuális tartalmakkal kombinálva lehetővé teszi, hogy az AI ténylegesen kontextusba helyezze a felhasználó által mutatott objektumokat vagy helyzeteket.
Az ilyen jellegű fejlesztések rendkívüli jelentőséggel bírnak az AI-asszisztensek evolúciója szempontjából. A technológia képessége, hogy a körülöttünk lévő világot vizuálisan is lássa és megértse, alapjaiban változtatja meg a felhasználói élményt. Bár jelenleg még az okostelefonok képernyője és kamerája a fő interakciós felület, a valódi áttörést az hozhatja el, ha ezek a képességek integrálásra kerülnek az okosszemüvegekbe vagy egyéb viselhető eszközökbe. Ez a jövőbeli forma alakíthatja ki a teljesen kontextusérzékeny, folyamatosan készenlétben álló asszisztenseket, amelyek a környezetünkből érkező információkat azonnal feldolgozva nyújtanak segítséget a mindennapi teendőkben. A Google ezzel a lépéssel egyértelműen a multimodális AI-rendszerek irányába tereli a piacot, ahol a látás, a hallás és a beszéd szimbiózisa válik az új standarddá.
- A funkció lehetővé teszi, hogy a felhasználók többnyelvű beszélgetéseket folytassanak a Gemini-vel mindarról, amit a telefon kameráján vagy képernyőmegosztáson keresztül látnak és hallanak.
- A funkció mától elérhető az összes Pixel 9 és Samsung Galaxy S25 eszközön, a Samsung pedig külön költség nélkül biztosítja ezt a zászlóshajó felhasználói számára.
- A kezdeti tesztek alapján a jelenlegi „élő” funkció inkább továbbfejlesztett Google Lens pillanatfelvételekként működik, mintsem a demókban bemutatott folyamatos videóelemzésként.
- A Project Astra-t először tavaly májusban mutatta be a Google I/O konferencián, és a funkció a múlt hónapban vált először elérhetővé az Advanced előfizetők számára.
Az AI egyre több képességgel rendelkezik a körülöttünk lévő világ látására és megértésére — és bár ez a megvalósítás még nem a teljes Astra, amit kezdetben láttunk, a valós idejű vizuális elemzés gyorsan terjed. Ennek a technológiának az okosszemüvegekkel vagy hordható eszközökkel való összekapcsolása lehet az a végső forma, amely elhozza a teljesen kontextusérzékeny asszisztenseket. ---