MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Gemini képes vizuálisan elemezni a videókockákat, hogy átiratok nélkül is megértse a kontextust

A Reddit megőrül a Gemini leginkább alulértékelt funkciójáért: valóban képes videókat nézni, nem csak átiratokat olvasni. Egy receptalkalmazást építő felhasználó felfedezte, hogy a Gemini teljes recepteket nyer ki főzős videókból — még feliratok vagy hang nélkül is — a képernyőn történtek elemzésével. Itt válik a dolog elképesztővé: bármilyen videót feltölthetsz vagy beilleszthetsz egy YouTube linket, majd kérdéseket tehetsz fel a Gemininek konkrét pillanatokról. Egy felhasználó a Gemini Live-val hallgattatott meg egy dalt, és azonosíttatta a hangszereket az első 5 másodpercben. Egy másik súlyemelő videókat tölt fel a forma ellenőrzéséhez. Tanárok arra használják, hogy oktatóvideókból automatikusan kvízeket generáljanak. A bökkenő? Az esetek körülbelül 70%-ában működik (különösen hosszabb videóknál), valószínűleg ezért alig reklámozza a Google. De amikor működik, az valóban hasznos — képkockáról képkockára elemez 1 fps sebességgel, hogy megértse azt a vizuális kontextust, amelyet az átiratok teljesen kihagynak.
Eredeti forrás megtekintése (angol) →