A NAP AI TUDÁSANYAGA
A Gemini képes vizuálisan elemezni a videókockákat, hogy átiratok nélkül is megértse a kontextust
A Reddit megőrül a Gemini leginkább alulértékelt funkciójáért: valóban képes videókat nézni, nem csak átiratokat olvasni. Egy receptalkalmazást építő felhasználó felfedezte, hogy a Gemini teljes recepteket nyer ki főzős videókból — még feliratok vagy hang nélkül is — a képernyőn történtek elemzésével. Itt válik a dolog elképesztővé: bármilyen videót feltölthetsz vagy beilleszthetsz egy YouTube linket, majd kérdéseket tehetsz fel a Gemininek konkrét pillanatokról. Egy felhasználó a Gemini Live-val hallgattatott meg egy dalt, és azonosíttatta a hangszereket az első 5 másodpercben. Egy másik súlyemelő videókat tölt fel a forma ellenőrzéséhez. Tanárok arra használják, hogy oktatóvideókból automatikusan kvízeket generáljanak. A bökkenő? Az esetek körülbelül 70%-ában működik (különösen hosszabb videóknál), valószínűleg ezért alig reklámozza a Google. De amikor működik, az valóban hasznos — képkockáról képkockára elemez 1 fps sebességgel, hogy megértse azt a vizuális kontextust, amelyet az átiratok teljesen kihagynak.
- Vizuális jelek megfigyelésével teljes recepteket nyer ki főzős videókból.
- Körülbelül 1 képkocka/másodperc sebességgel elemzi a videókockákat.
- Képes hangszerek azonosítására vagy a súlyemelő forma ellenőrzésére hang és felirat nélkül is.
- Működik feltöltött videókkal és közvetlen YouTube linkekkel is.
- Lehetővé teszi a videón belüli konkrét időbélyegekre vonatkozó kérdések feltevését.