MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google Research a Veo 3 videómodellekben felbukkanó zero-shot érvelési képességeket mutatott ki

Néhány éve felfedezték, hogy ha az AI-rendszereket a következő szöveges token megjóslására tanítják, akkor egy sor felbukkanó (emergens) készség alakul ki bennük. Mi van, ha ugyanez történik most a videómodellekkel is? Ez a fő állítása egy közelmúltbeli Google tanulmánynak, amely szerint hasonló emergenciát látnak a Veo 3 videómodellnél – és ezek a felbukkanó képességek jelentősen nőttek az elődhöz, a Veo 2-höz képest. A szerzők bemutatják, hogy a Veo 3 képes megoldani sokféle olyan feladatot, amelyre kifejezetten nem tanították be, az észleléstől a vizuális érvelésig. A kutatók 18 384 generált videót elemeztek 62 kvalitatív és 7 kvantitatív feladaton keresztül ezen zero-shot képességek megerősítésére.
Miért fontos?

Ez a tanulmány egy olyan világra mutat rá, ahol a videómodellek úgy fognak működni, mint a nyelvi modellek. Azt sugallja, hogy ahogy növeljük a méretüket, olyan képességeket fejlesztenek ki, amelyek felölelik a mai specializált rendszerek tudását, majd túlmutatnak rajtuk, és vizuálisan programozhatóvá válnak. A következmények mélyrehatóak – arra számítok, hogy rendkívül okos, képes robot „ágenseket” fogunk kapni az intelligens és végül lepárolt videómodellek fejlesztése révén. ---

Eredeti forrás megtekintése (angol) →