AI KUTATÁS
A Google Research a Veo 3 videómodellekben felbukkanó zero-shot érvelési képességeket mutatott ki
Néhány éve felfedezték, hogy ha az AI-rendszereket a következő szöveges token megjóslására tanítják, akkor egy sor felbukkanó (emergens) készség alakul ki bennük. Mi van, ha ugyanez történik most a videómodellekkel is? Ez a fő állítása egy közelmúltbeli Google tanulmánynak, amely szerint hasonló emergenciát látnak a Veo 3 videómodellnél – és ezek a felbukkanó képességek jelentősen nőttek az elődhöz, a Veo 2-höz képest. A szerzők bemutatják, hogy a Veo 3 képes megoldani sokféle olyan feladatot, amelyre kifejezetten nem tanították be, az észleléstől a vizuális érvelésig. A kutatók 18 384 generált videót elemeztek 62 kvalitatív és 7 kvantitatív feladaton keresztül ezen zero-shot képességek megerősítésére.
- Észlelés: A modell magas szintű készségeket mutatott a vak elmosódottság-mentesítésben (blind deblurring), az élfelismerésben és a szuperfelbontásban.
- Modellezés: A Veo 3 hatékony a merev testek, az anyagi optika és a memória modellezésében, bár kevésbé ügyes a gyúlékonyság kezelésében.
- Manipuláció: Sikeresen hajtott végre inpaintinget (képrészlet-pótlást), firkákkal történő szerkesztést és új nézőpontú szintézist, de nehézségei voltak a színezéssel.
- Érvelés: A modellnél korai jelei mutatkoztak a formák sorrendbe állításának, bár a szabályok extrapolációja és az eszközhasználat továbbra is gyenge.
- Módszertan: A kutatók „chain-of-frames” (CoF – képkockák láncolata) megközelítést alkalmaztak, párhuzamba állítva a nyelvi modellek chain-of-thought (gondolatmenet) módszerével az időbeli és térbeli érvelés érdekében.
Miért fontos?
Ez a tanulmány egy olyan világra mutat rá, ahol a videómodellek úgy fognak működni, mint a nyelvi modellek. Azt sugallja, hogy ahogy növeljük a méretüket, olyan képességeket fejlesztenek ki, amelyek felölelik a mai specializált rendszerek tudását, majd túlmutatnak rajtuk, és vizuálisan programozhatóvá válnak. A következmények mélyrehatóak – arra számítok, hogy rendkívül okos, képes robot „ágenseket” fogunk kapni az intelligens és végül lepárolt videómodellek fejlesztése révén. ---