A Google Research a Veo 3 videómodellekben felbukkanó zero-shot érvelési képességeket mutatott ki

2025. október 6. · MI Történik? · 1 perc olvasás

Néhány éve felfedezték, hogy ha az AI-rendszereket a következő szöveges token megjóslására tanítják, akkor egy sor felbukkanó (emergens) készség alakul ki bennük. Mi van, ha ugyanez történik most a videómodellekkel is? Ez a fő állítása egy közelmúltbeli Google tanulmánynak, amely szerint hasonló emergenciát látnak a Veo 3 videómodellnél – és ezek a felbukkanó képességek jelentősen nőttek az elődhöz, a Veo 2-höz képest. A szerzők bemutatják, hogy a Veo 3 képes megoldani sokféle olyan feladatot, amelyre kifejezetten nem tanították be, az észleléstől a vizuális érvelésig. A kutatók 18 384 generált videót elemeztek 62 kvalitatív és 7 kvantitatív feladaton keresztül ezen zero-shot képességek megerősítésére.

Észlelés: A modell magas szintű készségeket mutatott a vak elmosódottság-mentesítésben (blind deblurring), az élfelismerésben és a szuperfelbontásban.
Modellezés: A Veo 3 hatékony a merev testek, az anyagi optika és a memória modellezésében, bár kevésbé ügyes a gyúlékonyság kezelésében.
Manipuláció: Sikeresen hajtott végre inpaintinget (képrészlet-pótlást), firkákkal történő szerkesztést és új nézőpontú szintézist, de nehézségei voltak a színezéssel.
Érvelés: A modellnél korai jelei mutatkoztak a formák sorrendbe állításának, bár a szabályok extrapolációja és az eszközhasználat továbbra is gyenge.
Módszertan: A kutatók „chain-of-frames” (CoF – képkockák láncolata) megközelítést alkalmaztak, párhuzamba állítva a nyelvi modellek chain-of-thought (gondolatmenet) módszerével az időbeli és térbeli érvelés érdekében.

Miért fontos?

Ez a tanulmány egy olyan világra mutat rá, ahol a videómodellek úgy fognak működni, mint a nyelvi modellek. Azt sugallja, hogy ahogy növeljük a méretüket, olyan képességeket fejlesztenek ki, amelyek felölelik a mai specializált rendszerek tudását, majd túlmutatnak rajtuk, és vizuálisan programozhatóvá válnak. A következmények mélyrehatóak – arra számítok, hogy rendkívül okos, képes robot „ágenseket” fogunk kapni az intelligens és végül lepárolt videómodellek fejlesztése révén. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Termékképek precíz szerkesztése mesterséges intelligenciával

23 órája

MirrorCode Benchmark: Az AI rendszerek hetes nagyságrendű programozási feladatokat oldanak meg

1 napja

Az amerikai Genesis Mission kiválasztotta az első 278 AI tudományos projektet

5 napja

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

Perplexity AI: A Google-kereső AI-vel felturbózva