A Google kutatói GPT-3 stílusú képesség-emergenciát figyeltek meg a Veo 3 videómodellnél

AI KUTATÁS

A Google kutatói GPT-3 stílusú képesség-emergenciát figyeltek meg a Veo 3 videómodellnél

2025. október 6. · MI Történik? · 1 perc olvasás

Néhány évvel ezelőtt felfedezték, hogy ha az AI-rendszereket a következő token szöveges előrejelzésének céljával tanítják, akkor egy sor olyan új képesség (emergencia) alakul ki náluk a szorzástól az érzelemanalízisen át a kreatív írásig, amelyeket kifejezetten nem kértek tőlük. Mi van, ha ugyanez történik a videómodellekkel? Ez a fő állítása egy közelmúltbeli Google-tanulmánynak, amely szerint hasonló emergencia látható a Veo 3 videómodellnél – és ezek az előre nem tervezett képességek jelentősen nőttek elődje, a Veo 2 óta. A szerzők bemutatják, hogy a Veo 3 számos olyan feladatot képes megoldani, amire kifejezetten nem képezték ki: objektumok szegmentálása, élkeresés, képszerkesztés, fizikai tulajdonságok megértése, tárgyak használhatóságának felismerése, eszközhasználat szimulálása és még sok más.

A kutatók 18 384 generált videót elemeztek 62 kvalitatív és 7 kvantitatív feladat során.
A Veo 3 erős emergenciát mutatott az észlelési feladatokban, mint például a „vak” elmosódásmentesítés, élkeresés és szuperfelbontás.
A modellezési képességek közé tartozik a merev testek, az anyagi optika és az időbeli memória megértése.
A manipulációs készségek közé tartozik az inpainting, a firkákkal történő szerkesztés és az új nézőpontú szintézis.
A következtetés jelenleg a leggyengébb terület, némi készséget mutat a szekvenálásban, de gyenge az eszközhasználatban és a szabályok extrapolálásában.
A kutatók a képkockáról képkockára történő generálást a nyelvi modellek „chain-of-thought” (gondolatmenet) típusú következtetéséhez hasonlítják.

Miért fontos?

Ez egy „GPT-3 pillanatra” utal a látás (vision) terén, ahol a videómodellek skálázása emergens világmodellekhez vezet, ami vizuális következtetés révén rendkívül intelligens és hatékony robotágenseket hozhat létre.

Eredeti forrás megtekintése (angol) →