AI KUTATÁS
A Google kutatói GPT-3 stílusú képesség-emergenciát figyeltek meg a Veo 3 videómodellnél
Néhány évvel ezelőtt felfedezték, hogy ha az AI-rendszereket a következő token szöveges előrejelzésének céljával tanítják, akkor egy sor olyan új képesség (emergencia) alakul ki náluk a szorzástól az érzelemanalízisen át a kreatív írásig, amelyeket kifejezetten nem kértek tőlük. Mi van, ha ugyanez történik a videómodellekkel? Ez a fő állítása egy közelmúltbeli Google-tanulmánynak, amely szerint hasonló emergencia látható a Veo 3 videómodellnél – és ezek az előre nem tervezett képességek jelentősen nőttek elődje, a Veo 2 óta. A szerzők bemutatják, hogy a Veo 3 számos olyan feladatot képes megoldani, amire kifejezetten nem képezték ki: objektumok szegmentálása, élkeresés, képszerkesztés, fizikai tulajdonságok megértése, tárgyak használhatóságának felismerése, eszközhasználat szimulálása és még sok más.
- A kutatók 18 384 generált videót elemeztek 62 kvalitatív és 7 kvantitatív feladat során.
- A Veo 3 erős emergenciát mutatott az észlelési feladatokban, mint például a „vak” elmosódásmentesítés, élkeresés és szuperfelbontás.
- A modellezési képességek közé tartozik a merev testek, az anyagi optika és az időbeli memória megértése.
- A manipulációs készségek közé tartozik az inpainting, a firkákkal történő szerkesztés és az új nézőpontú szintézis.
- A következtetés jelenleg a leggyengébb terület, némi készséget mutat a szekvenálásban, de gyenge az eszközhasználatban és a szabályok extrapolálásában.
- A kutatók a képkockáról képkockára történő generálást a nyelvi modellek „chain-of-thought” (gondolatmenet) típusú következtetéséhez hasonlítják.
Miért fontos?
Ez egy „GPT-3 pillanatra” utal a látás (vision) terén, ahol a videómodellek skálázása emergens világmodellekhez vezet, ami vizuális következtetés révén rendkívül intelligens és hatékony robotágenseket hozhat létre.