MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google kutatói GPT-3 stílusú képesség-emergenciát figyeltek meg a Veo 3 videómodellnél

Néhány évvel ezelőtt felfedezték, hogy ha az AI-rendszereket a következő token szöveges előrejelzésének céljával tanítják, akkor egy sor olyan új képesség (emergencia) alakul ki náluk a szorzástól az érzelemanalízisen át a kreatív írásig, amelyeket kifejezetten nem kértek tőlük. Mi van, ha ugyanez történik a videómodellekkel? Ez a fő állítása egy közelmúltbeli Google-tanulmánynak, amely szerint hasonló emergencia látható a Veo 3 videómodellnél – és ezek az előre nem tervezett képességek jelentősen nőttek elődje, a Veo 2 óta. A szerzők bemutatják, hogy a Veo 3 számos olyan feladatot képes megoldani, amire kifejezetten nem képezték ki: objektumok szegmentálása, élkeresés, képszerkesztés, fizikai tulajdonságok megértése, tárgyak használhatóságának felismerése, eszközhasználat szimulálása és még sok más.
Miért fontos?

Ez egy „GPT-3 pillanatra” utal a látás (vision) terén, ahol a videómodellek skálázása emergens világmodellekhez vezet, ami vizuális következtetés révén rendkívül intelligens és hatékony robotágenseket hozhat létre.

Eredeti forrás megtekintése (angol) →