AI KUTATÁS
A Google DeepMind bemutatta a Genie-t: egy generatív modellt interaktív környezetekhez
A Google DeepMind megalkotta a Genie-t, egy generatív modellt, amely interaktív világokat képes létrehozni. A Genie egy rendkívül érdekes rendszer, amely ötvözi a nagyméretű generatív modellek ötleteit a DeepMind gyökereivel. A szervezet régóta vallja, hogy a játékok és a játékokat játszó ágensek jelentik az utat az AGI felé. A Genie-vel a DeepMind összekapcsolja múltját a jelennel, létrehozva „az első generatív interaktív környezetet, amelyet felügyelet nélküli módon, címkézetlen internetes videókból tanítottak”.
Az eredmények meggyőzőek – a Genie architektúrája lehetővé teszi, hogy a DeepMind számítógépes játékok videóin tanítsa a rendszert, amely így egy olyan generatív modellt hoz létre, amelybe fotókat (vagy vázlatokat) táplálva a felhasználók játszhatnak azokkal, miközben a modell menet közben következteti ki a játékon belüli dinamikát. A DeepMind ugyanezt tette a robotika terén is, létrehozva egy olyan robotmodellt, amely képes következtetni a világ állapotára és a vezérlési dinamikára.
- Több mint 200 000 órányi nyilvánosan elérhető internetes játékvideóból álló adatbázison tanították
- Képkockáról képkockára irányítható egy tanult látens akciótéren keresztül
- Látens akciómodellt használ az egyes képkockapárok közötti művelet kikövetkeztetésére
- Tartalmaz egy video-tokenizálót, amely a nyers videókockákat diskrét tokenekké alakítja
- Egy dinamikai modellt alkalmaz a következő képkocka megjósolásához a látens akció és a korábbi tokenek alapján
- Jelenleg 16 képkockányi memóriára korlátozódik, és körülbelül 1fps sebességgel fut
Miért fontos?
A jövőben bármi, amit elképzelsz, játékká válhat. Fotók, videók és vázlatok szolgálnak majd magként az új, irányítható zsebuniverzumokhoz. Ez egy elmozdulást jelez az AI által létrehozott univerzumok világa felé, ahol az egyének saját képzeletük látens tereit fedezhetik fel.