GOOGLE DEEPMIND
A Google DeepMind Gemini 1.5 Pro modellje fejlett robotnavigációt tesz lehetővé
A Google DeepMind új kutatást tett közzé a robotnavigációról, amely a Gemini 1.5 Pro hatalmas kontextusablakát kihasználva teszi lehetővé a robotok számára, hogy emberi utasítások alapján megértsék és bejárják a komplex környezeteket.
- A DeepMind „Mobility VLA” rendszere ötvözi a Gemini 1 millió tokenes kontextusát a terek térképszerű ábrázolásával, így hozva létre egy hatékony navigációs keretrendszert.
- A robotok először egy videós bemutatót kapnak a környezetről, ahol a kulcsfontosságú helyszíneket szóban is kiemelik – ezután a videókockák alapján elkészítik a tér gráf-alapú reprezentációját.
- A tesztek során a robotok multimodális utasításokra válaszoltak, beleértve a térképvázlatokat, hangalapú kéréseket és vizuális jeleket, például egy játékosdobozt.
- A rendszer természetes nyelvű parancsokat is kezel, például: „vigyél el egy olyan helyre, ahol rajzolhatok”, mire a robot a megfelelő helyszínre vezeti a felhasználót.
Miért fontos?
A robotok multimodális képességekkel és hatalmas kontextusablakokkal való felvértezése elképesztő felhasználási módokat tesz majd lehetővé. A Google „Project Astra” demója már előrevetítette a látó, halló és gondolkodó hangasszisztensek jövőjét – de ezen funkciók beágyazása egy robotba egy egészen új szintre emeli a lehetőségeket. ---