A Google DeepMind Gemini 1.5 Pro modellje fejlett robotnavigációt tesz lehetővé

GOOGLE DEEPMIND

A Google DeepMind Gemini 1.5 Pro modellje fejlett robotnavigációt tesz lehetővé

2024. július 12. · MI Történik? · 1 perc olvasás

A Google DeepMind új kutatást tett közzé a robotnavigációról, amely a Gemini 1.5 Pro hatalmas kontextusablakát kihasználva teszi lehetővé a robotok számára, hogy emberi utasítások alapján megértsék és bejárják a komplex környezeteket.

A DeepMind „Mobility VLA” rendszere ötvözi a Gemini 1 millió tokenes kontextusát a terek térképszerű ábrázolásával, így hozva létre egy hatékony navigációs keretrendszert.
A robotok először egy videós bemutatót kapnak a környezetről, ahol a kulcsfontosságú helyszíneket szóban is kiemelik – ezután a videókockák alapján elkészítik a tér gráf-alapú reprezentációját.
A tesztek során a robotok multimodális utasításokra válaszoltak, beleértve a térképvázlatokat, hangalapú kéréseket és vizuális jeleket, például egy játékosdobozt.
A rendszer természetes nyelvű parancsokat is kezel, például: „vigyél el egy olyan helyre, ahol rajzolhatok”, mire a robot a megfelelő helyszínre vezeti a felhasználót.

Miért fontos?

A robotok multimodális képességekkel és hatalmas kontextusablakokkal való felvértezése elképesztő felhasználási módokat tesz majd lehetővé. A Google „Project Astra” demója már előrevetítette a látó, halló és gondolkodó hangasszisztensek jövőjét – de ezen funkciók beágyazása egy robotba egy egészen új szintre emeli a lehetőségeket. ---

Eredeti forrás megtekintése (angol) →