MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

CogAgent: Új látás-nyelvi modell az autonóm okostelefonos navigációhoz

A Tsinghua Egyetem és a Zhipu AI kutatói bemutatták a CogAgentet, egy korszerű látás-nyelvi modellt, amelyet kifejezetten a grafikus felhasználói felületeken (GUI) való navigációra optimalizáltak. Ellentétben az általános célú modellekkel, amelyek küzdenek a nagy felbontású részletekkel, a CogAgent képes 1152x1152 felbontású képek feldolgozására, ami lehetővé teszi számára az apró ikonok, gombok és szövegek pontos azonosítását a különböző alkalmazásokban. Ez a képesség lehetővé teszi a modell számára, hogy kifinomult AI ágensként működjön, amely képes összetett, természetes nyelvű utasításokat követni több lépésből álló feladatok elvégzéséhez mind okostelefonokon, mind asztali számítógépeken. A CogAgent jelenleg felülmúl más modelleket, beleértve a GPT-4V-t is, több GUI-specifikus benchmark teszten, ami jelentős előrelépést jelent az autonóm digitális asszisztensek létrehozása felé.
Miért fontos?

Miért fontos: Az olyan modellek fejlesztése, amelyek képesek navigálni a meglévő szoftveres felületeken, kulcsfontosságú lépés az olyan általános célú AI ágensek felé, amelyek képesek adminisztratív és digitális feladatokat ellátni speciális API-k nélkül. ---

Eredeti forrás megtekintése (angol) →