CogAgent: Új látás-nyelvi modell az autonóm okostelefonos navigációhoz

AI MODELLEK

CogAgent: Új látás-nyelvi modell az autonóm okostelefonos navigációhoz

2023. november 16. · MI Történik? · 1 perc olvasás

A Tsinghua Egyetem és a Zhipu AI kutatói bemutatták a CogAgentet, egy korszerű látás-nyelvi modellt, amelyet kifejezetten a grafikus felhasználói felületeken (GUI) való navigációra optimalizáltak. Ellentétben az általános célú modellekkel, amelyek küzdenek a nagy felbontású részletekkel, a CogAgent képes 1152x1152 felbontású képek feldolgozására, ami lehetővé teszi számára az apró ikonok, gombok és szövegek pontos azonosítását a különböző alkalmazásokban. Ez a képesség lehetővé teszi a modell számára, hogy kifinomult AI ágensként működjön, amely képes összetett, természetes nyelvű utasításokat követni több lépésből álló feladatok elvégzéséhez mind okostelefonokon, mind asztali számítógépeken. A CogAgent jelenleg felülmúl más modelleket, beleértve a GPT-4V-t is, több GUI-specifikus benchmark teszten, ami jelentős előrelépést jelent az autonóm digitális asszisztensek létrehozása felé.

18 milliárd paraméteres architektúrával és nagy felbontású látással rendelkezik
Kiemelkedő teljesítményt ér el a Mind2Web és Cloud2Web benchmarkokon
Képes finom interakciók kezelésére, mint a kattintás, görgetés és gépelés
A modellt úgy tervezték, hogy az interfészeket emberi módon, látás útján értelmezze
Képes platformok közötti működésre Androidon, iOS-en és weben

Miért fontos?

Miért fontos: Az olyan modellek fejlesztése, amelyek képesek navigálni a meglévő szoftveres felületeken, kulcsfontosságú lépés az olyan általános célú AI ágensek felé, amelyek képesek adminisztratív és digitális feladatokat ellátni speciális API-k nélkül. ---

Eredeti forrás megtekintése (angol) →