AI MODELLEK
CogAgent: Új látás-nyelvi modell az autonóm okostelefonos navigációhoz
A Tsinghua Egyetem és a Zhipu AI kutatói bemutatták a CogAgentet, egy korszerű látás-nyelvi modellt, amelyet kifejezetten a grafikus felhasználói felületeken (GUI) való navigációra optimalizáltak. Ellentétben az általános célú modellekkel, amelyek küzdenek a nagy felbontású részletekkel, a CogAgent képes 1152x1152 felbontású képek feldolgozására, ami lehetővé teszi számára az apró ikonok, gombok és szövegek pontos azonosítását a különböző alkalmazásokban.
Ez a képesség lehetővé teszi a modell számára, hogy kifinomult AI ágensként működjön, amely képes összetett, természetes nyelvű utasításokat követni több lépésből álló feladatok elvégzéséhez mind okostelefonokon, mind asztali számítógépeken. A CogAgent jelenleg felülmúl más modelleket, beleértve a GPT-4V-t is, több GUI-specifikus benchmark teszten, ami jelentős előrelépést jelent az autonóm digitális asszisztensek létrehozása felé.
- 18 milliárd paraméteres architektúrával és nagy felbontású látással rendelkezik
- Kiemelkedő teljesítményt ér el a Mind2Web és Cloud2Web benchmarkokon
- Képes finom interakciók kezelésére, mint a kattintás, görgetés és gépelés
- A modellt úgy tervezték, hogy az interfészeket emberi módon, látás útján értelmezze
- Képes platformok közötti működésre Androidon, iOS-en és weben
Miért fontos?
Miért fontos: Az olyan modellek fejlesztése, amelyek képesek navigálni a meglévő szoftveres felületeken, kulcsfontosságú lépés az olyan általános célú AI ágensek felé, amelyek képesek adminisztratív és digitális feladatokat ellátni speciális API-k nélkül. ---