MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

CogAgent: Új látás-nyelvi modell az autonóm okostelefonos navigációhoz

A Tsinghua Egyetem és a Zhipu AI kutatói bemutatták a CogAgentet, egy korszerű látás-nyelvi modellt, amelyet kifejezetten a grafikus felhasználói felületeken (GUI) való navigációra optimalizáltak. Ellentétben az általános célú modellekkel, amelyek küzdenek a nagy felbontású részletekkel, a CogAgent képes 1152x1152 felbontású képek feldolgozására, ami lehetővé teszi számára az apró ikonok, gombok és szövegek pontos azonosítását a különböző alkalmazásokban.

Ez a képesség lehetővé teszi a modell számára, hogy kifinomult AI ágensként működjön, amely képes összetett, természetes nyelvű utasításokat követni több lépésből álló feladatok elvégzéséhez mind okostelefonokon, mind asztali számítógépeken. A CogAgent jelenleg felülmúl más modelleket, beleértve a GPT-4V-t is, több GUI-specifikus benchmark teszten, ami jelentős előrelépést jelent az autonóm digitális asszisztensek létrehozása felé.

Miért fontos?

Miért fontos: Az olyan modellek fejlesztése, amelyek képesek navigálni a meglévő szoftveres felületeken, kulcsfontosságú lépés az olyan általános célú AI ágensek felé, amelyek képesek adminisztratív és digitális feladatokat ellátni speciális API-k nélkül. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Epicure: Egy többnyelvű AI összetevő-beágyazó modell receptanalízishez
2026. május 28.
Claude Mythos: Az Anthropic állítólag rendkívül erős, még meg nem jelent AI modellje
2026. április 15.
Az Anthropic egy védetlen adatbázison keresztül szivárogtatta ki a nagy teljesítményű Claude Mythos modellt
2026. március 30.
Tudj meg többet
Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?