ALIBABA
Az Alibaba kiadta a számítógép-vezérlési képességekkel rendelkező Qwen2.5-VL látásmodelljeit
Az Alibaba Qwen csapata bemutatta a Qwen2.5-VL-t, a látás-nyelvi (vision-language) modellek új családját, amely képes számítógépekkel és telefonokkal interakcióba lépni, emellett fejlett dokumentum- és videóelemzési képességekkel rendelkezik.
- A zászlóshajó 72B modell felülmúlja a GPT-4o-t és a Claude 3.5 Sonnet-et a dokumentum-elemzési és videómegértési feladatok legfontosabb benchmarkjain.
- A rendszer képes egyórás videók elemzésére és konkrét pillanatok kinyerésére, miközben összetett dokumentumokat, például számlákat és űrlapokat is feldolgoz.
- Egy új funkció ágensi (agentic) irányítást ad az AI-nak okostelefonos alkalmazások és számítógépek felett; a demók között szerepelt repülőjegy-foglalás, képszerkesztés és szoftvertelepítés is.
- A kisebb, 3B és 7B verziók szabadon elérhetőek, míg a 72B modell nagyüzemi kereskedelmi használatához engedély szükséges.
Miért fontos?
Új „operátor” lépett a porondra – a Qwen számítógép-használó látásmodellje alig egy héttel az OpenAI nagy hírverést kapott bejelentése után érkezett. A Qwen és a DeepSeek múlt heti hatalmas kiadásai után a nyílt és zárt forráskódú, valamint a kínai és amerikai modellek közötti szakadék kisebbnek tűnik, mint valaha. ---