MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Alibaba kiadta a Qwen-VL Frontier nagy vizuális-nyelvi modellt

Az Alibaba Group kutatói megépítették a Qwen-VL-t, egy nyelvi modellt, amely képes képek elemzésére. Betanították a Qwen-VL-Chat-et is, amelyet úgy hangoltak, hogy könnyebb legyen vele természetes nyelven beszélgetni. A Qwen-VL a modellek egy új generációjának része, amelyek multimodálisak – a szövegelemzés és -generálás mellett a képeket is képesek megérteni. A Qwen-VL egy alapul szolgáló 7B paraméteres nyelvi modellen alapul, amelyet egy 1,9B paraméteres vision transformer-rel egészítettek ki.
Miért fontos?

A Qwen-VL egy ~9B paraméteres multimodális modell, amely leginkább azért figyelemre méltó, mert a) nyilvánosan elérhető, és b) Kínából származik. Nehezítő tényező, hogy van néhány zárt forráskódú multimodális modell (GPT-4 képekkel, Gemini), amelyek teljesítményéről nincs pontos képünk, így a szerzőknek itt olyan modellekkel szemben kell tesztelniük, amelyek eredményei jobban hozzáférhetőek. A vizuális-nyelvi modellek értékelése még gyerekcipőben jár, így nem egyértelmű rögtön, hogy ez a modell valójában mennyire jó. ---

Eredeti forrás megtekintése (angol) →