Az Alibaba kiadta a Qwen-VL Frontier nagy vizuális-nyelvi modellt

2023. szeptember 5. · MI Történik? · 1 perc olvasás

Az Alibaba Group kutatói megépítették a Qwen-VL-t, egy nyelvi modellt, amely képes képek elemzésére. Betanították a Qwen-VL-Chat-et is, amelyet úgy hangoltak, hogy könnyebb legyen vele természetes nyelven beszélgetni. A Qwen-VL a modellek egy új generációjának része, amelyek multimodálisak – a szövegelemzés és -generálás mellett a képeket is képesek megérteni. A Qwen-VL egy alapul szolgáló 7B paraméteres nyelvi modellen alapul, amelyet egy 1,9B paraméteres vision transformer-rel egészítettek ki.

Körülbelül 1,4 milliárd kép-szöveg páron alapul
A tanítóadatok megoszlása: 77,3% angol és 22,7% kínai szöveg
A kínai adatforrások közé tartozik a LAION-zh (105 millió) és saját belső adatok (220 millió)
Képaláírás-készítési és vizuális Q&A feladatokban felülmúlta a DeepMind Flamingo modelljét
Nyíltan elérhetővé tették a GitHub-on nyilvános kísérletezés céljából
A jövőbeli tervek között szerepel a beszéd és a videó modalitások integrálása

Miért fontos?

A Qwen-VL egy ~9B paraméteres multimodális modell, amely leginkább azért figyelemre méltó, mert a) nyilvánosan elérhető, és b) Kínából származik. Nehezítő tényező, hogy van néhány zárt forráskódú multimodális modell (GPT-4 képekkel, Gemini), amelyek teljesítményéről nincs pontos képünk, így a szerzőknek itt olyan modellekkel szemben kell tesztelniük, amelyek eredményei jobban hozzáférhetőek. A vizuális-nyelvi modellek értékelése még gyerekcipőben jár, így nem egyértelmű rögtön, hogy ez a modell valójában mennyire jó. ---

Eredeti forrás megtekintése (angol) →