Az Alibaba kiadta a Qwen-VL Frontier nagy vizuális-nyelvi modellt
Az Alibaba Group kutatói megépítették a Qwen-VL-t, egy nyelvi modellt, amely képes képek elemzésére. Betanították a Qwen-VL-Chat-et is, amelyet úgy hangoltak, hogy könnyebb legyen vele természetes nyelven beszélgetni. A Qwen-VL a modellek egy új generációjának része, amelyek multimodálisak – a szövegelemzés és -generálás mellett a képeket is képesek megérteni. A Qwen-VL egy alapul szolgáló 7B paraméteres nyelvi modellen alapul, amelyet egy 1,9B paraméteres vision transformer-rel egészítettek ki.
- Körülbelül 1,4 milliárd kép-szöveg páron alapul
- A tanítóadatok megoszlása: 77,3% angol és 22,7% kínai szöveg
- A kínai adatforrások közé tartozik a LAION-zh (105 millió) és saját belső adatok (220 millió)
- Képaláírás-készítési és vizuális Q&A feladatokban felülmúlta a DeepMind Flamingo modelljét
- Nyíltan elérhetővé tették a GitHub-on nyilvános kísérletezés céljából
- A jövőbeli tervek között szerepel a beszéd és a videó modalitások integrálása
Miért fontos?
A Qwen-VL egy ~9B paraméteres multimodális modell, amely leginkább azért figyelemre méltó, mert a) nyilvánosan elérhető, és b) Kínából származik. Nehezítő tényező, hogy van néhány zárt forráskódú multimodális modell (GPT-4 képekkel, Gemini), amelyek teljesítményéről nincs pontos képünk, így a szerzőknek itt olyan modellekkel szemben kell tesztelniük, amelyek eredményei jobban hozzáférhetőek. A vizuális-nyelvi modellek értékelése még gyerekcipőben jár, így nem egyértelmű rögtön, hogy ez a modell valójában mennyire jó. ---