NYÍLT FORRÁSKÓD
Az Alibaba kiadta a Qwen-VL-Max vision modellt, amely felveszi a versenyt a zárt forráskódú SOTA modellekkel
Januárban jelentős előrelépés történt a multimodális AI területén olyan modellek megjelenésével, amelyek képesek képek értelmezésére és dokumentumok olvasására. Az Alibaba nyílt forráskódúvá tette a Qwen-VL-Max modellt – egy nagy vizuális nyelvi modellt, amely felülmúlja az összes korábbi nyílt forráskódú modellt, és a Gemini Ultra-val, valamint a GPT-4V-vel egy szinten teljesít.
- Nagy vizuális nyelvi modell, amely képes a képek részleteinek elemzésére.
- Fejlett dokumentumolvasási és -értelmezési képességek.
- A Gemini Ultra-val és a GPT-4V-vel azonos szinten teljesít.
- Felülmúlja az összes korábbi nyílt forráskódú vision modellt.