Az Alibaba kiadta a Qwen-VL-Max vision modellt, amely felveszi a versenyt a zárt forráskódú SOTA modellekkel
Januárban jelentős előrelépés történt a multimodális AI területén olyan modellek megjelenésével, amelyek képesek képek értelmezésére és dokumentumok olvasására. Az Alibaba nyílt forráskódúvá tette a Qwen-VL-Max modellt – egy nagy vizuális nyelvi modellt, amely felülmúlja az összes korábbi nyílt forráskódú modellt, és a Gemini Ultra-val, valamint a GPT-4V-vel egy szinten teljesít.
- Nagy vizuális nyelvi modell, amely képes a képek részleteinek elemzésére.
- Fejlett dokumentumolvasási és -értelmezési képességek.
- A Gemini Ultra-val és a GPT-4V-vel azonos szinten teljesít.
- Felülmúlja az összes korábbi nyílt forráskódú vision modellt.
Kapcsolódó hírek
A Flux 2 Dev Turbo 6-szoros kép-generálási sebességet ért el
2026. január 1.
A Perplexica nyílt forráskódú AI keresőeszköz lemásolja a Perplexity funkcióit
2024. szeptember 22.