Az Alibaba kiadta a Qwen-VL-Max vision modellt, amely felveszi a versenyt a zárt forráskódú SOTA modellekkel

2024. február 4. · MI Történik? · 1 perc olvasás

Januárban jelentős előrelépés történt a multimodális AI területén olyan modellek megjelenésével, amelyek képesek képek értelmezésére és dokumentumok olvasására. Az Alibaba nyílt forráskódúvá tette a Qwen-VL-Max modellt – egy nagy vizuális nyelvi modellt, amely felülmúlja az összes korábbi nyílt forráskódú modellt, és a Gemini Ultra-val, valamint a GPT-4V-vel egy szinten teljesít.

Nagy vizuális nyelvi modell, amely képes a képek részleteinek elemzésére.
Fejlett dokumentumolvasási és -értelmezési képességek.
A Gemini Ultra-val és a GPT-4V-vel azonos szinten teljesít.
Felülmúlja az összes korábbi nyílt forráskódú vision modellt.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Flux 2 Dev Turbo 6-szoros kép-generálási sebességet ért el

2026. január 1.

A Mistral kiadta a nyílt forráskódú Vibe CLI-t és a Devstral 2 modellcsaládot

2025. december 11.

A Perplexica nyílt forráskódú AI keresőeszköz lemásolja a Perplexity funkcióit

2024. szeptember 22.