A MiniCPM-V 2.6 valós idejű videóértelmezést tesz lehetővé mobileszközökön

2024. augusztus 8. · MI Történik? · 1 perc olvasás

Az OpenBMB bemutatta a MiniCPM-V 2.6-ot, egy hatékony, nyílt multimodális modellt, amely az egyképes, többképes és videóértelmezési feladatokban is felülmúlja a GPT-4V-t. A modellt kifejezetten nagy teljesítményre tervezték, miközben elég kicsi maradt a mobilplatformokon történő valós idejű, eszközön belüli futtatáshoz.

Különböző látás-nyelv benchmarkokon túlszárnyalja a GPT-4V-1106-ot
Támogatja a közvetlenül az eszközön futó, valós idejű videóértelmezést
Alacsony hallucinációs arány és robusztus többnyelvű támogatás jellemzi

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Rhymes AI kiadta az Aria-t, az első nyílt forráskódú multimodális Mixture-of-Experts modellt

2024. október 17.

A Meta és a Waymo kidolgozta a Transfusion multimodális tanítási stratégiát

2024. augusztus 22.

A Google DeepMind bemutatta a Med-PaLM Multimodal modellt a fejlett orvosbiológiai adatok értelmezéséhez

2023. július 29.