MULTIMODÁLIS
A MiniCPM-V 2.6 valós idejű videóértelmezést tesz lehetővé mobileszközökön
Az OpenBMB bemutatta a MiniCPM-V 2.6-ot, egy hatékony, nyílt multimodális modellt, amely az egyképes, többképes és videóértelmezési feladatokban is felülmúlja a GPT-4V-t. A modellt kifejezetten nagy teljesítményre tervezték, miközben elég kicsi maradt a mobilplatformokon történő valós idejű, eszközön belüli futtatáshoz.
- Különböző látás-nyelv benchmarkokon túlszárnyalja a GPT-4V-1106-ot
- Támogatja a közvetlenül az eszközön futó, valós idejű videóértelmezést
- Alacsony hallucinációs arány és robusztus többnyelvű támogatás jellemzi