A MiniCPM-V 2.6 valós idejű videóértelmezést tesz lehetővé mobileszközökön
Az OpenBMB bemutatta a MiniCPM-V 2.6-ot, egy hatékony, nyílt multimodális modellt, amely az egyképes, többképes és videóértelmezési feladatokban is felülmúlja a GPT-4V-t. A modellt kifejezetten nagy teljesítményre tervezték, miközben elég kicsi maradt a mobilplatformokon történő valós idejű, eszközön belüli futtatáshoz.
- Különböző látás-nyelv benchmarkokon túlszárnyalja a GPT-4V-1106-ot
- Támogatja a közvetlenül az eszközön futó, valós idejű videóértelmezést
- Alacsony hallucinációs arány és robusztus többnyelvű támogatás jellemzi
Kapcsolódó hírek
A Rhymes AI kiadta az Aria-t, az első nyílt forráskódú multimodális Mixture-of-Experts modellt
2024. október 17.
A Meta és a Waymo kidolgozta a Transfusion multimodális tanítási stratégiát
2024. augusztus 22.