NYÍLT FORRÁSKÓDÚ AI
A nyílt forráskódú LLaVA kihívást jelent a GPT-4 vizuális képességei számára
A Stanford, az UW-Madison és a Columbia kutatói bemutatták a LLaVA-t, egy új, nyílt forráskódú AI rendszert, amely felveheti a versenyt a GPT-4-gyel a vizuális és nyelvi megértés terén. Nyílt forráskódú és teljesen ingyenesen használható.
- A LLaVA összeköti a CLIP-et (egy képeket értelmező AI rendszert) a LLaMA-val, ami egy nyílt forráskódú szöveges AI modell.
- Egy demó során a LLaVA megmutatta, hogy képes képeket értelmezni és beszélgetni róluk, hasonlóan a zárt forráskódú GPT-4-hez, annak ellenére, hogy lényegesen kevesebb tanítóadattal rendelkezik.
- A privát GPT-4-gyel ellentétben a LLaVA kódja, a tanított modell súlyai és a generált tanítóadatok szabadon elérhetőek az interneten.
Miért fontos?
A LLaVA bizonyítja a nyílt forráskódú megoldásokban rejlő potenciált a látás-nyelv alapú AI fejlesztésében. Bár valószínűleg még nem ér fel a GPT-4 puszta méretével, a hozzáférhetősége és az erős kezdeti eredmények lenyűgözőek. ---