A nyílt forráskódú LLaVA kihívást jelent a GPT-4 vizuális képességei számára

NYÍLT FORRÁSKÓDÚ AI

A nyílt forráskódú LLaVA kihívást jelent a GPT-4 vizuális képességei számára

2023. október 9. · MI Történik? · 1 perc olvasás

A Stanford, az UW-Madison és a Columbia kutatói bemutatták a LLaVA-t, egy új, nyílt forráskódú AI rendszert, amely felveheti a versenyt a GPT-4-gyel a vizuális és nyelvi megértés terén. Nyílt forráskódú és teljesen ingyenesen használható.

A LLaVA összeköti a CLIP-et (egy képeket értelmező AI rendszert) a LLaMA-val, ami egy nyílt forráskódú szöveges AI modell.
Egy demó során a LLaVA megmutatta, hogy képes képeket értelmezni és beszélgetni róluk, hasonlóan a zárt forráskódú GPT-4-hez, annak ellenére, hogy lényegesen kevesebb tanítóadattal rendelkezik.
A privát GPT-4-gyel ellentétben a LLaVA kódja, a tanított modell súlyai és a generált tanítóadatok szabadon elérhetőek az interneten.

Miért fontos?

A LLaVA bizonyítja a nyílt forráskódú megoldásokban rejlő potenciált a látás-nyelv alapú AI fejlesztésében. Bár valószínűleg még nem ér fel a GPT-4 puszta méretével, a hozzáférhetősége és az erős kezdeti eredmények lenyűgözőek. ---

Eredeti forrás megtekintése (angol) →