A BAAI kiadta az Emu3 multimodális modellt, amely egyszerű next-token predictiont használ

AI OKTÁTÁS

A BAAI kiadta az Emu3 multimodális modellt, amely egyszerű next-token predictiont használ

2024. október 7. · MI Történik? · 1 perc olvasás

A Beijing Academy of Artificial Intelligence kínai kutatói kifejlesztették és közzétették az Emu3-at, egy olyan modellcsaládot, amely képeket, szövegeket és videókat is képes feldolgozni. Az Emu3 az egyszerű megközelítésével és a meggyőző minőségű kimeneteivel tűnik ki. A modellcsaládot kizárólag next-token prediction módszerrel tanították. A kutatók a képeket, szövegeket és videókat egy diszkrét térbe tokenizálva egyetlen transzformátort tanítanak a semmiből a multimodális szekvenciák keverékén. Nincs különösebb „mágia” az Emu3 mögött; inkább azzal hívja fel magára a figyelmet, hogy elkerüli a bonyolult építészeti trükköket, és helyette csak a képek, szövegek és videók diszkrét térbe való tokenizálására, majd egyetlen transzformátor közös betanítására összpontosít. Az Emu3 megőrzi a már bevált nagy nyelvi modellek (LLM-ek), például a Llama-2 architektúráját, az elsődleges módosítás az embedding réteg kibővítése a diszkrét képi tokenek befogadására.

Kizárólag next-token prediction használatával tanítva szöveg, kép és videó modalitásokon.
Egyszerűsíti a modelltervezést a bonyolult architektúrális trükkök elkerülésével a tokenizáció javára.
A Llama-2 architektúrájára épül.
Kibővíti az embedding réteget a diszkrét képi tokenek kezeléséhez.
Célja a skálázhatósági potenciál felszabadítása az oktatás és a következtetés (inference) során az egyszerűség révén.

Miért fontos?

A videók, szövegek és képek modellekbe sűrítése egyfajta egységes képzeletbeli teret ad nekik, amelyben reprezentálni tudnak, és amelyből generálni képesek. Idővel várható, hogy más modalitásokat is integrálnak – audió spektrogramokat, esetleg radart, 3D adatokat és így tovább. Minden egyetlen szintetikus elmében tárolódik majd el. ---

Eredeti forrás megtekintése (angol) →