AI OKTÁTÁS
A BAAI kiadta az Emu3 multimodális modellt, amely egyszerű next-token predictiont használ
A Beijing Academy of Artificial Intelligence kínai kutatói kifejlesztették és közzétették az Emu3-at, egy olyan modellcsaládot, amely képeket, szövegeket és videókat is képes feldolgozni. Az Emu3 az egyszerű megközelítésével és a meggyőző minőségű kimeneteivel tűnik ki. A modellcsaládot kizárólag next-token prediction módszerrel tanították. A kutatók a képeket, szövegeket és videókat egy diszkrét térbe tokenizálva egyetlen transzformátort tanítanak a semmiből a multimodális szekvenciák keverékén.
Nincs különösebb „mágia” az Emu3 mögött; inkább azzal hívja fel magára a figyelmet, hogy elkerüli a bonyolult építészeti trükköket, és helyette csak a képek, szövegek és videók diszkrét térbe való tokenizálására, majd egyetlen transzformátor közös betanítására összpontosít. Az Emu3 megőrzi a már bevált nagy nyelvi modellek (LLM-ek), például a Llama-2 architektúráját, az elsődleges módosítás az embedding réteg kibővítése a diszkrét képi tokenek befogadására.
- Kizárólag next-token prediction használatával tanítva szöveg, kép és videó modalitásokon.
- Egyszerűsíti a modelltervezést a bonyolult architektúrális trükkök elkerülésével a tokenizáció javára.
- A Llama-2 architektúrájára épül.
- Kibővíti az embedding réteget a diszkrét képi tokenek kezeléséhez.
- Célja a skálázhatósági potenciál felszabadítása az oktatás és a következtetés (inference) során az egyszerűség révén.
Miért fontos?
A videók, szövegek és képek modellekbe sűrítése egyfajta egységes képzeletbeli teret ad nekik, amelyben reprezentálni tudnak, és amelyből generálni képesek. Idővel várható, hogy más modalitásokat is integrálnak – audió spektrogramokat, esetleg radart, 3D adatokat és így tovább. Minden egyetlen szintetikus elmében tárolódik majd el. ---