MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A BAAI kiadta az Emu3 multimodális modellt, amely egyszerű next-token predictiont használ

A Beijing Academy of Artificial Intelligence kínai kutatói kifejlesztették és közzétették az Emu3-at, egy olyan modellcsaládot, amely képeket, szövegeket és videókat is képes feldolgozni. Az Emu3 az egyszerű megközelítésével és a meggyőző minőségű kimeneteivel tűnik ki. A modellcsaládot kizárólag next-token prediction módszerrel tanították. A kutatók a képeket, szövegeket és videókat egy diszkrét térbe tokenizálva egyetlen transzformátort tanítanak a semmiből a multimodális szekvenciák keverékén. Nincs különösebb „mágia” az Emu3 mögött; inkább azzal hívja fel magára a figyelmet, hogy elkerüli a bonyolult építészeti trükköket, és helyette csak a képek, szövegek és videók diszkrét térbe való tokenizálására, majd egyetlen transzformátor közös betanítására összpontosít. Az Emu3 megőrzi a már bevált nagy nyelvi modellek (LLM-ek), például a Llama-2 architektúráját, az elsődleges módosítás az embedding réteg kibővítése a diszkrét képi tokenek befogadására.
Miért fontos?

A videók, szövegek és képek modellekbe sűrítése egyfajta egységes képzeletbeli teret ad nekik, amelyben reprezentálni tudnak, és amelyből generálni képesek. Idővel várható, hogy más modalitásokat is integrálnak – audió spektrogramokat, esetleg radart, 3D adatokat és így tovább. Minden egyetlen szintetikus elmében tárolódik majd el. ---

Eredeti forrás megtekintése (angol) →