MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Adept kiadta a Fuyu-8B egyszerű multimodális modellt digitális ágensekhez

Az Adept nevű AI-startup kiadta a Fuyu-8B-t, egy multimodális modellt, amely segít olyan AI-rendszerek tanításában, amelyek képesek értelmezni a világot, és különösen a számítógépes képernyőkön megjelenő dolgokat. A Fuyut „alapjaitól kezdve digitális ágensekhez tervezték, így támogatja a tetszőleges képfelbontást, válaszol a grafikonokkal és diagramokkal kapcsolatos kérdésekre, értelmezi a felhasználói felületeket, és részletes lokalizációt végez a képernyőképeken” – írja az Adept. Mik ezek: A modellek egyszerűbb módon épülnek fel, mint más multimodális modellek. „A Fuyu egy vanilla decoder-only transzformer, ugyanazokkal a részletekkel, mint a Persimmon-8B – nincs benne külön kép-enkóder. Ehelyett a képrészletek (patches) lineárisan vetülnek a transzformer első rétegébe, megkerülve az embedding keresést” – írja az Adept. „Ez az egyszerűsítés lehetővé teszi a tetszőleges képfelbontás támogatását. Ennek eléréséhez a képtokenek sorozatát ugyanúgy kezeljük, mint a szöveges tokenek sorozatát. Eltávolítjuk a képspecifikus pozíció-beágyazásokat, és annyi képtokent táplálunk be raszteres olvasási sorrendben, amennyi szükséges.”
Miért fontos?

A Fuyu-8B-hez hasonló modellek olyasmik, amiket az olyan nagy nyelvi modellek, mint a GPT-4 vagy a Claude, igénybe vehetnek a körülöttük lévő vizuális világ jobb megértéséhez, különösen a számítógépeken lévő dolgokat, például UI-okat, grafikonokat és interfészeket illetően. Ez tovább szélesíti az AI-rendszerek képességeit, és megkönnyíti a nagy teljesítményű világmodellek összekapcsolását olyan feladatokkal, amelyek tisztán szövegesen nem írhatók le tökéletesen. ---

Eredeti forrás megtekintése (angol) →