Az Adept kiadta a Fuyu-8B egyszerű multimodális modellt digitális ágensekhez
Az Adept nevű AI-startup kiadta a Fuyu-8B-t, egy multimodális modellt, amely segít olyan AI-rendszerek tanításában, amelyek képesek értelmezni a világot, és különösen a számítógépes képernyőkön megjelenő dolgokat. A Fuyut „alapjaitól kezdve digitális ágensekhez tervezték, így támogatja a tetszőleges képfelbontást, válaszol a grafikonokkal és diagramokkal kapcsolatos kérdésekre, értelmezi a felhasználói felületeket, és részletes lokalizációt végez a képernyőképeken” – írja az Adept.
Mik ezek: A modellek egyszerűbb módon épülnek fel, mint más multimodális modellek. „A Fuyu egy vanilla decoder-only transzformer, ugyanazokkal a részletekkel, mint a Persimmon-8B – nincs benne külön kép-enkóder. Ehelyett a képrészletek (patches) lineárisan vetülnek a transzformer első rétegébe, megkerülve az embedding keresést” – írja az Adept. „Ez az egyszerűsítés lehetővé teszi a tetszőleges képfelbontás támogatását. Ennek eléréséhez a képtokenek sorozatát ugyanúgy kezeljük, mint a szöveges tokenek sorozatát. Eltávolítjuk a képspecifikus pozíció-beágyazásokat, és annyi képtokent táplálunk be raszteres olvasási sorrendben, amennyi szükséges.”
- „Vanilla” decoder-only transzformerként készült, külön kép-enkóder nélkül.
- A képrészletek lineárisan vetülnek közvetlenül a transzformer első rétegébe.
- Támogatja a tetszőleges képfelbontást azáltal, hogy a képsorozatokat szöveges tokenként kezeli.
- CC BY-NC 4.0 licenc alatt került kiadásra.
- A nyers modell kiadása nem tartalmaz specifikus instruction-tuningot vagy biztonsági utófeldolgozást.
Miért fontos?
A Fuyu-8B-hez hasonló modellek olyasmik, amiket az olyan nagy nyelvi modellek, mint a GPT-4 vagy a Claude, igénybe vehetnek a körülöttük lévő vizuális világ jobb megértéséhez, különösen a számítógépeken lévő dolgokat, például UI-okat, grafikonokat és interfészeket illetően. Ez tovább szélesíti az AI-rendszerek képességeit, és megkönnyíti a nagy teljesítményű világmodellek összekapcsolását olyan feladatokkal, amelyek tisztán szövegesen nem írhatók le tökéletesen. ---