Az Adept kiadta a Fuyu-8B egyszerű multimodális modellt digitális ágensekhez

2023. október 23. · MI Történik? · 1 perc olvasás

Az Adept nevű AI-startup kiadta a Fuyu-8B-t, egy multimodális modellt, amely segít olyan AI-rendszerek tanításában, amelyek képesek értelmezni a világot, és különösen a számítógépes képernyőkön megjelenő dolgokat. A Fuyut „alapjaitól kezdve digitális ágensekhez tervezték, így támogatja a tetszőleges képfelbontást, válaszol a grafikonokkal és diagramokkal kapcsolatos kérdésekre, értelmezi a felhasználói felületeket, és részletes lokalizációt végez a képernyőképeken” – írja az Adept.

Mik ezek: A modellek egyszerűbb módon épülnek fel, mint más multimodális modellek. „A Fuyu egy vanilla decoder-only transzformer, ugyanazokkal a részletekkel, mint a Persimmon-8B – nincs benne külön kép-enkóder. Ehelyett a képrészletek (patches) lineárisan vetülnek a transzformer első rétegébe, megkerülve az embedding keresést” – írja az Adept. „Ez az egyszerűsítés lehetővé teszi a tetszőleges képfelbontás támogatását. Ennek eléréséhez a képtokenek sorozatát ugyanúgy kezeljük, mint a szöveges tokenek sorozatát. Eltávolítjuk a képspecifikus pozíció-beágyazásokat, és annyi képtokent táplálunk be raszteres olvasási sorrendben, amennyi szükséges.”

„Vanilla” decoder-only transzformerként készült, külön kép-enkóder nélkül.
A képrészletek lineárisan vetülnek közvetlenül a transzformer első rétegébe.
Támogatja a tetszőleges képfelbontást azáltal, hogy a képsorozatokat szöveges tokenként kezeli.
CC BY-NC 4.0 licenc alatt került kiadásra.
A nyers modell kiadása nem tartalmaz specifikus instruction-tuningot vagy biztonsági utófeldolgozást.

Miért fontos?

A Fuyu-8B-hez hasonló modellek olyasmik, amiket az olyan nagy nyelvi modellek, mint a GPT-4 vagy a Claude, igénybe vehetnek a körülöttük lévő vizuális világ jobb megértéséhez, különösen a számítógépeken lévő dolgokat, például UI-okat, grafikonokat és interfészeket illetően. Ez tovább szélesíti az AI-rendszerek képességeit, és megkönnyíti a nagy teljesítményű világmodellek összekapcsolását olyan feladatokkal, amelyek tisztán szövegesen nem írhatók le tökéletesen. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az XPeng vezérigazgatója irányítja a humanoid robotok sorozatgyártását

1 órája

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

9 órája

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

12 órája

Tudj meg többet

AI a mindennapi életben: A digitális önellátás alapjai

Neurális hálózat: mi az és hogyan tanul? Egyszerű magyarázat