MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Adept kiadta a Fuyu-8B egyszerű multimodális modellt digitális ágensekhez

Az Adept nevű AI-startup kiadta a Fuyu-8B-t, egy multimodális modellt, amely segít olyan AI-rendszerek tanításában, amelyek képesek értelmezni a világot, és különösen a számítógépes képernyőkön megjelenő dolgokat. A Fuyut „alapjaitól kezdve digitális ágensekhez tervezték, így támogatja a tetszőleges képfelbontást, válaszol a grafikonokkal és diagramokkal kapcsolatos kérdésekre, értelmezi a felhasználói felületeket, és részletes lokalizációt végez a képernyőképeken” – írja az Adept.

Mik ezek: A modellek egyszerűbb módon épülnek fel, mint más multimodális modellek. „A Fuyu egy vanilla decoder-only transzformer, ugyanazokkal a részletekkel, mint a Persimmon-8B – nincs benne külön kép-enkóder. Ehelyett a képrészletek (patches) lineárisan vetülnek a transzformer első rétegébe, megkerülve az embedding keresést” – írja az Adept. „Ez az egyszerűsítés lehetővé teszi a tetszőleges képfelbontás támogatását. Ennek eléréséhez a képtokenek sorozatát ugyanúgy kezeljük, mint a szöveges tokenek sorozatát. Eltávolítjuk a képspecifikus pozíció-beágyazásokat, és annyi képtokent táplálunk be raszteres olvasási sorrendben, amennyi szükséges.”

Miért fontos?

A Fuyu-8B-hez hasonló modellek olyasmik, amiket az olyan nagy nyelvi modellek, mint a GPT-4 vagy a Claude, igénybe vehetnek a körülöttük lévő vizuális világ jobb megértéséhez, különösen a számítógépeken lévő dolgokat, például UI-okat, grafikonokat és interfészeket illetően. Ez tovább szélesíti az AI-rendszerek képességeit, és megkönnyíti a nagy teljesítményű világmodellek összekapcsolását olyan feladatokkal, amelyek tisztán szövegesen nem írhatók le tökéletesen. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Az XPeng vezérigazgatója irányítja a humanoid robotok sorozatgyártását
most
A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára
8 órája
A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón
11 órája
Tudj meg többet
AI a mindennapi életben: A digitális önellátás alapjai
Neurális hálózat: mi az és hogyan tanul? Egyszerű magyarázat