MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Z.ai bemutatja a GLM-Image-et: Hibrid architektúra a képeken belüli szövegek javítására

A képgenerátorok gyakran eltorzítják a szövegeket. Egy open-weights modell most felülmúlja nyílt és zárt versenytársait a szöveges megjelenítésben. A Z.ai kiadta a GLM-Image-et, egy open-weights képgenerátort, amely két szakaszban működik: az egyik szakasz meghatározza a kép elrendezését, míg a második kitölti a részleteket. Egy szöveges vagy szöveg-kép prompt alapján a GLM-Image autoregresszív modellje körülbelül 256 alacsony felbontású tokent generál az elrendezéshez, majd 1000-4000 nagyobb felbontású tokent a kisebb részletekhez. A szöveges megjelenítés javítása érdekében egy Glyph-ByT5 szöveges kódoló generálja az egyes karakterek alakját képviselő tokeneket. A dekóder a nagy felbontású és szöveges tokenek alapján hozza létre a képet. A Z.ai tesztjeiben a GLM-Image az élen végzett az open-weights modellek között az angol és kínai szövegek megjelenítésében, bár a promptok követésében közepes teljesítményt nyújtott. A hírek hátterében a Z.ai közölte, hogy a GLM-Image az első olyan nyílt forráskódú multimodális modell, amelyet teljes egészében kínai hardveren, konkrétan a Huawei Ascend Atlas 800T A2-esén tanítottak, ezzel bizonyítva, hogy az amerikai exportkorlátozások ellenére is építhetők versenyképes AI modellek Nvidia vagy AMD chipek nélkül.
Miért fontos?

A képgenerálás számos alkalmazása, például marketinganyagok, prezentációs diák, infografikák vagy oktatási tartalmak készítése igényli a szöveggenerálás képességét. A hagyományos diffúziós modellek ezzel küzdöttek. A GLM-Image olyan opciót kínál, amelyet a fejlesztők maguk finomhangolhatnak vagy hosztolhatnak. ---

Eredeti forrás megtekintése (angol) →