Z.ai bemutatja a GLM-Image-et: Hibrid architektúra a képeken belüli szövegek javítására

GÉPI TANULÁSI KUTATÁS

Z.ai bemutatja a GLM-Image-et: Hibrid architektúra a képeken belüli szövegek javítására

2026. január 30. · MI Történik? · 2 perc olvasás

A képgenerátorok gyakran eltorzítják a szövegeket. Egy open-weights modell most felülmúlja nyílt és zárt versenytársait a szöveges megjelenítésben. A Z.ai kiadta a GLM-Image-et, egy open-weights képgenerátort, amely két szakaszban működik: az egyik szakasz meghatározza a kép elrendezését, míg a második kitölti a részleteket. Egy szöveges vagy szöveg-kép prompt alapján a GLM-Image autoregresszív modellje körülbelül 256 alacsony felbontású tokent generál az elrendezéshez, majd 1000-4000 nagyobb felbontású tokent a kisebb részletekhez. A szöveges megjelenítés javítása érdekében egy Glyph-ByT5 szöveges kódoló generálja az egyes karakterek alakját képviselő tokeneket. A dekóder a nagy felbontású és szöveges tokenek alapján hozza létre a képet. A Z.ai tesztjeiben a GLM-Image az élen végzett az open-weights modellek között az angol és kínai szövegek megjelenítésében, bár a promptok követésében közepes teljesítményt nyújtott. A hírek hátterében a Z.ai közölte, hogy a GLM-Image az első olyan nyílt forráskódú multimodális modell, amelyet teljes egészében kínai hardveren, konkrétan a Huawei Ascend Atlas 800T A2-esén tanítottak, ezzel bizonyítva, hogy az amerikai exportkorlátozások ellenére is építhetők versenyképes AI modellek Nvidia vagy AMD chipek nélkül.

Az architektúra egy 9 milliárd paraméteres autoregresszív transzformátorból áll, amelyet a GLM-4-9B-0414 modellből finomhangoltak.
A dekóder egy 7 milliárd paraméteres modell, amely a CogView4 diffúziós transzformátoron alapul.
A csapat az összetevőket külön tanította a Group Relative Policy Optimization (GRPO) nevű megerősítéses tanulási módszerrel.
Az autoregresszív modell látás-nyelvi modellektől kapott jutalmakat, OCR olvashatósági pontszámokat és emberi preferencia-értékeléseket (HPSv3) használt.
A dekódert LPIPS pontszámok, OCR olvashatóság és egy anatómiai kéz-helyesség mérő modell segítségével optimalizálták.
A CVTG-2K angol benchmarkon 91,16%-os átlagos szó-pontosságot ért el, megelőzve olyan modelleket, mint a Qwen-Image-2512.
A kínai szövegmegjelenítés terén a LongText-Bench-en 97,88%-os pontossággal múlta felül az open-weights modelleket.
A modell támogatja a képmódosítást, a stílusátvitelt és több alany esetén az identitás-konzisztenciát.

Miért fontos?

A képgenerálás számos alkalmazása, például marketinganyagok, prezentációs diák, infografikák vagy oktatási tartalmak készítése igényli a szöveggenerálás képességét. A hagyományos diffúziós modellek ezzel küzdöttek. A GLM-Image olyan opciót kínál, amelyet a fejlesztők maguk finomhangolhatnak vagy hosztolhatnak. ---

Eredeti forrás megtekintése (angol) →