GÉPI TANULÁSI KUTATÁS
Z.ai bemutatja a GLM-Image-et: Hibrid architektúra a képeken belüli szövegek javítására
A képgenerátorok gyakran eltorzítják a szövegeket. Egy open-weights modell most felülmúlja nyílt és zárt versenytársait a szöveges megjelenítésben. A Z.ai kiadta a GLM-Image-et, egy open-weights képgenerátort, amely két szakaszban működik: az egyik szakasz meghatározza a kép elrendezését, míg a második kitölti a részleteket. Egy szöveges vagy szöveg-kép prompt alapján a GLM-Image autoregresszív modellje körülbelül 256 alacsony felbontású tokent generál az elrendezéshez, majd 1000-4000 nagyobb felbontású tokent a kisebb részletekhez. A szöveges megjelenítés javítása érdekében egy Glyph-ByT5 szöveges kódoló generálja az egyes karakterek alakját képviselő tokeneket. A dekóder a nagy felbontású és szöveges tokenek alapján hozza létre a képet. A Z.ai tesztjeiben a GLM-Image az élen végzett az open-weights modellek között az angol és kínai szövegek megjelenítésében, bár a promptok követésében közepes teljesítményt nyújtott. A hírek hátterében a Z.ai közölte, hogy a GLM-Image az első olyan nyílt forráskódú multimodális modell, amelyet teljes egészében kínai hardveren, konkrétan a Huawei Ascend Atlas 800T A2-esén tanítottak, ezzel bizonyítva, hogy az amerikai exportkorlátozások ellenére is építhetők versenyképes AI modellek Nvidia vagy AMD chipek nélkül.
- Az architektúra egy 9 milliárd paraméteres autoregresszív transzformátorból áll, amelyet a GLM-4-9B-0414 modellből finomhangoltak.
- A dekóder egy 7 milliárd paraméteres modell, amely a CogView4 diffúziós transzformátoron alapul.
- A csapat az összetevőket külön tanította a Group Relative Policy Optimization (GRPO) nevű megerősítéses tanulási módszerrel.
- Az autoregresszív modell látás-nyelvi modellektől kapott jutalmakat, OCR olvashatósági pontszámokat és emberi preferencia-értékeléseket (HPSv3) használt.
- A dekódert LPIPS pontszámok, OCR olvashatóság és egy anatómiai kéz-helyesség mérő modell segítségével optimalizálták.
- A CVTG-2K angol benchmarkon 91,16%-os átlagos szó-pontosságot ért el, megelőzve olyan modelleket, mint a Qwen-Image-2512.
- A kínai szövegmegjelenítés terén a LongText-Bench-en 97,88%-os pontossággal múlta felül az open-weights modelleket.
- A modell támogatja a képmódosítást, a stílusátvitelt és több alany esetén az identitás-konzisztenciát.
Miért fontos?
A képgenerálás számos alkalmazása, például marketinganyagok, prezentációs diák, infografikák vagy oktatási tartalmak készítése igényli a szöveggenerálás képességét. A hagyományos diffúziós modellek ezzel küzdöttek. A GLM-Image olyan opciót kínál, amelyet a fejlesztők maguk finomhangolhatnak vagy hosztolhatnak. ---