MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI ChatGPT Images 2.0 kiválóan teljesít szöveg- és realisztikus UI generálásban

Néhány hónapig úgy tűnt, a Google nyerte az képgenerálási versenyt. De az OpenAI visszatért. A ChatGPT Images 2.0 mérföldekkel előrébb jár mindennél. Rendkívül lenyűgöző a szövegek kezelésében, egyetlen generált képen sem láttam gépelési hibát, még képenként több száz szó esetén sem. Nézze meg ezt a példát, amit készítettem: Emellett nagyon jó realisztikus képek készítésében is, mint például ez itt Ben professzorról. Ó, bocsánat, az igazi. Ben most szerdán Stanfordon volt, ahol AI agentekkel való építkezést tanított. Képgenerálás a Codex appban is elérhető képességként. Használja gondolkodó modellekkel a legjobb eredmények eléréséhez – ez lehetővé teszi, hogy gondolkodjon és kódot/eszközhívásokat használjon (például QR kód készítése linkből, logók keresése a weben), majd ezeket referenciaképként alkalmazza. Képes képeket generálni, reflektálni rájuk és javítani a generálást. Az új modellel az emberek realisztikus UI screenshotokat, többoldalas illusztrált magazinokat, személyes stílusajánlásokat és kreatív QR kódokat készítenek. Az "UI generálás képként" rész érdekes. Talán végre van megoldás a GPT-5.4 tervezési ízlésének hiányára. A legújabb kódoló modellek elég jók abban, hogy screenshotokból kódot készítsenek, de még vannak hiányosságok. Múlt hétvégén számos eszközt/modellt teszteltem egy design (egy hirdetési webáruház Ben’s Bites számára) implementálására egy screenshotból kiindulva. Azt találtam: Amikor arra kértük, hogy a dizájnokat alakítsa át egy működő alkalmazássá, jelentős eltérés volt az alkalmazások kinézetében. Bár a GPT-5.4 kódja funkcionálisabb volt, és a nem látható oldalak (például az admin panel) konzisztens dizájnnal rendelkeztek az alkalmazás többi részével. Továbbá, sok esetben az assetek (kiemelt kép, ikonok, háttér textúrák) teszik kiemelkedővé az UI-t egy "generált képen". Amikor ezt az UI-t egy screenshotból replikáljuk, megkapjuk az alapvető UI-t a megfelelő gombokkal és elrendezéssel, de az assetek nélkül, és az eredmény elmarad a várakozásoktól.
Eredeti forrás megtekintése (angol) →