Új képgeneráló modellek szöveges promptok helyett elrendezéseket használnak

2026. június 4. · MI Történik? · 3 perc olvasás

Az AI-alapú képgenerálás új korszakába lépünk, ahol a hagyományos szöveges promptok helyét egyre inkább az elrendezés-központú, strukturált irányítás veszi át. Nemrégiben két meghatározó képalkotó laboratórium is bemutatta legújabb fejlesztéseit: az Ideogram nyílt forráskódúvá tette az Ideogram 4.0 modellt, míg a Reve elindította a Reve 2.0-t. Mindkét megoldás szakít a korábbi véletlenszerűséggel, és egy ágenseken alapuló, iteratív folyamatot kínál a felhasználóknak. Ez a megközelítés sokkal nagyobb kontrollt és precízebb kreatív irányítást biztosít a tervezők számára, mint a korábbi szöveg alapú megoldások.

Az Ideogram 4.0 kiemelkedő eredményeket ért el, hiszen azonnal megszerezte az első helyet a nyílt forráskódú modellek mezőnyében. A Design Arenán végzett mérések szerint csupán az OpenAI és a Google zárt, fizetős modelljei képesek megelőzni a startup újdonságát. Az új verzió különösen erős a szövegmegjelenítés, a tipográfia és az általános grafikai tervezés területén. Ezt bizonyítják a Contra által végzett tesztek is, amelyek során a professzionális tervezők a piacvezető versenytársakkal szemben is inkább az Ideogram termékét választották. A fejlesztés mögött álló technológia ráadásul JSON fájlokon keresztül teszi lehetővé az elrendezések kezelését, ami teljesen új szintre emeli a tervezési munkafolyamatokat.

A Reve 2.0 szintén komoly sikereket könyvelhet el, hiszen az Arena Text-to-Image ranglistáján maga mögé utasította a Nano Banana 2-t, és megszerezte az előkelő összesített második helyet, közvetlenül a GPT-image-2 mögött. A Reve modellje egészen egyedi módon, lényegében kódként hozza létre a képeket. A generált kimenetek címkézett szegmenseket tartalmaznak, így a felhasználóknak nem kell az egész képet újraalkotniuk, ha csak egy apró részleten változtatnának. Elegendő az elrendezést leíró kód vagy struktúra megfelelő részét átírni, és a rendszer csak az adott szegmenst módosítja.

Ez a technológiai váltás komoly mérföldkövet jelent az iparágban. A képgeneráló modellek hosszú utat tettek meg a kezdeti időszakhoz képest, amikor a nem megfelelő eredmény esetén az egyetlen lehetőség a teljes prompt újragenerálása volt, bízva a szerencsében. A valódi áttörést most az a részletes szerkeszthetőség és kontroll jelenti, amiért a felhasználóknak korábban külső képszerkesztő alkalmazásokhoz kellett folyamodniuk. Emellett az Ideogram döntése, hogy nyílt súlyokkal, azaz open weights formában tette közzé a modellt, azt bizonyítja, hogy az open-source közösség ma már közvetlenül a zárt, nagyvállalati rendszerek nyomában jár, és képes professzionális minőségű eszközöket adni a tervezők kezébe.

Az Ideogram 4.0 megszerezte az első helyet a nyílt modellek között, a Design Arenán pedig csak az OpenAI és a Google zárt modelljei előzik meg.
A 4.0 kiválóan teljesít a szövegmegjelenítés, a tipográfia és a grafikai tervezés terén; a Contra tesztjei alapján a professzionális tervezők jobban kedvelik a piacvezető versenytársaknál.
A Reve 2.0 megelőzte a Nano Banana 2-t az Arena Text-to-Image ranglistáján, ezzel megszerezve az összesített 2. helyet, közvetlenül a GPT-image-2 mögött.
A modell kimenetei címkézett szegmenseket tartalmaznak, így a felhasználók az egész kép újragenerálása nélkül módosíthatnak annak egyes részeit.
A Reve „kódként” hozza létre a képet, és a prompt helyett az elrendezés átírásával szerkeszti azt, míg az Ideogram egy hasonló technikát alkalmaz JSON-on keresztül.

Miért fontos?

A képgeneráló modellek hosszú utat tettek meg a kezdeti idők óta, amikor az egyetlen lehetőség a prompt újragenerálása volt. A valódi áttörést most az a részletes szerkeszthetőség és kontroll jelenti, amiért a felhasználók korábban más alkalmazásokhoz fordultak. Az Ideogram esetében a nyílt súlyok (open weights) jelentik a nagy hírt, bizonyítva, hogy az open-source nincs messze lemaradva az élvonaltól. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Notion bevezette a „Notion as code” koncepciót a munkaterületek üzembe helyezéséhez

most

A BackSearch lehetővé teszi a weben való keresést konkrét múltbeli dátumokra

most

A Claude Voice mód kiterjesztésre került a Sonnet és Opus modellekre

1 órája

Tudj meg többet

AI modellek finomhangolása és egyedi fejlesztése: Lépj túl a generikus megoldásokon!

AI a mindennapokban: 10 zseniális prompt, amivel órákat spórolhatsz a munkádban