MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
Új képgeneráló modellek szöveges promptok helyett elrendezéseket használnak

Új képgeneráló modellek szöveges promptok helyett elrendezéseket használnak

Az AI-alapú képgenerálás új korszakába lépünk, ahol a hagyományos szöveges promptok helyét egyre inkább az elrendezés-központú, strukturált irányítás veszi át. Nemrégiben két meghatározó képalkotó laboratórium is bemutatta legújabb fejlesztéseit: az Ideogram nyílt forráskódúvá tette az Ideogram 4.0 modellt, míg a Reve elindította a Reve 2.0-t. Mindkét megoldás szakít a korábbi véletlenszerűséggel, és egy ágenseken alapuló, iteratív folyamatot kínál a felhasználóknak. Ez a megközelítés sokkal nagyobb kontrollt és precízebb kreatív irányítást biztosít a tervezők számára, mint a korábbi szöveg alapú megoldások.

Az Ideogram 4.0 kiemelkedő eredményeket ért el, hiszen azonnal megszerezte az első helyet a nyílt forráskódú modellek mezőnyében. A Design Arenán végzett mérések szerint csupán az OpenAI és a Google zárt, fizetős modelljei képesek megelőzni a startup újdonságát. Az új verzió különösen erős a szövegmegjelenítés, a tipográfia és az általános grafikai tervezés területén. Ezt bizonyítják a Contra által végzett tesztek is, amelyek során a professzionális tervezők a piacvezető versenytársakkal szemben is inkább az Ideogram termékét választották. A fejlesztés mögött álló technológia ráadásul JSON fájlokon keresztül teszi lehetővé az elrendezések kezelését, ami teljesen új szintre emeli a tervezési munkafolyamatokat.

A Reve 2.0 szintén komoly sikereket könyvelhet el, hiszen az Arena Text-to-Image ranglistáján maga mögé utasította a Nano Banana 2-t, és megszerezte az előkelő összesített második helyet, közvetlenül a GPT-image-2 mögött. A Reve modellje egészen egyedi módon, lényegében kódként hozza létre a képeket. A generált kimenetek címkézett szegmenseket tartalmaznak, így a felhasználóknak nem kell az egész képet újraalkotniuk, ha csak egy apró részleten változtatnának. Elegendő az elrendezést leíró kód vagy struktúra megfelelő részét átírni, és a rendszer csak az adott szegmenst módosítja.

Ez a technológiai váltás komoly mérföldkövet jelent az iparágban. A képgeneráló modellek hosszú utat tettek meg a kezdeti időszakhoz képest, amikor a nem megfelelő eredmény esetén az egyetlen lehetőség a teljes prompt újragenerálása volt, bízva a szerencsében. A valódi áttörést most az a részletes szerkeszthetőség és kontroll jelenti, amiért a felhasználóknak korábban külső képszerkesztő alkalmazásokhoz kellett folyamodniuk. Emellett az Ideogram döntése, hogy nyílt súlyokkal, azaz open weights formában tette közzé a modellt, azt bizonyítja, hogy az open-source közösség ma már közvetlenül a zárt, nagyvállalati rendszerek nyomában jár, és képes professzionális minőségű eszközöket adni a tervezők kezébe.

Miért fontos?

A képgeneráló modellek hosszú utat tettek meg a kezdeti idők óta, amikor az egyetlen lehetőség a prompt újragenerálása volt. A valódi áttörést most az a részletes szerkeszthetőség és kontroll jelenti, amiért a felhasználók korábban más alkalmazásokhoz fordultak. Az Ideogram esetében a nyílt súlyok (open weights) jelentik a nagy hírt, bizonyítva, hogy az open-source nincs messze lemaradva az élvonaltól. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Option AFK: Egy helyi beszéd-szöveg alkalmazás MacOS-re
most
A Fable biztonsági korlátai kutatói lázadást váltottak ki
3 órája
Optimalizálja a kódoló ágensek költségeit az AI modellek közötti feladatátirányítással
12 órája
Tudj meg többet
AI a mindennapokban: 10 zseniális prompt, amivel órákat spórolhatsz a munkádban
Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?