KÉPGENERÁLÁS
A képgeneráló modellek legyőzik a realizmus és a szöveges megjelenítés akadályait
Az elmúlt két évben a képgenerálás a mesterséges hatású alkotásoktól olyan professzionális művészetté fejlődött, amely gyakorlatilag megkülönböztethetetlen az emberi munkától. 2022 volt az az év, amikor a képgenerálás elfordult a GAN-októl a Diffusion modellek felé a DALL-E 2, a Stable Diffusion és a Midjourney megjelenésével. 2023-ban ezek a modellek legyőzték azt a jelentős akadályt, amely 2022-ben még nehézséget okozott: az arcok, kezek és szövegek pontos megjelenítését.
- Az OpenAI DALL-E 3-ma és a Midjourney v6 jelenleg a minőségi ranglista vezetői
- A DALL-E 3 javította a leírások hűségét, csökkentette a demográfiai elfogultságot és a káros képek generálását
- A Midjourney a Discordról webalkalmazássá alakult, és jelentősen javította a részletgazdagságot és a szöveggenerálást
- A Stability AI SDXL Turbo modellje nagy felbontású generálást tesz lehetővé a korábbi számítási költségek töredékéért
- A Latent Consistency Models (LCM) immár valós idejű, gépelési sebességű képgenerálást tesz lehetővé
Miért fontos?
A generálási minőségben kevesebb mint két év alatt végbement ugrás a technológiát az újdonság erejétől a komplex renderelésre képes professzionális eszközzé emelte. ---