A képgeneráló modellek legyőzik a realizmus és a szöveges megjelenítés akadályait

2023. december 28. · MI Történik? · 1 perc olvasás

Az elmúlt két évben a képgenerálás a mesterséges hatású alkotásoktól olyan professzionális művészetté fejlődött, amely gyakorlatilag megkülönböztethetetlen az emberi munkától. 2022 volt az az év, amikor a képgenerálás elfordult a GAN-októl a Diffusion modellek felé a DALL-E 2, a Stable Diffusion és a Midjourney megjelenésével. 2023-ban ezek a modellek legyőzték azt a jelentős akadályt, amely 2022-ben még nehézséget okozott: az arcok, kezek és szövegek pontos megjelenítését.

Az OpenAI DALL-E 3-ma és a Midjourney v6 jelenleg a minőségi ranglista vezetői
A DALL-E 3 javította a leírások hűségét, csökkentette a demográfiai elfogultságot és a káros képek generálását
A Midjourney a Discordról webalkalmazássá alakult, és jelentősen javította a részletgazdagságot és a szöveggenerálást
A Stability AI SDXL Turbo modellje nagy felbontású generálást tesz lehetővé a korábbi számítási költségek töredékéért
A Latent Consistency Models (LCM) immár valós idejű, gépelési sebességű képgenerálást tesz lehetővé

Miért fontos?

A generálási minőségben kevesebb mint két év alatt végbement ugrás a technológiát az újdonság erejétől a komplex renderelésre képes professzionális eszközzé emelte. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A képgenerálás professzionális szintű minőséget ér el javított irányíthatóság mellett

2023. december 28.

A Google StyleDrop lehetővé teszi a művészi stílus precíz másolását egyetlen kép alapján

2023. július 2.

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

1 órája

Tudj meg többet

Midjourney: AI képgenerálás útmutató magyarul

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?