KÉPGENERÁLÁS
A képgenerálás professzionális szintű minőséget ér el javított irányíthatóság mellett
A képgenerálás az a terület, amely a leglátványosabb fejlődést mutatta a különböző modalitások közül. Az elmúlt két évben az átalakulás lenyűgöző volt: a mesterséges hatású alkotásoktól eljutottunk a professzionális művészi szintig, amely gyakorlatilag megkülönböztethetetlen az emberi munkától. A művészet szubjektív természete miatt nehéz egyetlen 2023-as SOTA modellt kijelölni, de az OpenAI DALL-E 3-asa és a Midjourney a jelenlegi uralkodók, köszönhetően széleskörű használatuknak és folyamatosan kiváló minőségű eredményeiknek.
- A DALL-E 3 és a Midjourney v6 megoldották az arcok, kezek és szövegek megjelenítésének főbb nehézségeit
- A Stability AI SDXL Turbo modellje a korábbi számítási költségek töredékéért támogatja a nagy felbontású generálást
- A Fooocus lehetővé teszi a felhasználók számára, hogy helyi környezetben generáljanak Midjourney-szintű képeket bonyolult promptok nélkül
- A Latent Consistency Models (LCM) lehetővé tette a valós idejű, gépelési sebességű képgenerálást
Miért fontos?
A DALL-E 3 több előrelépést hozott 2022-es elődjéhez képest a pontosabb leíráskövetés, az általános képminőség és a jobb irányíthatóság terén, csökkentve a káros tartalmak generálását és a demográfiai torzításokat. ---