A Google Imagen 3 modellje felülmúlta a Midjourney-t és a DALL-E-t a teljesítményértékeléseken

GOOGLE

A Google Imagen 3 modellje felülmúlta a Midjourney-t és a DALL-E-t a teljesítményértékeléseken

2024. augusztus 15. · MI Történik? · 1 perc olvasás

A Google DeepMind nemrég közzétette legújabb, csúcstechnológiás AI képgeneráló modelljéről, az Imagen 3-ról szóló tanulmányát, kiemelve, hogy az emberi értékelések során legyőzte a DALL-E 3-at, a Midjourney v6-ot és a Stable Diffusion 3-at.

Az emberi értékelések során a résztvevőknek rangsorolniuk kellett a modelleket az általános minőség és a részletes promptokhoz való hűség alapján.
Az Imagen 3 különösen a kiváló minőségű, valósághű képek generálásában jeleskedett, amelyek pontosan megfelelnek a hosszú és összetett szöveges leírásoknak.
Bár képes fotorealisztikus képek készítésére, nehézségei vannak a numerikus érvelést, a méretarányok megértését és bizonyos cselekvések ábrázolását igénylő feladatokkal.
Az Imagen 3 már kipróbálható az ImageFX és a Vertex AI felületeken keresztül.

Miért fontos?

A Google kezdetben nehezen talált magára az AI text-to-image kategóriában, de a legújabb Imagen 3 kiadásával most megelőzi a piac vezető eszközeit. Ez egy újabb győzelem a Google számára, miután alig egy nappal korábban az OpenAI-t is beelőzte a fejlett hangalapú AI széles körű bevezetésében. ---

Eredeti forrás megtekintése (angol) →