MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Apple képösszeállító dataset-et hoz létre Google eszközökkel

Az Apple kutatói Google eszközök együttesét használták a Pico-Banana-400k létrehozásához, amely „egy átfogó, körülbelül 400 ezer szövegesen irányított képszerkesztést tartalmazó dataset, mely valós fényképekből készült az OpenImages dataset-ben. Datasetünk szisztematikus erőfeszítést képvisel a kiváló minőségű tréning adatok létrehozására az utasítás alapú képszerkesztéshez, amely egyszerre diverz és teljes mértékben megosztható világos licencelési feltételek mellett.” A Nano-banana-t használták több százezer kép szerkesztésének generálására nyolc fő szerkesztési kategóriában, beleértve: „Pixel & Photometric, ObjectLevel Semantic, Scene Composition, Stylistic, Text & Symbol, Human-Centric, Scale és Spatial/Layout”. Összesen ez 35 különböző szerkesztési típust ölelt fel. Néhány ilyen szerkesztés közé tartozott a „szezonális átalakítás, művészeti stílusátvitel, LEGO-minifigura ábrázolás a személyről, új jelenetkontextus/háttér hozzáadása”. Miután elvégezték ezeket a szerkesztéseket, a Gemini-2.5-Pro-t használták a szerkesztések minőségének megítélésére. A dataset különböző formátumú prompt-okat tartalmaz – egy hosszú, részletes prompt-ot, amelyet a Gemini írt képek előállításához, és egy rövid, összefoglalt utasítást, amely inkább hasonlít ahhoz, ahogyan az emberek tipikusan prompt-okat írnak.
Miért fontos?

Jelenleg úgy tűnik, hogy a képszerkesztő platformok felzabálják és bekebelezik a Photoshopot (hacsak a Photoshop kreatívan nem semmisíti meg önmagát, hogy a prompt interfészt helyezze a képmanipuláció fő módjává). Ha modern képszerkesztőkkel játszik – különösen a Google Gemini Nano Banana-jával –, azt fogja tapasztalni, hogy rendkívül hatékonyak és egyre inkább utasíthatóak. Még nem tökéletes, ahogy az Apple megjegyzi – „a globális megjelenés és stílus szerkesztése viszonylag egyszerű, míg a finom térbeli vezérlést, elrendezési extrapolációt vagy szimbolikus hűséget igénylő szerkesztések továbbra is kihívást jelentenek” – de már kellőképpen jó ahhoz, hogy legalábbis számomra nagyrészt szükségtelenné tegye a hagyományos módszereket. ---

Eredeti forrás megtekintése (angol) →