Az Apple képösszeállító dataset-et hoz létre Google eszközökkel
Az Apple kutatói Google eszközök együttesét használták a Pico-Banana-400k létrehozásához, amely „egy átfogó, körülbelül 400 ezer szövegesen irányított képszerkesztést tartalmazó dataset, mely valós fényképekből készült az OpenImages dataset-ben. Datasetünk szisztematikus erőfeszítést képvisel a kiváló minőségű tréning adatok létrehozására az utasítás alapú képszerkesztéshez, amely egyszerre diverz és teljes mértékben megosztható világos licencelési feltételek mellett.” A Nano-banana-t használták több százezer kép szerkesztésének generálására nyolc fő szerkesztési kategóriában, beleértve: „Pixel & Photometric, ObjectLevel Semantic, Scene Composition, Stylistic, Text & Symbol, Human-Centric, Scale és Spatial/Layout”. Összesen ez 35 különböző szerkesztési típust ölelt fel. Néhány ilyen szerkesztés közé tartozott a „szezonális átalakítás, művészeti stílusátvitel, LEGO-minifigura ábrázolás a személyről, új jelenetkontextus/háttér hozzáadása”. Miután elvégezték ezeket a szerkesztéseket, a Gemini-2.5-Pro-t használták a szerkesztések minőségének megítélésére. A dataset különböző formátumú prompt-okat tartalmaz – egy hosszú, részletes prompt-ot, amelyet a Gemini írt képek előállításához, és egy rövid, összefoglalt utasítást, amely inkább hasonlít ahhoz, ahogyan az emberek tipikusan prompt-okat írnak.
- 258 ezer egyfordulatú, felügyelt fine-tuning példa.
- 56 ezer preferencia pár (sikeres vs. sikertelen szerkesztések).
- 72 ezer többfordulatos szerkesztési szekvencia, ahol minden munkamenet 2-5 egymást követő szerkesztést tartalmaz.
- Gemini példa: „Alakítsa át az asztalon lévő terjedelmes vintage számítógép monitort egy kissé áramvonalasabb, kevésbé mély CRT modellé, miközben megtartja annak általános képernyőméretét és képarányát, biztosítva, hogy a frissített forma valósághű árnyékokat vessen, következetesen tükrözze a környezeti fényt a jelenetnek megfelelően, és zökkenőmentesen illeszkedjen az asztalhoz és a környező környezethez.”
- Qwen által összefoglalt utasítás: „Alakítsa át a terjedelmes monitort egy karcsúbb CRT stílusúra, megtartva ugyanazt a méretet és realisztikusan illeszkedve az asztalhoz.”
Jelenleg úgy tűnik, hogy a képszerkesztő platformok felzabálják és bekebelezik a Photoshopot (hacsak a Photoshop kreatívan nem semmisíti meg önmagát, hogy a prompt interfészt helyezze a képmanipuláció fő módjává). Ha modern képszerkesztőkkel játszik – különösen a Google Gemini Nano Banana-jával –, azt fogja tapasztalni, hogy rendkívül hatékonyak és egyre inkább utasíthatóak. Még nem tökéletes, ahogy az Apple megjegyzi – „a globális megjelenés és stílus szerkesztése viszonylag egyszerű, míg a finom térbeli vezérlést, elrendezési extrapolációt vagy szimbolikus hűséget igénylő szerkesztések továbbra is kihívást jelentenek” – de már kellőképpen jó ahhoz, hogy legalábbis számomra nagyrészt szükségtelenné tegye a hagyományos módszereket. ---