Az Apple képösszeállító dataset-et hoz létre Google eszközökkel
- 258 ezer egyfordulatú, felügyelt fine-tuning példa.
- 56 ezer preferencia pár (sikeres vs. sikertelen szerkesztések).
- 72 ezer többfordulatos szerkesztési szekvencia, ahol minden munkamenet 2-5 egymást követő szerkesztést tartalmaz.
- Gemini példa: „Alakítsa át az asztalon lévő terjedelmes vintage számítógép monitort egy kissé áramvonalasabb, kevésbé mély CRT modellé, miközben megtartja annak általános képernyőméretét és képarányát, biztosítva, hogy a frissített forma valósághű árnyékokat vessen, következetesen tükrözze a környezeti fényt a jelenetnek megfelelően, és zökkenőmentesen illeszkedjen az asztalhoz és a környező környezethez.”
- Qwen által összefoglalt utasítás: „Alakítsa át a terjedelmes monitort egy karcsúbb CRT stílusúra, megtartva ugyanazt a méretet és realisztikusan illeszkedve az asztalhoz.”
Jelenleg úgy tűnik, hogy a képszerkesztő platformok felzabálják és bekebelezik a Photoshopot (hacsak a Photoshop kreatívan nem semmisíti meg önmagát, hogy a prompt interfészt helyezze a képmanipuláció fő módjává). Ha modern képszerkesztőkkel játszik – különösen a Google Gemini Nano Banana-jával –, azt fogja tapasztalni, hogy rendkívül hatékonyak és egyre inkább utasíthatóak. Még nem tökéletes, ahogy az Apple megjegyzi – „a globális megjelenés és stílus szerkesztése viszonylag egyszerű, míg a finom térbeli vezérlést, elrendezési extrapolációt vagy szimbolikus hűséget igénylő szerkesztések továbbra is kihívást jelentenek” – de már kellőképpen jó ahhoz, hogy legalábbis számomra nagyrészt szükségtelenné tegye a hagyományos módszereket. ---