A NAP PROMPT TIPPJE
A Google Gemini 2.5 Flash Image a CSUPA NAGYBETŰS promptekre reagál a legjobban
Max Woolf AI-mérnök nemrég tett közzé egy 26 perces mélyelemzést a Google „Nano Banana” képgeneráló modelljéről (Gemini 2.5 Flash Image), feltárva, hogy a „MUST” (KELL) szó nagybetűvel írása a promptekben drámaian javítja az utasítások betartását. Ez azért működik, mert a modell szöveges kódolója (encoder) képfeliratok helyett agentic munkafolyamatokhoz használt kódraktárakon (Markdown + JSON) tanult, így sokkal jobban érti a strukturált utasításokat, mint például a DALL-E.
Woolf ezt abszurd módon összetett promptekkel tesztelte, például három konkrét kiscica generálásával, akiknek hex-kódos színű szőrük és felemás szemük van, a harmadolási szabály szerint elhelyezve. A modell sikeresen teljesített minden egyes követelményt. Érdekes módon Woolf prompt-injection tesztjei feltárták, hogy a Google saját mérnökei olyan fenyegetéseket is használnak a rendszerszintű promptekben, mint a „YOU WILL BE PENALIZED” (BÜNTETÉST KAPSZ) a modell viselkedésének javítása érdekében.
- Használjon Markdown listákat kötőjeles felsorolással az utasítások strukturálásához
- Írja nagybetűvel a „MUST” szót a kritikus vizuális követelmények előtt a megfelelőség javítására
- Használjon kompozíciós megkötéseket, mint például „Pulitzer-díjas címlapfotó” a minőség emeléséhez
- Adja hozzá a „NEVER include any text or watermarks” utasítást a nem kívánt elemek elkerülésére
- A nagybetűs írásmód azért működik, mert a modellt kódra és strukturált adatokra optimalizálták
- --