MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google Gemini 2.5 Flash Image a CSUPA NAGYBETŰS promptekre reagál a legjobban

Max Woolf AI-mérnök nemrég tett közzé egy 26 perces mélyelemzést a Google „Nano Banana” képgeneráló modelljéről (Gemini 2.5 Flash Image), feltárva, hogy a „MUST” (KELL) szó nagybetűvel írása a promptekben drámaian javítja az utasítások betartását. Ez azért működik, mert a modell szöveges kódolója (encoder) képfeliratok helyett agentic munkafolyamatokhoz használt kódraktárakon (Markdown + JSON) tanult, így sokkal jobban érti a strukturált utasításokat, mint például a DALL-E. Woolf ezt abszurd módon összetett promptekkel tesztelte, például három konkrét kiscica generálásával, akiknek hex-kódos színű szőrük és felemás szemük van, a harmadolási szabály szerint elhelyezve. A modell sikeresen teljesített minden egyes követelményt. Érdekes módon Woolf prompt-injection tesztjei feltárták, hogy a Google saját mérnökei olyan fenyegetéseket is használnak a rendszerszintű promptekben, mint a „YOU WILL BE PENALIZED” (BÜNTETÉST KAPSZ) a modell viselkedésének javítása érdekében.
Eredeti forrás megtekintése (angol) →