GENERATÍV AI
A Google elindítja a Nano Banana 2-t a gyorsabb és olcsóbb képgenerálásért
A Google elindította zászlóshajó képgenerátorának olcsóbb és gyorsabb utódját, amely nagyobb interaktivitást kínál nagyjából feleáron. Megjelent a Nano Banana 2 (hivatalos nevén Gemini 3.1 Flash Image), egy képgeneráló rendszer, amely kihasználja a Gemini 3 Flash sebességét, valamint nyelvi és érvelési erősségeit. Körülbelül négyszer gyorsabb és nagyjából feleannyiba kerül képenként, mint elődje, a Nano Banana Pro. A Google kevés részletet árult el a Nano Banana 2 felépítéséről azon kívül, hogy a Gemini 3 Flash-re „épül”. Az olyan képességek, mint a webes keresésen alapuló megalapozottság (grounding), az érvelés és a nagyfelbontású kimenet lényegében megegyeznek az előző Nano Banana Pro verzióéval. Az új rendszer azonban gyorsabb, ami megkönnyíti a kimenet iteratív és egymást követő finomítását. Egyes felhasználók arról számoltak be, hogy pontosabban jeleníti meg a szövegeket. A Nano Banana 2 a független ranglistákon a három legjobb képgenerátor között szerepel. A verseny a képgenerálás területén gyors és heves. A 2025 augusztus végén indult első Nano Banana (hivatalosan Gemini 2.5 Flash Image) heteken belül több mint 10 millió új felhasználót vonzott a Gemini alkalmazásba. Novemberben a Google Gemini 3 Pro látás-nyelv modelljén alapuló Nano Banana Pro a képgenerálási ranglisták élére került. Az OpenAI decemberben a GPT Image 1.5-tel válaszolt – egy olyan bevezetéssel, amelyet az OpenAI felgyorsított Sam Altman vezérigazgató „vörös kód” utasítására, hogy utolérjék a Google-t a TechCrunch szerint. A Nano Banana 2 megközelíti a legjobb szöveg-kép pozíciót, miközben az ára nagyjából 60 százalékkal alacsonyabb, mint a kiváló minőségre állított GPT Image 1.5-é.
- Bemenet/kimenet: Támogatja a szöveget és a képeket (akár 1 millió bemeneti tokenig), és akár 4096x4096px felbontású képeket generál 14-féle képarányban.
- Architektúra: Gemini 3 Flash-re épülő mixture-of-experts transformer egy közzé nem tett renderelő modellel.
- Funkciók: Webes keresési alapú megalapozottság, két szintű érvelés, többnyelvű szövegmegjelenítés, valamint karakter- és tárgykonzisztencia akár öt karakteren keresztül több képen át.
- Biztonság: A kimenetek láthatatlan SynthID vízjelekkel és a generálási metaadatokat rögzítő C2PA Content Credentials jelöléssel vannak ellátva.
- Teljesítmény: Vezeti az Arena.ai szöveg-kép ranglistáját (1280 Elo) és az első háromban szerepel az Artificial Analysis ranglistáin.
- Elérhetőség: Korlátozottan ingyenes a Gemini alkalmazáson, a Google Ads-en és a Flow-n keresztül; az API árazás 0,045 dollártól indul 512x512-es képenként.
- Sebesség: A generálás képenként 4-6 másodpercet vesz igénybe, ami nagyjából négyszer gyorsabb, mint a Nano Banana Pro esetében.
Miért fontos?
Az olyan kreatív alkalmazások, mint a marketinganyagok készítése, a termékvizualizáció vagy a storyboard-ok készítése, gyakran sok iterációt igényelnek a kívánt kompozíció, megvilágítás és stílus eléréséhez. Ezért a képonkénti költség és sebesség fontos tényezők. A webes keresésen alapuló megalapozottság csökkentheti a megfelelő kimenet eléréséhez szükséges próbálkozások számát, a képonkénti költség felezése pedig megduplázza a megmaradt büdzsét. ---