GENERATÍV AI
A Google elindította a Nano Banana 2-t a gyorsabb és olcsóbb AI képalkotásért
A Google elindította zászlóshajó képgenerátorának olcsóbb és gyorsabb utódját, amely nagyobb interaktivitást kínál körülbelül feleannyiért. Megjelent a Nano Banana 2 (hivatalos nevén Gemini 3.1 Flash Image), egy képgeneráló rendszer, amely kihasználja a Gemini 3 Flash sebességét, valamint nyelvi és érvelési erősségeit. Körülbelül négyszer gyorsabb és feleannyiba kerül képenként, mint elődje, a Nano Banana Pro. A Google kevés részletet árult el az architektúráról, azon kívül, hogy a modell a Gemini 3 Flash-en alapul. Az olyan képességek, mint az internetes keresésen alapuló megalapozottság (grounding), az érvelés és a nagy felbontású kimenet, lényegében megegyeznek a korábbi verzióval. Az új rendszer azonban gyorsabb, ami megkönnyíti a kimenet iteratív és szekvenciális finomítását. Egyes felhasználók szerint a szövegeket is pontosabban jeleníti meg. A Nano Banana 2 a legjobb három képgenerátor között szerepel a független ranglistákon. A háttérben a verseny éles: a Nano Banana 2 a szöveg-kép generálási rangsor élmezőnyében foglal helyet, miközben ára nagyjából 60 százalékkal alacsonyabb, mint a kiváló minőségre állított GPT Image 1.5-é.
- Input/output: Akár 1 millió tokent támogat szöveges és képi bemenetként; a képeket akár 4096x4096 pixel felbontásban generálja.
- Architektúra: Gemini 3 Flash-en alapuló Mixture-of-experts transformer, egy meg nem nevezett renderelő modellel.
- Funkciók: Internetes keresésen alapuló grounding, két szintű érvelés, többnyelvű szövegmegjelenítés, valamint karakter- és tárgykonzisztencia (akár 5 karakter és 14 tárgy esetén).
- Biztonság: A kimenet láthatatlan SynthID vízjelekkel és C2PA hitelesítő adatokkal van ellátva a generálási adatok rögzítése érdekében.
- Teljesítmény: Vezeti az Arena.ai szöveg-kép ranglistáját (1 280 Elo ponttal), és az Artificial Analysis listáin is az első háromban szerepel.
- Elérhetőség: Hozzáférhető a Gemini alkalmazáson, a Google Ads-en és az API-n keresztül, az árazás 0,045 dollártól indul 512x512 pixeles képenként.
Miért fontos?
A kreatív alkalmazások, mint például a marketinganyagok készítése, a termékvizualizáció vagy a storyboard-tervezés, gyakran sok iterációt igényelnek a kívánt kompozíció, világítás és stílus eléréséhez. Ezért a képenkénti költség és a sebesség döntő tényezők. Az internetes keresésen alapuló grounding csökkentheti a szükséges próbálkozások számát, a képenkénti költség felezése pedig megduplázza a maradék feladatokra szánt költségkeretet.