🍌 Nano Banana a kompletní průvodce generováním obrázků pomocí Google Gemini 2.5 Flash

💡 Letní škola AI zdarma! Každý pracovní den jedna lekce, za tři týdny jste v obraze.
👉 Přidejte se zdarma na skola.prolnuto.cz

Patrick Zandl · 7. září 2025

AI Google Gemini generování obrázků Nano Banana

🍌 Nano Banana a kompletní průvodce generováním obrázků pomocí Google Gemini 2.5 Flash

Rychlé shrnutí článku

Základní princip - popisujte scény jako příběh, ne seznam klíčových slov
Gemini 2.5 Flash nabízí nativní multimodální zpracování textu a obrázků
Konverzační editace umožňuje postupné vylepšování bez složitých masek
Možnost kombinace více obrázků a přenosu stylů mezi nimi
Přesné vykreslování textu v obrázcích pro loga a diagramy
Různé přístupy pro fotorealistické scény versus stylizované ilustrace

Když se v srpnu zjevil obrazový model nazvaný Nano Banana, strhl se kolem toho velký povyk. Především proto, že byl prostě velmi dobrý v práci s obrázky. A tím myslím VELMI dobrý. Záhy se ukázalo, že je to dílo Google a ten jej počátkem záři začlenil do Google Gemini 2.5 Flash. Takže jej nyní mohou používat v rámci tohoto modelu všichni uživatelé. Pojďme se na Nano Banana model podívat - musím se omluvit, označení Gemini 2.5 Flash mi k srdci vážně nepřirostlo…

Poznámka: Ačkoliv v menu Google najdete model pod oficiálním názvem Gemini 2.5 Flash (nebo Imagen 3), komunita a vývojáři si oblíbili původní kódové označení Nano Banana, takže už ho používá i Google.

Google Gemini 2.5 Flash je velkým posunem v oblasti generování obrázků díky své nativní multimodální architektuře. Na rozdíl od předchozích modelů byl tento systém od základu trénován na současném zpracování textu a obrázků v jediném, unifikovaném kroku. To umožňuje schopnosti přesahující prosté generování obrázků - konverzační editaci, kompozici více obrázků a logické uvažování o obrazovém obsahu. Je tedy o parník dále, než konkurenční GPT-5 a o dvě letadlové lodě Kuzněcov od modelů Anthropicu, které obrázky nějak rozpoznávají, vytvářet je ale moc neumí (definice SVG neberu v potaz).

Použít model můžete jak na gemini.google.com tak na aistudio.google.com.

Základní princip úspěšného promptování

Nejdůležitější pravidlo pro práci s Gemini 2.5 Flash zní: popisujte scénu, nevyjmenovávejte jen klíčová slova. Model je velmi dobrý v hlubokém porozumění jazyku, proto souvislý, popisný odstavec téměř vždy vytvoří lepší a koherentnější obrázek než seznam slov.

Místo promptu typu “stařec, keramika, dílna, zlaté světlo” použijte: “Fotorealistický portrét zblízka staršího japonského keramika s hlubokými vráskami vyřezanými sluncem a vřelým, znaleckým úsměvem. Pečlivě zkoumá čerstvě glazovanou čajovou misku. Prostředí je jeho rustikální, sluncem zalitá dílna. Scénu osvětluje měkké světlo zlaté hodiny proudící oknem, zvýrazňující jemnou texturu hlíny.”

Tady jsme použili prompt: stařec, keramika, dílna, zlaté světlo

A tady jsme použili komplexní prompt

Obrázek 1: Fotorealistický portrét japonského keramika ve své dílně - v prvním případě jsme použili jen soupis klíčových slov, v druhém jsme detailně popsali scénu, jak je uvedeno výše

Režimy generování obrázků

Základní generování z textu

Nejběžnější způsob vytváření obrázků spočívá v popisu toho, co chcete vidět. Gemini podporuje několik specializovaných přístupů:

1. Fotorealistické scény

Pro realistické obrázky přemýšlejte jako fotograf. Zmiňte úhly kamery, typy objektivů, osvětlení a jemné detaily:

Šablona: “Fotorealistický [typ záběru] [subjektu], [akce nebo výraz], zasazený do [prostředí]. Scéna je osvětlena [popis osvětlení], vytváří [náladu] atmosféru. Zachyceno [detaily kamery/objektivu], s důrazem na [klíčové textury a detaily]. Obrázek by měl být ve formátu [poměr stran].”

Uživatelé často nevědí, zda psát poměr stran jako –ar 16:9 (jako v Midjourney) nebo to psát slovy „širokoúhlý obrázek 16:9“. Gemini většinou preferuje přirozený jazyk.

2. Stylizované ilustrace a samolepky

Pro vytváření samolepek, ikon nebo grafických prvků buďte explicitní ohledně stylu a požadujte bílé pozadí:

“Samolepka ve stylu kawaii zobrazující veselou červenou pandu s malým bambusovým kloboučkem. Žvýká zelený bambusový list. Design má výrazné, čisté obrysy, jednoduché stínování a živou barevnou paletu. Pozadí musí být bílé.”

Samolepka pandy

Obrázek 2: Kawaii samolepka červené pandy s bambusovým kloboučkem

3. Přesný text v obrázcích

Gemini 2.5 Flash vyniká ve vykreslování textu. Buďte jasní ohledně přesného znění, stylu písma a celkového designu:

“Vytvořte moderní, minimalistické logo pro kavárnu s názvem ‘Patrickovo kafíčko’. Text by měl být čistým, tučným bezpatkovým písmem. Design by měl obsahovat jednoduchou, stylizovanou ikonu kávového zrna plynule integrovanou s textem. Barevné schéma je černobílé.”

Minimalistické logo

Obrázek 3: Minimalistické logo kavárny s integrovaným textem

4. Produktové fotografie

Pro čisté, profesionální snímky produktů používejte fotografickou terminologii:

“Vysoké rozlišení, studiově osvětlená produktová fotografie minimalistického keramického hrnku na kávu v matné černé barvě s výše vygenerovaným inverzním logem “Patrickovo kafíčko”, prezentovaného na leštěném betonovém povrchu. Osvětlení je třítbodové softboxové nastavení navržené pro vytvoření měkkých, rozptýlených odlesků a eliminaci ostrých stínů. Úhel kamery je mírně zvýšený 45stupňový záběr pro zvýraznění čistých linií.”

Produktová fotografie s logem

Obrázek 4: Studiová produktová fotografie keramického hrnku

5. Minimalistický design s negativním prostorem

Vynikající pro vytváření pozadí webových stránek nebo prezentací:

“Minimalistická kompozice s jediným, jemným červeným javorovým listem umístěným v pravém dolním rohu snímku. Pozadí je rozsáhlé, prázdné krémové plátno vytvářející významný negativní prostor. Měkké, jemné osvětlení. Čtvercový formát.”

Minimalistická kompozice

Obrázek 5: Minimalistická kompozice s javorovým listem a negativním prostorem

6. Sekvenční umění pro komiksy a storyboardy

“Jediný komiksový panel v drsném noir stylu s vysokým kontrastem černobílých inkoustů. Prostředí města Praha. Ulice Žižkova. V popředí stojí detektiv v plášti do deště pod blikající pouliční lampou, déšť mu promáčí ramena. V pozadí se neonová cedule opuštěného baru odráží v louži. Textové pole nahoře říká ‘Město bylo vždy tvrdé místo pro udržení tajemství.’ Osvětlení je ostré, vytváří dramatickou, ponurou náladu.”

Komixový panel

Obrázek 6: Noir komiksový panel s detektivem v dešti - jak vidíte, šišlá se tam, v druhém průchodu už to bylo OK :)

Pokročilé techniky editace obrázků

Přidávání a odebírání prvků

Poskytněte obrázek a jednoduše popište požadovanou změnu. Model analyzuje původní styl, osvětlení a perspektivu obrázku:

“Použij poskytnutou fotografii. Běžícímu muži v popředí přidej vysoký černý kouzelnický klobouk.”

Patrick běží Patrick běží - a teď už má klobouk... Obrázek 7: Původní fotka, jak běžím - a pak a do toho jsem si přidal klobouk

Sémantické maskování (Inpainting)

Konverzačně řekněte modelu, aby upravil pouze jednu část obrázku při zachování zbytku:

“Použij poskytnutou fotografii. Běžícímu muži v popředí dej místo trička bílou košili, kravatu s jasně barevným vzorkem a tmavě šedé sako. Respektuj světlo a pohyb osoby.”

Patrick běží - a teď už má sako... Obrázek 8: Na původní fotku, jak běžím jsem si místo trička přidal sako, které jsem si původně na běh vzít chtěl, ale nevzal…

Přenos stylu

Poskytněte fotografii a požádejte model o její převedení do specifického uměleckého stylu:

“Transformujte poskytnutou fotografii moderní městské ulice ve dne do uměleckého stylu Vincenta van Gogha ‘Hvězdná noc’. Zachovejte původní kompozici budov a aut, ale vykreslete všechny prvky vírovými tahy štětce impasto a dramatickou paletou hlubokých modří a jasných žlutí.”

Olomouc ve dne Olomouc podle van Gogha

Obrázek 9: Městská ulice před a po transformaci do stylu van Gogha

Pokročilá kompozice více obrázků

Poskytněte více obrázků jako kontext pro vytvoření nové, složené scény:

“Vytvořte profesionální módní fotografii pro e-shop. Vezměte modré květované šaty z prvního obrázku a nechte je obléct ženě z druhého obrázku. Vygenerujte realistický celotělový záběr ženy v šatech s osvětlením a stíny upravenými pro venkovní prostředí.”

Kompozice obrázků Obrázek 10: Kompozice šatů a modelky do finální módní fotografie

Bonus: izometrické obrázky

Internet v jednu dobu zachvátila poslednost izometrickými obrázky s počasím v nejrůznějších městech. Můžete je generovat i přes API a vkládat na svůj server, použijte tento prompt:

Vytvořte jasnou, 45° izometrickou miniaturní 3D kreslenou scénu města Brandýs nad Labem-Stará Boleslav v České republice, která bude obsahovat jeho nejznámější památky a architektonické prvky. Použijte jemné, rafinované textury s realistickými PBR materiály a jemným, realistickým osvětlením a stíny. Integrujte aktuální povětrnostní podmínky přímo do prostředí města, abyste vytvořili působivou atmosféru. Použijte čistou, minimalistickou kompozici s jemným, jednobarevným pozadím. V horní části uprostřed umístěte název „Brandýs-Boleslav“ velkým tučným písmem, pod ním výraznou ikonu počasí, poté datum (malým písmem) a teplotu (středním písmem). Veškerý text musí být vycentrován s rovnoměrnými mezerami a může mírně překrývat vrcholy budov. Rozměr čtverce 1080 x 1080.

Jaké bylo počasí v Brandýse?
PS: Zrovna brandýský zámek to fakt netrefilo :)

Osvědčené postupy a strategie

Buďte hyperspecifičtí

Čím více detailů poskytnete, tím větší kontrolu máte. Místo “fantazijní brnění” popište: “ozdobné elfí plátové brnění, vyleptané vzory stříbrných listů, s vysokým límcem a ramenními pláty ve tvaru sokolích křídel.”

Poskytněte kontext a záměr

Vysvětlete účel obrázku. Model lépe porozumí kontextu a vytvoří relevantnější výsledek. “Vytvořte logo pro prémiovou, minimalistickou značku péče o pleť” přinese lepší výsledky než pouhé “vytvořte logo.”

Iterujte a vylepšujte

Neočekávejte perfektní obrázek napoprvé. Využijte konverzační povahu modelu pro postupné úpravy: “To je skvělé, ale můžete udělat osvětlení trochu teplejší?” nebo “Ponechte vše stejné, ale změňte výraz postavy na vážnější.”

Používejte postupné instrukce

Pro složité scény s mnoha prvky rozdělte prompt na kroky: “Nejprve vytvořte pozadí klidného, mlžného lesa za úsvitu. Poté do popředí přidejte mechem pokrytý starověký kamenný oltář. Nakonec umístěte na vrchol oltáře jediný, zářící meč.”

Sémantické negativní prompty

Místo “žádná auta” popište požadovanou scénu pozitivně: “prázdná, opuštěná ulice bez známek dopravy.”

Ovládejte kameru

Používejte fotografický a filmový jazyk pro kontrolu kompozice. Termíny jako širokoúhlý záběr, makro záběr, perspektiva zdola, portrétní objektiv 85mm nebo holandský úhel vám dávají přesnou kontrolu nad finálním obrázkem.

Současná omezení

Model má několik omezení, která je třeba brát v úvahu:

Nejlepší výkon poskytuje v angličtině, španělštině, japonštině, čínštině a hindštině - pokud se vám nedaří to vysvětlit česky, zkuste jeden z těchto jazyků…
Nepodporuje zvukové nebo video vstupy pro generování obrázků
Ne vždy dodržuje přesný počet požadovaných výstupních obrázků
Nejlépe funguje s maximálně 3 vstupními obrázky
Při generování textu v obrázcích nejprve vygenerujte text, poté požádejte o obrázek s tímto textem
Nahrávání obrázků dětí není momentálně podporováno v EU a Velké Británii
Stejně tak u osob bývají velmi častá omezení, nebo jsou obličeje osob v průchodu AI změněné. Není to chyba, je to vlastnost (ochrana těch lidí)
Všechny vygenerované obrázky obsahují vodoznak SynthID, aby bylo rozpoznatelné, že je to AI obrázek

Praktické využití v různých oblastech

Model nachází uplatnění v řadě profesionálních oblastí. Grafičtí designéři jej využívají pro rychlé prototypování konceptů a vytváření variací návrhů. Marketingoví specialisté generují vizuály pro sociální média a reklamní kampaně. Vývojáři her vytvářejí konceptové umění a herní prvky. Architekti vizualizují interiérové návrhy s různými variantami nábytku a osvětlení.

Konverzační povaha modelu umožňuje postupné vylepšování bez nutnosti začínat od začátku, což významně zrychluje kreativní proces. Schopnost kombinovat více vstupních obrázků otevírá nové možnosti pro vytváření produktových mockupů nebo kreativních koláží.

Závěr

Google Gemini 2.5 Flash představuje významný posun v generování obrázků díky své nativní multimodální architektuře. Klíčem k úspěchu je pochopení, že model nejlépe reaguje na popisné, narativní prompty spíše než na seznamy klíčových slov. S postupným osvojením různých technik a strategií popsaných v tomto průvodci můžete vytvářet vysoce kvalitní vizuální obsah pro širokou škálu profesionálních aplikací.

Model neustále prochází vývojem a vylepšováním, přičemž Google aktivně pracuje na odstranění současných omezení. Pro začátek doporučujeme experimentovat s různými styly promptů v prostředí Google AI Studio, kde můžete techniky okamžitě testovat a iterovat své výtvory v reálném čase.

Pro vývojáře je podstatné, že tyto funkce lze používat také přes API a to včetně OpenRouter.ai, kde se stalo Gemini Flash 2.5 (Nano Banana) první podporovaným obrazovým modelem.

Jak se vám líbí tento článek?

💡 Co je tu dalšího zajímavého ke čtení?

👉Apple s ARM procesory a PostPC éra

Na úterní presentaci představil Apple dlouho očekávanou řadu počítačů vybavených vlastním procesorem Apple M1 namísto dosavadně používaných procesorů Intel. ...

👉Snížení počtu obcí je cesta kvality místních služeb, ne úspory rozpočtu

V Česku velmi opatrně odstartovala debata o reformě územní správy, tedy o tom, jestli náhodou nemáme moc obcí. Laický názor je, že když snížíme počet, snížím...

Chcete tyto články emailem?

Sdílejte článek: Twitter, Facebook, Opravit 📃

« xAI představila Grok Code Fast 1 pro vývoj | 📘 Meta a Zuckerbergova vize osobní superinteligence »