Souhrn
Společnost OpenAI spustila model GPT Image 1.5, který je navržen především pro úlohy generování a editace obrázků pomocí umělé inteligence. Vývojáři ho mohou využít přes API s cenou o 20 procent nižší než u předchozího modelu, zatímco běžní uživatelé ho najdou v ChatGPT, kde generuje obrázky až čtyřnásobně rychleji. Model řeší dlouhodobé slabiny jako špatné zachování detailů při úpravách a nekvalitní vykreslování textu.
Klíčové body
- Lepší zachování důležitých detailů obrázku při editaci, například loga značky nebo jiných prvků, které uživatel nechce měnit.
- Podpora složitějších vícekrokových úprav, jako je kombinace objektů z více zdrojových obrázků a následná změna stylu.
- Vylepšené vykreslování textu a zpracování následných pokynů, což překonává slabiny předchozích verzí.
- Čtyřnásobní zvýšení rychlosti generování v ChatGPT díky vyšší hardwarové efektivitě modelu.
- Snížení ceny API o 20 procent, což usnadňuje komerční nasazení.
Podrobnosti
Model GPT Image 1.5 přichází několik týdnů po uvedení Nano Banana Pro od Google, což je další generátor obrázků zaměřený na lepší vykreslování textu a následných pokynů. OpenAI se při tréninku soustředilo na podobné oblasti, ale rozšířilo je o optimalizace pro editaci obrázků. Předchozí modely umělé inteligence často měnily detaily, které uživatel explicitně nepožadoval – například při změně velikosti produktového foto odstranily logo značky. GPT Image 1.5 tento problém minimalizuje tím, že lépe rozlišuje mezi požadovanými a nepotřebnými změnami. To je klíčové pro komerční aplikace, kde přesnost ovlivňuje kvalitu výstupu.
API umožňuje vývojářům integrovat model do vlastních aplikací, například pro automatickou úpravu fotografií v e-commerce platformách nebo tvorbu personalizovaného obsahu. Cena je o 20 procent nižší než u předchozího modelu DALL-E, což znamená úsporu pro firmy s velkým objemem požadavků. Pro běžné uživatele je model dostupný v ChatGPT, kde slouží k rychlé generaci obrázků na základě textových popisů. OpenAI uvádí, že díky vyšší efektivitě na hardwaru – jako jsou GPU – je zpracování rychlejší a spotřebovává méně energie. Menší čas na úlohu přímo snižuje provozní náklady, protože modely umělé inteligence jsou energeticky náročné.
Příkladem pokročilých schopností je požadavek na umístění objektů z tří různých kreseb do jediného obrázku a následnou změnu ilustrativního stylu. Model zvládá tyto vícekrokové instrukce lépe než dřívější verze, což rozšiřuje možnosti pro designéry a marketéry. Trénink se zaměřil i na textové prvky, které byly v minulosti problematické – například nečitelné nápisy v generovaných obrázcích. GPT Image 1.5 tak pokračuje v trendu multimodálních modelů, kde umělá inteligence zpracovává text i vizuální data současně.
Proč je to důležité
Toto vydání posiluje pozici OpenAI v soutěži o multimodální modely, kde Google, Midjourney nebo Stability AI představují přímou konkurenci. Vylepšení přesnosti editace a hardwarové efektivity umožňují širší adopci v průmyslu, zejména v reklamě, e-commerce a tvorbě obsahu, kde malé chyby mohou vést k významným ztrátám. Nižší cena a rychlost snižují bariéry pro menší firmy a jednotlivce, což urychlí integraci do běžných nástrojů. Dlouhodobě to přispívá k pokroku v generativní AI, ale zároveň zvyšuje tlak na etické aspekty, jako je ochrana autorských práv k zdrojovým obrázkům. V širším kontextu to ukazuje na zrychlený vývoj směrem k univerzálnějším modelům schopným komplexních úprav bez lidského zásahu.
Zdroj: 📰 SiliconANGLE News