📰 SiliconANGLE News

OpenAI spustilo nový model GPT Image 1.5 optimalizovaný pro úpravu obrázků

OpenAI spustilo nový model GPT Image 1.5 optimalizovaný pro úpravu obrázků

Souhrn

Společnost OpenAI spustila model GPT Image 1.5, který je navržen především pro úlohy generování a editace obrázků pomocí umělé inteligence. Vývojáři ho mohou využít přes API s cenou o 20 procent nižší než u předchozího modelu, zatímco běžní uživatelé ho najdou v ChatGPT, kde generuje obrázky až čtyřnásobně rychleji. Model řeší dlouhodobé slabiny jako špatné zachování detailů při úpravách a nekvalitní vykreslování textu.

Klíčové body

  • Lepší zachování důležitých detailů obrázku při editaci, například loga značky nebo jiných prvků, které uživatel nechce měnit.
  • Podpora složitějších vícekrokových úprav, jako je kombinace objektů z více zdrojových obrázků a následná změna stylu.
  • Vylepšené vykreslování textu a zpracování následných pokynů, což překonává slabiny předchozích verzí.
  • Čtyřnásobní zvýšení rychlosti generování v ChatGPT díky vyšší hardwarové efektivitě modelu.
  • Snížení ceny API o 20 procent, což usnadňuje komerční nasazení.

Podrobnosti

Model GPT Image 1.5 přichází několik týdnů po uvedení Nano Banana Pro od Google, což je další generátor obrázků zaměřený na lepší vykreslování textu a následných pokynů. OpenAI se při tréninku soustředilo na podobné oblasti, ale rozšířilo je o optimalizace pro editaci obrázků. Předchozí modely umělé inteligence často měnily detaily, které uživatel explicitně nepožadoval – například při změně velikosti produktového foto odstranily logo značky. GPT Image 1.5 tento problém minimalizuje tím, že lépe rozlišuje mezi požadovanými a nepotřebnými změnami. To je klíčové pro komerční aplikace, kde přesnost ovlivňuje kvalitu výstupu.

API umožňuje vývojářům integrovat model do vlastních aplikací, například pro automatickou úpravu fotografií v e-commerce platformách nebo tvorbu personalizovaného obsahu. Cena je o 20 procent nižší než u předchozího modelu DALL-E, což znamená úsporu pro firmy s velkým objemem požadavků. Pro běžné uživatele je model dostupný v ChatGPT, kde slouží k rychlé generaci obrázků na základě textových popisů. OpenAI uvádí, že díky vyšší efektivitě na hardwaru – jako jsou GPU – je zpracování rychlejší a spotřebovává méně energie. Menší čas na úlohu přímo snižuje provozní náklady, protože modely umělé inteligence jsou energeticky náročné.

Příkladem pokročilých schopností je požadavek na umístění objektů z tří různých kreseb do jediného obrázku a následnou změnu ilustrativního stylu. Model zvládá tyto vícekrokové instrukce lépe než dřívější verze, což rozšiřuje možnosti pro designéry a marketéry. Trénink se zaměřil i na textové prvky, které byly v minulosti problematické – například nečitelné nápisy v generovaných obrázcích. GPT Image 1.5 tak pokračuje v trendu multimodálních modelů, kde umělá inteligence zpracovává text i vizuální data současně.

Proč je to důležité

Toto vydání posiluje pozici OpenAI v soutěži o multimodální modely, kde Google, Midjourney nebo Stability AI představují přímou konkurenci. Vylepšení přesnosti editace a hardwarové efektivity umožňují širší adopci v průmyslu, zejména v reklamě, e-commerce a tvorbě obsahu, kde malé chyby mohou vést k významným ztrátám. Nižší cena a rychlost snižují bariéry pro menší firmy a jednotlivce, což urychlí integraci do běžných nástrojů. Dlouhodobě to přispívá k pokroku v generativní AI, ale zároveň zvyšuje tlak na etické aspekty, jako je ochrana autorských práv k zdrojovým obrázkům. V širším kontextu to ukazuje na zrychlený vývoj směrem k univerzálnějším modelům schopným komplexních úprav bez lidského zásahu.


Číst původní článek

Zdroj: 📰 SiliconANGLE News