💰 Nový LLM OpenAI GPT-5.2 je superschopný a superdrahý

💡 Letní škola AI zdarma! Každý pracovní den jedna lekce, za tři týdny jste v obraze.
👉 Přidejte se zdarma na skola.prolnuto.cz

Patrick Zandl · 11. prosinec 2025

💰 Nový LLM OpenAI GPT-5.2 je superschopný a superdrahý
Rychlé shrnutí článku
  • Přehled hlavních novinek a změn na trhu LLM v roce 2025, včetně představení GPT-5.2 Thinking
  • Porovnání nejvýkonnějších AI modelů (GPT-5.2, GPT-5.1, Gemini 3 Pro, Claude Opus 4.5, Grok-4-fast) z hlediska výkonu, reasoningu a ceny
  • Vysvětlení, v čem novinka GPT-5.2 posunula laťku (reasoning, matematika, abstrakce)
  • Srovnání cenových strategií jednotlivých poskytovatelů (OpenAI, Google, Anthropic, xAI)
  • Doporučení, pro jaké použití má smysl zvolit který model, včetně nového GPT-5.2
  • Upozornění na limity, změny tarifů (paušál, platba za tokeny, dostupnost modelů)
  • Důsledky změn a nové možnosti pro firmy, vývojáře i koncové uživatele

Společnost OpenAI uvedla na trh novou iteraci svého jazykového modelu, označenou jako GPT-5.2 Thinking. Na rozdíl od předchozích aktualizací, které se často zaměřovaly na rychlost nebo multimodalitu, se verze 5.2 soustředí primárně na posílení schopností v oblasti uvažování (reasoning) a řešení komplexních úloh. Tedy na to, v čem OpenAI poslední měsíce ztrácelo nad svými konkurenty a kde model 5.1 důvěru nezvládl obnovit. Bude líp?

Z dostupných srovnávacích testů vyplývá, že model dosahuje měřitelného posunu zejména v matematice a abstraktním myšlení, čímž se snaží utéct konkurenčním modelům Gemini 3 Pro a Claude Opus 4.5. A daří se mu to. Ovšem za superprémiovou cenu.

Faktická poznámka: model je zatím dostupný API a postupně jej firma nasazuje do nejvyšších placených a postupně i nižších tarifů, jak bývá obvyklé. Na ChatGPT jej tedy ještě nemusíte najít.

Klíčové výsledky v benchmarcích

Analýza technických listů ukazuje několik oblastí, kde GPT-5.2 Thinking vykazuje statisticky významné zlepšení oproti své předchozí verzi (GPT-5.1) i konkurenci.

1. Matematická spolehlivost (AIME 2025)

Nejvýraznějším údajem v technické specifikaci je výsledek v testu AIME 2025 (American Invitational Mathematics Examination).

  • GPT-5.2 Thinking: Dosáhl skóre 100,0 %.

  • Gemini 3 Pro: 95,0 %.

  • GPT-5.1 Thinking: 94,0 %.

Dosažení stoprocentní úspěšnosti v tomto standardizovaném testu naznačuje, že model eliminoval chybovost v logických operacích na úrovni soutěžní středoškolské matematiky. Pro uživatele to znamená vyšší spolehlivost při provádění definovaných výpočtů, kde starší modely občas chybovaly vlivem “nepozornosti”.

2. Skok v abstraktním myšlení (ARC-AGI)

Benchmark ARC-AGI (Abstraction and Reasoning Corpus) je považován za jeden z nejtěžších testů, protože měří schopnost modelu řešit nové vizuálně-logické hádanky, které nebyly součástí tréninkových dat. Zde došlo k největšímu mezigeneračnímu posunu.

  • V testu ARC-AGI 2 dosáhl GPT-5.2 skóre 52,9 %.

  • Pro srovnání, předchozí verze GPT-5.1 dosahovala pouze 17,6 % a konkurenční Gemini 3 Pro má 31,1 %.

Tento nárůst indikuje, že model se méně spoléhá na memorování vzorců a lépe generalizuje pravidla u zcela nových typů problémů.

3. Programování a softwarové inženýrství

V oblasti psaní kódu, měřené testem SWE-Bench Pro (řešení reálných GitHub issues), se OpenAI vrací do vedení, o které v minulých měsících soupeřila s Anthropicem.

  • GPT-5.2 Thinking: 55,6 %.

  • Claude Opus 4.5: 52,0 %.

  • Gemini 3 Pro: 43,3 %.

Model GPT-5.2 se tak jeví jako aktuálně nejrobustnější nástroj pro autonomní úpravy kódu a refactoring, ačkoliv náskok před modelem Claude Opus není propastný. A nutno říct, že cenový rozdíl propastný je.

4. Vědecké znalosti (GPQA Diamond)

Test GPQA Diamond, který obsahuje otázky na úrovni doktorského studia (biologie, fyzika, chemie), ukazuje velmi vyrovnaný souboj na špičce.

  • GPT-5.2 Thinking: 92,4 %.

  • Gemini 3 Pro: 91,9 %.

Rozdíl 0,5 % je statisticky málo významný, což potvrzuje, že v oblasti encyklopedických a expertních znalostí jsou modely OpenAI a Google srovnatelné.

Ekonomická realita: Prémiová inteligence vs. komoditní konkurence

Pohled na ceník odhaluje, že OpenAI s modelem GPT-5.2 zcela opouští snahu o cenovou válku v nejnižším segmentu a sebevědomě se profiluje jako poskytovatel prémiové “expertní” inteligence. Ceny ukazují tak propastný rozdíl mezi standardním a “Pro” řešením, že nemá v historii LLM obdoby.

Zatímco standardní GPT-5.2 stojí $1.75 za milion vstupních a $14.00 za milion výstupních tokenů, varianta GPT-5.2 Pro vystřeluje na astronomických $21.00 za vstup a $168.00 za výstup. Cena za výstup u Pro verze je tedy dvanáctinásobná oproti standardní verzi. OpenAI tím dává jasný signál: verze Pro není určena pro chaty nebo sumarizace, ale pro kritické výpočty v bankovnictví či vědě, kde chyba stojí více než 168 dolarů.

V ostrém kontrastu stojí strategie xAI. Model Grok 4.1 Fast Reasoning (který rovněž disponuje schopností uvažování) je naceněn na $0.20 za vstup a $0.50 za výstup.

Srovnání je neúprosné:

  • Za cenu zpracování 1 milionu tokenů na výstupu u GPT-5.2 Pro ($168) můžete vygenerovat 336 milionů tokenů s modelem Grok 4.1 ($0.50).

  • I standardní GPT-5.2 je na výstupu 28× dražší než Grok.

Model Input Cached input Output
gpt-5.2 / gpt-5.2-chat-latest $1.75 $0.175 $14
gpt-5.2-pro $21 - $168
gpt-5.1 / gpt-5.1-chat-latest $1.25 $0.125 $10
gpt-5-pro $15 - $120

Závěr pro nasazení: Ekonomická logika diktuje jasné rozdělení rolí. Pro objemové úlohy, RAG nad dokumenty a běžnou interakci se GPT-5.2 stává ekonomicky neobhajitelným ve srovnání s Grokem nebo Gemini Flash. Jeho nasazení dává smysl výhradně v kritických případech – tam, kde potřebujete 100% jistotu v AIME testech nebo komplexní reasoning, na který levné modely nestačí.

Silné stránky a vhodné využití

Na základě dat lze definovat hlavní domény modelu:

  1. Kritické logické operace: Díky 100% úspěšnosti v AIME je model vhodný pro úlohy vyžadující absolutní přesnost postupu, kde nelze tolerovat halucinace v mezivýpočtech.

  2. Generalizace: Vysoké skóre v ARC-AGI předurčuje model pro situace, kde je nutné odvodit postup řešení “za chodu” bez předchozích příkladů (few-shot prompting).

  3. Vývoj softwaru: Vedení v SWE-Bench z něj činí preferovanou volbu pro backendové integrace v IDE a CI/CD pipeline.

Slabé stránky a limity

Analýza dat odhaluje i oblasti, kde model nedominuje nebo naráží na limity:

  • Extrémně pokročilá matematika (FrontierMath): Ačkoliv model dominuje v běžných soutěžích, v testu FrontierMath (Tier 4), který představuje dosud neřešené nebo extrémně složité matematické problémy, dosáhl GPT-5.2 skóre 14,6 %, zatímco Gemini 3 Pro dosáhl 18,8 %. To naznačuje, že v oblasti “objevování nové matematiky” má Google stále mírný náskok.

  • Komplexita a cena inference: Přívlastek “Thinking” značí využití metody Chain-of-Thought (CoT). To v praxi znamená vyšší spotřebu tokenů na výstupu a delší latenci (čekání na odpověď) oproti standardním modelům. Pro jednoduché chatboty nebo real-time aplikace může být tento model neefektivní.

  • Znalostní práce (GDPVal): Ačkoliv model vede s 70,9 %, starší GPT-5.1 měl 38,8 %. Skok je výrazný, ale ukazuje, že předchozí verze v této oblasti zaostávaly více, než se předpokládalo.

Závěr

GPT-5.2 Thinking nepředstavuje revoluci v uživatelském rozhraní, ale významnou evoluci. OpenAI se podařilo vyřešit spolehlivost u úloh, kde dříve modely selhávaly (matematika, abstraktní logika). Pro podnikové nasazení a vývojáře jde o nový standard výkonu, nicméně pro specifické vědecké aplikace (FrontierMath) nebo úlohy vyžadující nízkou latenci zůstává konkurence v podobě Gemini 3 Pro nadále více než relevantní alternativou. S ohledem na cenu na běžné použití nejdražší Thinking model vhodný není.

Jak se vám líbí tento článek?

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃

Zkopírováno do schránky!