Openai

OpenAI: o3 Mini High

openai/o3-mini-high
STEM reasoning Matematika Věda Kódování
60 /100
Průměrný
💰
Vstup
$1.1/1M
📤
Výstup
$4.4/1M
📏
Kontext
200000
📝
Max výstup
100000
Vstup: text file Výstup: text

💪 Silné stránky

Matematika Vynikající výsledky v matematických úlohách, dosahuje 98.5% v MATH-500 a 86.0% v AIME 2025.
Věda Silný výkon ve vědeckých úlohách, s GPQA Diamond skóre 77.3%.

⚠️ Slabé stránky

Rychlost Nízká rychlost zpracování, TPS 142.4 a TTFT 59.851s, což omezuje použití v aplikacích vyžadujících rychlou odezvu.
Agentické schopnosti Slabé výsledky v agentických úlohách, τ2-Bench skóre pouze 31.3%.

Hodnocení podle kategorií

🧮
Věda & Matematika
85.0
Výborný
💻
Programování
73.4
Dobrý
🤖
Agenti & Nástroje
31.3
Slabý
🧠
Obecná inteligence
54.7
Průměrný
Rychlost
35.6
Slabý

Expertní hodnocení

🎯
Killer Feature
Vynikající matematické schopnosti
Skryté riziko
Pomalá inference může být limitující pro interaktivní aplikace
Doporučený scénář
Řešení složitých matematických úloh a vědeckých výpočtů, kde je přesnost důležitější než rychlost.

OpenAI o3-mini-high je stejný model jako o3-mini s nastaveným parametrem reasoning_effort na hodnotu high (vysoká).

o3-mini je nákladově efektivní jazykový model optimalizovaný pro úlohy STEM usuzování, obzvláště vyniká ve vědě, matematice a kódování. Model nabízí tři nastavitelné úrovně úsilí usuzování (reasoning effort) a podporuje klíčové vývojářské funkce, včetně volání funkcí (function calling), strukturovaných výstupů a streamování, nicméně nezahrnuje schopnosti zpracování obrazu (vision processing capabilities).

Model vykazuje významné zlepšení oproti svému předchůdci, přičemž odborní testeři preferovali jeho odpovědi v 56 % případů a zaznamenali 39% snížení závažných chyb u složitých otázek. S nastavením středního úsilí usuzování (medium reasoning effort), o3-mini dosahuje výkonu většího modelu o1 v náročných hodnoceních usuzování, jako jsou AIME a GPQA, při zachování nižší latence a nákladů.

Unikátní charakteristiky

OpenAI o3-mini-high je optimalizovaný pro STEM úlohy, exceluje ve vědě, matematice a kódování. Nabízí nastavitelné úrovně úsilí při odvozování a podporuje function calling a strukturované výstupy. Dosahuje lepších výsledků než jeho předchůdce s menším počtem chyb.

Silné stránky

Matematika

Vynikající výsledky v matematických úlohách, dosahuje 98.5% v MATH-500 a 86.0% v AIME 2025.

Věda

Silný výkon ve vědeckých úlohách, s GPQA Diamond skóre 77.3%.

Slabé stránky

Rychlost

Nízká rychlost zpracování, TPS 142.4 a TTFT 59.851s, což omezuje použití v aplikacích vyžadujících rychlou odezvu.

Agentické schopnosti

Slabé výsledky v agentických úlohách, τ2-Bench skóre pouze 31.3%.

Srovnání s konkurencí

ANTHROPIC anthropic/claude-haiku-4.5
Poloviční cena vstupu, podobný výstup

Claude Haiku je levnější, ale pravděpodobně méně výkonný v matematice a vědě. Nemáme data pro přímé srovnání.

GOOGLE google/gemini-2.5-flash-image
4x levnější vstup, poloviční cena výstupu

Gemini Flash je výrazně levnější, ale má menší kontext a pravděpodobně nižší výkon v náročných úlohách.

MISTRALAI mistralai/ministral-14b-2512
9x levnější vstup i výstup

Ministral-14b je mnohem levnější, ale nemusí dosahovat stejné přesnosti ve specializovaných STEM úlohách. Nemáme data pro přímé srovnání.

DEEPSEEK deepseek/deepseek-v3.2
7x levnější vstup, 11x levnější výstup

Deepseek-v3.2 je výrazně levnější, ale má menší kontext a pravděpodobně nižší výkon v náročných úlohách.

Doporučení

Cílová skupina

  • Výzkumníci
  • Studenti
  • Vývojáři STEM aplikací

Vhodné pro

  • Řešení matematických problémů
  • Vědecké modelování
  • Generování kódu pro vědecké výpočty

Nevhodné pro

  • Aplikace vyžadující rychlou odezvu
  • Agentické úlohy
  • Zpracování v češtině (chybí data)

Verdikt

OpenAI o3-mini-high je vhodný pro uživatele, kteří potřebují vysokou přesnost v matematických a vědeckých úlohách a jsou ochotni akceptovat pomalejší rychlost zpracování. Není vhodný pro aplikace vyžadující rychlou odezvu nebo agentické schopnosti.