Anthropic

Anthropic: Claude Opus 4.5

anthropic/claude-opus-4.5
Rozumování Agenti
72 /100
Dobrý
💰
Vstup
$5.0/1M
📤
Výstup
$25.0/1M
📏
Kontext
200000
📝
Max výstup
32000
Vstup: file image text Výstup: text

💪 Silné stránky

Agentní schopnosti Vynikající výkon v benchmarku τ2-Bench (86.3) naznačuje silné schopnosti pro autonomní agenty a nástroje.
Vědecké rozumování Vysoké skóre v GPQA Diamond (81.0) ukazuje na schopnost řešit komplexní vědecké problémy.

⚠️ Slabé stránky

Rychlost Nízké TPS (77.2) a vysoká latence (2.156s) znamenají pomalejší odezvu ve srovnání s konkurencí.
Čeština Chybějící data pro MMMLU znemožňují posoudit kvalitu češtiny.

Hodnocení podle kategorií

🧮
Věda & Matematika
81.0
Výborný
💻
Programování
73.8
Dobrý
🤖
Agenti & Nástroje
86.3
Výborný
🧠
Obecná inteligence
60.4
Dobrý
Rychlost
19.3
Slabý

Expertní hodnocení

🎯
Killer Feature
Vynikající agentní schopnosti a rozumování
Skryté riziko
Vysoká cena a pomalá inference mohou omezit praktické nasazení
Doporučený scénář
Vývoj komplexních agentů pro automatizaci vědeckého výzkumu

Claude Opus 4.5 je špičkový model pro usuzování od společnosti Anthropic, optimalizovaný pro komplexní softwarové inženýrství, agentní pracovní postupy a dlouhodobé používání počítače. Nabízí silné multimodální schopnosti, konkurenceschopný výkon v reálných programovacích a usuzovacích benchmarkách a vylepšenou odolnost vůči prompt injection. Model je navržen tak, aby efektivně fungoval při různých úrovních úsilí, což vývojářům umožňuje volit mezi rychlostí, hloubkou a využitím tokenů v závislosti na požadavcích úkolu. Dodává se s novým parametrem pro řízení efektivity tokenů, který je přístupný pomocí parametru Verbosity OpenRouter s hodnotami low, medium nebo high.

Opus 4.5 podporuje pokročilé používání nástrojů, rozšířenou správu kontextu a koordinované multi-agentní konfigurace, díky čemuž je vhodný pro autonomní výzkum, ladění, vícestupňové plánování a manipulaci s tabulkami/prohlížeči. Poskytuje podstatné zlepšení ve strukturovaném usuzování, spolehlivosti provádění a sladění ve srovnání s předchozími generacemi Opus, přičemž snižuje režii tokenů a zlepšuje výkon u dlouhotrvajících úkolů.

Unikátní charakteristiky

Claude Opus 4.5 vyniká v komplexních úlohách vyžadujících sofistikované rozumování a agentní workflow. Dosahuje vysokých skóre v τ2-Bench (86.3) a GPQA Diamond (81.0), což naznačuje silné schopnosti v oblasti agentů a vědeckého uvažování.

Silné stránky

Agentní schopnosti

Vynikající výkon v benchmarku τ2-Bench (86.3) naznačuje silné schopnosti pro autonomní agenty a nástroje.

Vědecké rozumování

Vysoké skóre v GPQA Diamond (81.0) ukazuje na schopnost řešit komplexní vědecké problémy.

Slabé stránky

Rychlost

Nízké TPS (77.2) a vysoká latence (2.156s) znamenají pomalejší odezvu ve srovnání s konkurencí.

Čeština

Chybějící data pro MMMLU znemožňují posoudit kvalitu češtiny.

Srovnání s konkurencí

Anthropic anthropic/claude-sonnet-4.5
3x levnější vstup, 1.6x levnější výstup

Sonnet 4.5 nabízí větší kontext (1M tokenů) za nižší cenu, ale pravděpodobně nižší výkon v náročných úlohách.

Google google/gemini-3-pro-preview
2.5x levnější vstup, 2x levnější výstup

Gemini 3 Pro Preview nabízí obrovský kontext (1M tokenů) za nižší cenu, ale nemusí dosahovat stejné úrovně rozumování.

OpenAI openai/gpt-5.1
4x levnější vstup, 2.5x levnější výstup

GPT-5.1 nabízí velký kontext (400k tokenů) za nižší cenu, ale je nutné porovnat výkon v specifických úlohách.

X-AI x-ai/grok-4-fast
25x levnější vstup, 50x levnější výstup

Grok-4-fast je výrazně levnější, nabízí obrovský kontext (2M tokenů), ale pravděpodobně nižší kvalitu rozumování a agentních schopností.

Doporučení

Cílová skupina

  • Výzkumníci
  • Vývojáři agentů
  • Softwaroví inženýři

Vhodné pro

  • Autonomní výzkum
  • Ladění kódu
  • Multi-step plánování

Nevhodné pro

  • Úlohy citlivé na latenci
  • Aplikace s omezeným rozpočtem
  • Úlohy vyžadující perfektní češtinu

Verdikt

Claude Opus 4.5 je vhodný pro uživatele, kteří potřebují špičkový model pro náročné úlohy vyžadující rozumování a agentní schopnosti, a jsou ochotni akceptovat vyšší cenu a pomalejší odezvu.