Anthropic vydává Claude Opus 4.1

Patrick Zandl · 5. srpen 2025

Rychlé shrnutí článku

Claude Opus 4.1 dosahuje 74,5% úspěšnosti na SWE-bench Verified
Opus 4.1 zlepšuje refaktoring kódu napříč více soubory

Anthropic dne 5. srpna 2025 vydal Claude Opus 4.1, vylepšenou verzi svého nejvýkonnějšího modelu. Hlavní zlepšení se týkají především práce s kódem, kde model dosahuje 74,5% úspěšnosti na benchmarku SWE-bench Verified, což představuje nový rekord společnosti v této oblasti.

Podle zpětné vazby od partnerů model výrazně zlepšuje schopnost refaktoringu kódu napříč více soubory. Společnost Rakuten Group uvádí, že Opus 4.1 dokáže přesně identifikovat potřebné opravy v rozsáhlých kódových základnách bez zbytečných úprav nebo zavlečení chyb. Vývojářský tým Rakutenu preferuje tuto přesnost pro každodenní ladění aplikací.

Platforma Windsurf, která poskytuje vývojářské prostředí s integrací umělé inteligence, reportuje zlepšení o “jednu směrodatnou odchylku” oproti Opus 4 na jejich benchmarku pro juniorní vývojáře. Toto zlepšení je tedy podle nich srovnatelné se skokem mezi modely Sonnet 3.7 a Sonnet 4.

Model je dostupný přes API Anthropic s identifikátorem claude-opus-4-1-20250805, stejně jako přes Amazon Bedrock a Google Cloud Vertex A nebo můj oblíbený OpenRouter. Cena zůstává stejná jako u předchozí verze Opus 4. Placení uživatelé Claude.ai a uživatelé Claude Code mají k modelu přístup automaticky.

Benchmarky a metodologie

Opus 4.1 využívá hybridní přístup k uvažování, kdy pro některé úlohy používá rozšířené myšlení s až 64 000 tokeny. Na benchmarku SWE-bench Verified dosahuje uvedených 74,5% bez rozšířeného myšlení, pouze s jednoduchým scaffoldingem obsahujícím bash nástroj a nástroj pro editaci souborů pomocí náhrady řetězců.

Pro benchmark TAU-bench, který testuje schopnosti agentů v reálných scénářích, byl model instruován k lepšímu využití svých schopností uvažování během vícekrokových interakcí. Maximální počet kroků byl zvýšen z 30 na 100, přičemž většina trajektorií se dokončila pod 30 kroky.

Anthropic zároveň aktualizoval své vývojové nástroje, takže nyní můžete používat Claude Code s novými funkcemi. O tom najdete podrobnější informace v sekci Vibecoding na Marigold.cz.

Jak se vám líbí tento článek?

Co je tu dalšího zajímavého ke čtení?

Apple jde do dětského porna

Apple nově představil technologii pro odhalování takzvané CSAM (Child Sexual Abuse Material), tedy dětské pornografie. Technologie má přijít do iOS v některém z …

Kde se vzaly dva miliony voličů Miloše Zemana

Kde se vzaly ty dva miliony lidí, kteří dali hlas Miloši Zemanovi? Otázka v mojí bublině i v médiích, na kterou přicházejí hodně zjednodušené odpovědi. Je to ta …