Anthropic dne 5. srpna 2025 vydal Claude Opus 4.1, vylepšenou verzi svého nejvýkonnějšího modelu. Hlavní zlepšení se týkají především práce s kódem, kde model dosahuje 74,5% úspěšnosti na benchmarku SWE-bench Verified, což představuje nový rekord společnosti v této oblasti.
Podle zpětné vazby od partnerů model výrazně zlepšuje schopnost refaktoringu kódu napříč více soubory. Společnost Rakuten Group uvádí, že Opus 4.1 dokáže přesně identifikovat potřebné opravy v rozsáhlých kódových základnách bez zbytečných úprav nebo zavlečení chyb. Vývojářský tým Rakutenu preferuje tuto přesnost pro každodenní ladění aplikací.
Platforma Windsurf, která poskytuje vývojářské prostředí s integrací umělé inteligence, reportuje zlepšení o “jednu směrodatnou odchylku” oproti Opus 4 na jejich benchmarku pro juniorní vývojáře. Toto zlepšení je tedy podle nich srovnatelné se skokem mezi modely Sonnet 3.7 a Sonnet 4.
Model je dostupný přes API Anthropic s identifikátorem claude-opus-4-1-20250805
, stejně jako přes Amazon Bedrock a Google Cloud Vertex A nebo můj oblíbený OpenRouter. Cena zůstává stejná jako u předchozí verze Opus 4. Placení uživatelé Claude.ai a uživatelé Claude Code mají k modelu přístup automaticky.
Benchmarky a metodologie
Opus 4.1 využívá hybridní přístup k uvažování, kdy pro některé úlohy používá rozšířené myšlení s až 64 000 tokeny. Na benchmarku SWE-bench Verified dosahuje uvedených 74,5% bez rozšířeného myšlení, pouze s jednoduchým scaffoldingem obsahujícím bash nástroj a nástroj pro editaci souborů pomocí náhrady řetězců.
Pro benchmark TAU-bench, který testuje schopnosti agentů v reálných scénářích, byl model instruován k lepšímu využití svých schopností uvažování během vícekrokových interakcí. Maximální počet kroků byl zvýšen z 30 na 100, přičemž většina trajektorií se dokončila pod 30 kroky.
Anthropic zároveň aktualizoval své vývojové nástroje, takže nyní můžete používat Claude Code s novými funkcemi. O tom najdete podrobnější informace v sekci Vibecoding na Marigold.cz.