Art House Melichar Brandýs nad Labem - popup galerie pro toto léto

Anthropic vydává Claude Opus 4.1

💡 Firemní konzultace a workshopy o umělé inteligenci. Jak se vaší firmy dotkne AI a jak se na to připravit?
👉 Poradíme v Prolnuto.cz

Patrick Zandl · 5. srpen 2025

Rychlé shrnutí článku
  • Claude Opus 4.1 dosahuje 74,5% úspěšnosti na SWE-bench Verified
  • Opus 4.1 zlepšuje refaktoring kódu napříč více soubory

Anthropic dne 5. srpna 2025 vydal Claude Opus 4.1, vylepšenou verzi svého nejvýkonnějšího modelu. Hlavní zlepšení se týkají především práce s kódem, kde model dosahuje 74,5% úspěšnosti na benchmarku SWE-bench Verified, což představuje nový rekord společnosti v této oblasti.

Podle zpětné vazby od partnerů model výrazně zlepšuje schopnost refaktoringu kódu napříč více soubory. Společnost Rakuten Group uvádí, že Opus 4.1 dokáže přesně identifikovat potřebné opravy v rozsáhlých kódových základnách bez zbytečných úprav nebo zavlečení chyb. Vývojářský tým Rakutenu preferuje tuto přesnost pro každodenní ladění aplikací.

Platforma Windsurf, která poskytuje vývojářské prostředí s integrací umělé inteligence, reportuje zlepšení o “jednu směrodatnou odchylku” oproti Opus 4 na jejich benchmarku pro juniorní vývojáře. Toto zlepšení je tedy podle nich srovnatelné se skokem mezi modely Sonnet 3.7 a Sonnet 4.

Model je dostupný přes API Anthropic s identifikátorem claude-opus-4-1-20250805, stejně jako přes Amazon Bedrock a Google Cloud Vertex A nebo můj oblíbený OpenRouter. Cena zůstává stejná jako u předchozí verze Opus 4. Placení uživatelé Claude.ai a uživatelé Claude Code mají k modelu přístup automaticky.

Benchmarky a metodologie

Opus 4.1 využívá hybridní přístup k uvažování, kdy pro některé úlohy používá rozšířené myšlení s až 64 000 tokeny. Na benchmarku SWE-bench Verified dosahuje uvedených 74,5% bez rozšířeného myšlení, pouze s jednoduchým scaffoldingem obsahujícím bash nástroj a nástroj pro editaci souborů pomocí náhrady řetězců.

Pro benchmark TAU-bench, který testuje schopnosti agentů v reálných scénářích, byl model instruován k lepšímu využití svých schopností uvažování během vícekrokových interakcí. Maximální počet kroků byl zvýšen z 30 na 100, přičemž většina trajektorií se dokončila pod 30 kroky.

Anthropic zároveň aktualizoval své vývojové nástroje, takže nyní můžete používat Claude Code s novými funkcemi. O tom najdete podrobnější informace v sekci Vibecoding na Marigold.cz.

Jak se vám líbí tento článek?

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃

Zkopírováno do schránky!