Mistral: Devstral Small 1.1
mistralai/devstral-small
💪 Silné stránky
⚠️ Slabé stránky
Hodnocení podle kategorií
Expertní hodnocení
Devstral Small 1.1 je 24B parametrový jazykový model s otevřenými váhami pro agenty softwarového inženýrství, vyvinutý společností Mistral AI ve spolupráci s All Hands AI. Je doladěn z Mistral Small 3.1 a uvolněn pod licencí Apache 2.0. Disponuje kontextovým oknem o velikosti 128k tokenů a podporuje jak funkci volání ve stylu Mistral, tak výstupní formáty XML.
Devstral Small 1.1, navržený pro agentní pracovní postupy kódování, je optimalizován pro úkoly, jako je průzkum codebase, úpravy více souborů a integrace do autonomních vývojových agentů, jako jsou OpenHands a Cline. Dosahuje 53,6 % na SWE-Bench Verified, čímž překonává všechny ostatní otevřené modely v tomto benchmarku, a přitom zůstává dostatečně nenáročný, aby běžel na jedné GPU 4090 nebo zařízení Apple Silicon. Model používá Tekken tokenizer se 131k slovníkem a je nasaditelný prostřednictvím vLLM, Transformers, Ollama, LM Studio a dalších běhových prostředí kompatibilních s OpenAI.
Unikátní charakteristiky
Devstral Small 1.1 je optimalizován pro agentní kódovací workflow, dosahuje 53.6% na SWE-Bench Verified. Má kontextové okno 128k tokenů a podporuje Mistral-style function calling a XML výstupní formáty.
Silné stránky
Programování
Vyniká v úlohách spojených s programováním, což dokazuje skóre 53.6% na SWE-Bench Verified.
Dlouhý kontext
Disponuje kontextovým oknem 128k tokenů, což umožňuje zpracovávat rozsáhlé dokumenty a kódové báze.
Slabé stránky
Obecná inteligence
Celkové skóre 35.7/100 naznačuje slabší výkon v obecných úlohách a znalostech.
Čeština
Nedostupnost dat pro češtinu (MMMLU) znemožňuje posoudit jeho schopnosti v tomto jazyce.
Srovnání s konkurencí
Grok-code-fast-1 má větší kontext (256k) a je levnější, ale Devstral Small 1.1 může mít lepší výkon v specifických úlohách agentního kódování.
Ministral-3b-2512 je výrazně levnější, ale Devstral Small 1.1 má pravděpodobně lepší výkon a delší kontext.
Deepseek-v3.2-exp je cenově srovnatelný, ale Devstral Small 1.1 má delší kontext a může být lépe optimalizován pro agentní kódování.
GPT-5.1-chat je výrazně dražší, ale může nabízet lepší obecnou inteligenci a širší škálu schopností. Kontext je stejný.
Doporučení
Cílová skupina
- Vývojáři softwaru
- Výzkumníci v oblasti umělé inteligence
Vhodné pro
- Autonomní vývoj softwaru
- Automatizace kódovacích úloh
Nevhodné pro
- Obecné úkoly vyžadující rozsáhlé znalosti
- Aplikace vyžadující silnou podporu češtiny
Verdikt
Devstral Small 1.1 je vhodný pro vývojáře a výzkumníky, kteří se zaměřují na agentní kódovací workflow a potřebují model optimalizovaný pro automatizaci úloh spojených s programováním. Je třeba zvážit jeho slabší výkon v obecných znalostech a nedostupnost dat pro češtinu.