Meta

Meta: Llama 4 Scout

meta-llama/llama-4-scout
Multimodální asistent Vizuální uvažování
38 /100
Slabý
💰
Vstup
$0.08/1M
📤
Výstup
$0.3/1M
📏
Kontext
327680
📝
Max výstup
16384
Vstup: text image Výstup: text

💪 Silné stránky

Kontext Velký kontext 327 680 tokenů umožňuje zpracování rozsáhlých dokumentů a komplexních úloh.
Multimodalita Podporuje nativní multimodální vstup (text a obraz), což rozšiřuje možnosti využití.

⚠️ Slabé stránky

Programování S nízkým skóre 29.9 na LiveCodeBench je model slabý v programovacích úlohách.
Čeština Data pro češtinu nejsou k dispozici, což omezuje jeho použitelnost v českém prostředí.

Hodnocení podle kategorií

🧮
Věda & Matematika
51.7
Průměrný
💻
Programování
29.9
Slabý
🤖
Agenti & Nástroje
15.5
Slabý
🧠
Obecná inteligence
48.6
Průměrný
Rychlost
55.0
Průměrný

Expertní hodnocení

🎯
Killer Feature
Nativní multimodalita s velkým kontextem
Skryté riziko
Slabé výsledky v programování a neznámá výkonnost v češtině
Doporučený scénář
Analýza obrazových dat s textovým kontextem, například pro automatické generování popisků.

Llama 4 Scout 17B Instruct (16E) je jazykový model typu mixture-of-experts (MoE) vyvinutý společností Meta, který aktivuje 17 miliard parametrů z celkového počtu 109 miliard. Podporuje nativní multimodální vstup (text a obrázek) a multijazyčný výstup (text a kód) ve 12 podporovaných jazycích. Scout, navržený pro interakci ve stylu asistenta a vizuální usuzování, používá 16 expertů na jeden forward pass a disponuje kontextovou délkou 10 milionů tokenů, s trénovacím korpusem o velikosti ~40 bilionů tokenů.

Llama 4 Scout, vytvořený pro vysokou efektivitu a lokální nebo komerční nasazení, zahrnuje early fusion pro bezproblémovou integraci modalit. Je instruction-tuned pro použití v multijazyčném chatu, vytváření titulků a úlohách porozumění obrázkům. Byl vydán pod licencí Llama 4 Community License, naposledy trénován na datech do srpna 2024 a veřejně spuštěn 5. dubna 2025.

Unikátní charakteristiky

Llama 4 Scout je navržen pro vysokou efektivitu a lokální nasazení, integruje multimodální vstupy pomocí early fusion a je optimalizován pro interakci ve stylu asistenta. Využívá 16 expertů na průchod a má kontextovou délku 327 680 tokenů.

Silné stránky

Kontext

Velký kontext 327 680 tokenů umožňuje zpracování rozsáhlých dokumentů a komplexních úloh.

Multimodalita

Podporuje nativní multimodální vstup (text a obraz), což rozšiřuje možnosti využití.

Slabé stránky

Programování

S nízkým skóre 29.9 na LiveCodeBench je model slabý v programovacích úlohách.

Čeština

Data pro češtinu nejsou k dispozici, což omezuje jeho použitelnost v českém prostředí.

Srovnání s konkurencí

ANTHROPIC anthropic/claude-sonnet-4.5
21x dražší vstup, 50x dražší výstup

Claude Sonnet 4.5 má větší kontext (1M tokenů) a pravděpodobně lepší schopnosti, ale je výrazně dražší.

GOOGLE google/gemini-3-pro-image-preview
14x dražší vstup, 40x dražší výstup

Gemini 3 Pro Image Preview nabízí multimodální schopnosti, ale s menším kontextem a vyšší cenou.

X-AI x-ai/grok-4.1-fast
1.4x dražší vstup, 1.6x dražší výstup

Grok-4.1-fast má větší kontext (2M tokenů) a je rychlejší, ale nemusí mít tak dobré multimodální schopnosti.

MISTRALAI mistralai/ministral-14b-2512
1.4x dražší vstup, 0.6x levnější výstup

Ministral-14b-2512 je levnější na výstup, ale má menší kontext a chybí mu multimodalita.

Doporučení

Cílová skupina

  • Výzkumníci v oblasti AI
  • Firmy hledající efektivní multimodální řešení

Vhodné pro

  • Zpracování obrazových dat s textovým popisem
  • Asistent pro vizuální uvažování

Nevhodné pro

  • Úkoly vyžadující pokročilé programování
  • Aplikace vyžadující nativní podporu češtiny

Verdikt

Llama 4 Scout je vhodný pro uživatele, kteří potřebují efektivní multimodální model s velkým kontextem, ale nemají vysoké nároky na programování nebo češtinu.