XAI vydává Grok 4.1 a model vede žebříček LMArena

Souhrn

Společnost XAI vydala model Grok 4.1, který aktuálně vede žebříček LMArena – nezávislé platformy pro srovnávání velkých jazykových modelů (LLM). Nová verze výrazně snižuje halucinace a zároveň zlepšuje výkonnost v kreativním psaní i běžné komunikaci. Model je již dostupný všem uživatelům zdarma prostřednictvím webu grok.com, aplikace X (dříve Twitter) a mobilních aplikací.

Klíčové body

Grok 4.1 (Thinking) vede žebříček LMArena s aktuálním skóre 1483.
Halucinace klesly z 12 % na cca 4 %.
Model je k dispozici ve třech variantách: s krokovaným uvažováním, bez něj a ve verzi s integrovaným vyhledáváním.
V interních testech byl upřednostňován v 64,78 % případů oproti starším verzím.
XAI plánuje vydání Grok 5 s dvojnásobným počtem parametrů v prvním čtvrtletí 2026.

Podrobnosti

Grok 4.1 přichází ve třech variantách. Nejvýkonnější, označená jako „Thinking“ (kódové jméno quasarflux), používá tzv. thinking tokeny – interní kroky uvažování, které umožňují modelu postupovat logicky při generování odpovědi. Druhá varianta (tensor) poskytuje přímé odpovědi bez mezikroků a je vhodná pro rychlé dotazy. Třetí verze, Grok 4.1 Fast, integruje vyhledávací nástroje pro ověřené faktické odpovědi. Model byl v období 1.–14. listopadu 2025 tichou aktualizací nasazen u podmnožiny uživatelů a v A/B testech získal výraznou preferenci. Výkon v kreativním psaní je aktuálně nejlepší mezi všemi veřejně dostupnými modely, i když OpenAI má v testovací fázi GPT 5.1, který by mohl být lehce lepší. Google plánuje v blízké době vydání Gemini 3.

Proč je to důležité

Grok 4.1 představuje významný krok v konkurenci mezi velkými LLM. Snížení halucinací na čtvrtinu původní míry zvyšuje důvěryhodnost modelu pro praktické aplikace – od asistence při psaní po podporu rozhodování. Skutečnost, že je model zdarma dostupný i bezplatným uživatelům, může ovlivnit tržní dynamiku, zejména vůči placeným službám jako Claude nebo GPT Plus. XAI tím posiluje svou pozici v rychle se vyvíjejícím AI sektoru a připravuje půdu pro další skok – Grok 5 s dvojnásobnou kapacitou, který by mohl přiblížit modely k úrovni AGI.

Číst původní článek

Zdroj: 📰 Next Big Future