Souhrn
Google představil model Gemini 3.1 Pro, Transformer založený na architektuře mixture of experts (MoE), který aktivuje pouze část parametrů při generování odpovědí. Tento model překonává konkurenty jako Claude 4.6 Opus od Anthropic a GPT-5.2 od OpenAI v benchmarkách zaměřených na uvažování. Je integrován do široké škály produktů Google a zpracovává vstupy až 1 milion tokenů včetně videa.
Klíčové body
- Dosáhl skóre 77,1 % na benchmarku ARC-AGI-2, což je o 24 % lepší než GPT-5.2 a o téměř 9 % lepší než Claude 4.6 Opus.
- Podporuje vstupy až 1 milion tokenů (text i multimodální data jako video) a výstupy až 64 000 tokenů.
- Rekordy v benchmarkách MCP Atlas (používání třetích služeb), Terminal-Bench 2.0 (kódování) a SciCode (vědecké programování, o 7 % lepší než Claude 4.6 Opus).
- Architektura MoE zvyšuje efektivitu tím, že aktivuje jen potřebné parametry.
- Testován v hardwarově náročném režimu pro optimalizaci uvažování.
Podrobnosti
Model Gemini 3.1 Pro staví na Transformer architektuře s mixture of experts, kde se při zpracování požadavku aktivují pouze vybrané expertní moduly. To umožňuje efektivnější využití výpočetních zdrojů oproti plně aktivním modelům. Uživatelé mohou zadávat požadavky s daty v objemu až 1 milionu tokenů, což zahrnuje nejen text, ale i multimodální soubory jako videa. Výstupy dosahují maximálně 64 000 tokenů, což je dostatečné pro složité analýzy.
Klíčovým benchmarkem pro posouzení uvažovacích schopností byl ARC-AGI-2, který obsahuje vizuální hádanky s tvary sledujícími skrytý vzor. Model musí vzor odhalit a vygenerovat nový tvar. Gemini 3.1 Pro dosáhl 77,1 %, což ho staví výrazně nad GPT-5.2 (53,1 %) a Claude 4.6 Opus (68,1 %). Všechny modely byly testovány v režimu s intenzivním hardwarem, který zlepšuje uvažování.
Další úspěchy zahrnují rekordy v MCP Atlas, kde model ovládá úlohy s třetími službami, jako je načítání dat z externích API. V Terminal-Bench 2.0 a SciCode prokázal nadřazenost v kódování, včetně vědeckých úkolů. Demo ukazuje generování HTML dashboardu pro orbitu Země s polohou Mezinárodní vesmírné stanice (ISS) z dat třetí strany. Další příklad zahrnuje tvorbu webové aplikace na základě popisu.
Model je dostupný v produktech jako Google Search, Workspace nebo Vertex AI, což usnadňuje integraci do každodenních nástrojů. Pro vývojáře slouží k automatizaci složitých úkolů, jako je analýza dat nebo generování kódu.
Proč je to důležité
Tento pokrok v uvažování posouvá hranice velkých jazykových modelů (LLM) směrem k AGI, kde modely nejen replikují znalosti, ale skutečně odvozují nové vzory. Skóre 77,1 % na ARC-AGI-2 signalizuje průlom, protože tento benchmark odolává většině současných LLM. Pro průmysl znamená lepší automatizaci v oblastech jako vědecký výzkum, kódování nebo simulace, kde selhávají starší modely.
Google tak posiluje dominanci v AI ekosystému, kde Gemini 3.1 Pro překonává OpenAI i Anthropic. Pro uživatele to znamená přístupnější nástroje pro složité úlohy přímo v prohlížeči nebo aplikacích. Nicméně závislost na hardwarovém boostu zvyšuje náklady na provoz, což může omezit široké nasazení bez optimalizací. V širším kontextu urychluje soutěž v AI, kde se očekávají rychlé iterace od konkurentů.
Zdroj: 📰 SiliconANGLE News