Openai

OpenAI: gpt-oss-120b

openai/gpt-oss-120b
Rozumování Agenti Obecné účely
74 /100
Dobrý
💰
Vstup
$0.039/1M
📤
Výstup
$0.19/1M
📏
Kontext
131072
📝
Max výstup
N/A
Vstup: text Výstup: text

💪 Silné stránky

Věda a matematika Vynikající výsledky v testech zaměřených na vědu a matematiku, jako GPQA Diamond (78.2%) a AIME (93.4%), ukazují na silné schopnosti v těchto oblastech.
Programování Vysoké skóre v LiveCodeBench (87.8%) naznačuje dobrou schopnost generovat a rozumět kódu.

⚠️ Slabé stránky

Obecná inteligence Relativně nízké skóre v HLE (18.5%) a průměrné skóre v AI Intelligence Index (60.5%) naznačují slabiny v oblastech vyžadujících komplexní logické uvažování a obecnou inteligenci.
Jazykové schopnosti (čeština) Chybí data pro hodnocení jazykových schopností, zejména v češtině (MMMLU), což omezuje jeho použitelnost v lokálních aplikacích.

Hodnocení podle kategorií

🧮
Věda & Matematika
78.2
Výborný
💻
Programování
87.8
Výborný
🤖
Agenti & Nástroje
65.8
Dobrý
🧠
Obecná inteligence
57.4
Průměrný
Rychlost
74.0
Dobrý

Expertní hodnocení

🎯
Killer Feature
Vynikající výkon ve vědeckých a matematických úlohách díky vysokému skóre v GPQA Diamond a AIME.
Skryté riziko
Chybějící data pro češtinu omezují použitelnost v lokálních aplikacích.
Doporučený scénář
Vědecké modelování a simulace, kde je vyžadován vysoký výpočetní výkon a přesnost.

gpt-oss-120b je jazykový model typu Mixture-of-Experts (MoE) s otevřenými váhami a 117 miliardami parametrů od OpenAI, navržený pro produkční případy použití s vysokou úrovní usuzování, agentních schopností a všeobecného určení. Aktivuje 5,1 miliardy parametrů na jeden průchod dopřednou sítí a je optimalizován pro běh na jedné GPU H100 s nativní kvantizací MXFP4. Model podporuje konfigurovatelnou hloubku usuzování, plný přístup k řetězci myšlenek a nativní používání nástrojů, včetně volání funkcí, procházení webu a generování strukturovaného výstupu.

Unikátní charakteristiky

gpt-oss-120b je navržen pro náročné úlohy vyžadující hluboké rozumování a schopnosti agentů. Využívá architekturu MoE, aktivuje pouze 5.1B parametrů na průchod a je optimalizován pro běh na jedné H100 GPU s MXFP4 kvantizací, což z něj činí efektivní volbu pro náročné aplikace.

Silné stránky

Věda a matematika

Vynikající výsledky v testech zaměřených na vědu a matematiku, jako GPQA Diamond (78.2%) a AIME (93.4%), ukazují na silné schopnosti v těchto oblastech.

Programování

Vysoké skóre v LiveCodeBench (87.8%) naznačuje dobrou schopnost generovat a rozumět kódu.

Slabé stránky

Obecná inteligence

Relativně nízké skóre v HLE (18.5%) a průměrné skóre v AI Intelligence Index (60.5%) naznačují slabiny v oblastech vyžadujících komplexní logické uvažování a obecnou inteligenci.

Jazykové schopnosti (čeština)

Chybí data pro hodnocení jazykových schopností, zejména v češtině (MMMLU), což omezuje jeho použitelnost v lokálních aplikacích.

Srovnání s konkurencí

ANTHROPIC anthropic/claude-opus-4.5
Výrazně dražší (62.5x dražší blend cena)

Claude Opus je dražší, ale může nabízet lepší kvalitu v některých oblastech. Konkurenční kontextové okno.

GOOGLE google/gemini-3-pro-preview
Dražší (15x dražší blend cena)

Gemini Pro má menší kontextové okno, ale může mít lepší výkon v některých specifických úlohách.

MISTRALAI mistralai/ministral-14b-2512
Výrazně levnější (4x levnější blend cena)

Mistral 14B je levnější, ale pravděpodobně nabízí nižší výkon v náročnějších úlohách, menší kontextové okno.

DEEPSEEK deepseek/deepseek-v3.2
Levnější (cca 3x levnější blend cena)

Deepseek V3.2 je levnější, ale má menší kontextové okno a pravděpodobně nižší výkon v náročnějších úlohách.

Doporučení

Cílová skupina

  • Výzkumníci v oblasti AI
  • Vývojáři agentů
  • Firmy s vysokými nároky na výpočetní výkon

Vhodné pro

  • Vědecké modelování
  • Generování kódu
  • Náročné úlohy vyžadující hluboké rozumování

Nevhodné pro

  • Aplikace s nízkým rozpočtem
  • Úlohy vyžadující silnou podporu češtiny
  • Aplikace vyžadující extrémně rychlou odezvu

Verdikt

gpt-oss-120b je vhodný pro uživatele, kteří potřebují vysoký výkon v oblasti vědy, matematiky a programování a jsou ochotni investovat do výpočetního výkonu. Pro aplikace vyžadující silnou podporu češtiny je nutné zvážit alternativy.