Openai 05. 08. 2025

OpenAI: gpt-oss-120b

openai/gpt-oss-120b

Rozumování Agenti Obecné účely

74 /100

Dobrý

💰

Vstup

$0.039/1M

📤

Výstup

$0.19/1M

📏

Kontext

131072

📝

Max výstup

N/A

Vstup: text → Výstup: text

💪 Silné stránky

Věda a matematika Vynikající výsledky v testech zaměřených na vědu a matematiku, jako GPQA Diamond (78.2%) a AIME (93.4%), ukazují na silné schopnosti v těchto oblastech.

Programování Vysoké skóre v LiveCodeBench (87.8%) naznačuje dobrou schopnost generovat a rozumět kódu.

⚠️ Slabé stránky

Obecná inteligence Relativně nízké skóre v HLE (18.5%) a průměrné skóre v AI Intelligence Index (60.5%) naznačují slabiny v oblastech vyžadujících komplexní logické uvažování a obecnou inteligenci.

Jazykové schopnosti (čeština) Chybí data pro hodnocení jazykových schopností, zejména v češtině (MMMLU), což omezuje jeho použitelnost v lokálních aplikacích.

Hodnocení podle kategorií

🧮

Věda & Matematika

78.2

Výborný

💻

Programování

87.8

Výborný

🤖

Agenti & Nástroje

65.8

Dobrý

🧠

Obecná inteligence

57.4

Průměrný

⚡

Rychlost

74.0

Dobrý

Expertní hodnocení

🎯

Killer Feature

Vynikající výkon ve vědeckých a matematických úlohách díky vysokému skóre v GPQA Diamond a AIME.

⚡

Skryté riziko

Chybějící data pro češtinu omezují použitelnost v lokálních aplikacích.

✅

Doporučený scénář

Vědecké modelování a simulace, kde je vyžadován vysoký výpočetní výkon a přesnost.

gpt-oss-120b je jazykový model typu Mixture-of-Experts (MoE) s otevřenými váhami a 117 miliardami parametrů od OpenAI, navržený pro produkční případy použití s vysokou úrovní usuzování, agentních schopností a všeobecného určení. Aktivuje 5,1 miliardy parametrů na jeden průchod dopřednou sítí a je optimalizován pro běh na jedné GPU H100 s nativní kvantizací MXFP4. Model podporuje konfigurovatelnou hloubku usuzování, plný přístup k řetězci myšlenek a nativní používání nástrojů, včetně volání funkcí, procházení webu a generování strukturovaného výstupu.

Unikátní charakteristiky

gpt-oss-120b je navržen pro náročné úlohy vyžadující hluboké rozumování a schopnosti agentů. Využívá architekturu MoE, aktivuje pouze 5.1B parametrů na průchod a je optimalizován pro běh na jedné H100 GPU s MXFP4 kvantizací, což z něj činí efektivní volbu pro náročné aplikace.

Silné stránky

Věda a matematika

Vynikající výsledky v testech zaměřených na vědu a matematiku, jako GPQA Diamond (78.2%) a AIME (93.4%), ukazují na silné schopnosti v těchto oblastech.

Programování

Vysoké skóre v LiveCodeBench (87.8%) naznačuje dobrou schopnost generovat a rozumět kódu.

Slabé stránky

Obecná inteligence

Relativně nízké skóre v HLE (18.5%) a průměrné skóre v AI Intelligence Index (60.5%) naznačují slabiny v oblastech vyžadujících komplexní logické uvažování a obecnou inteligenci.

Jazykové schopnosti (čeština)

Chybí data pro hodnocení jazykových schopností, zejména v češtině (MMMLU), což omezuje jeho použitelnost v lokálních aplikacích.

Srovnání s konkurencí

ANTHROPIC anthropic/claude-opus-4.5

Výrazně dražší (62.5x dražší blend cena)

Claude Opus je dražší, ale může nabízet lepší kvalitu v některých oblastech. Konkurenční kontextové okno.

GOOGLE google/gemini-3-pro-preview

Dražší (15x dražší blend cena)

Gemini Pro má menší kontextové okno, ale může mít lepší výkon v některých specifických úlohách.

MISTRALAI mistralai/ministral-14b-2512

Výrazně levnější (4x levnější blend cena)

Mistral 14B je levnější, ale pravděpodobně nabízí nižší výkon v náročnějších úlohách, menší kontextové okno.

DEEPSEEK deepseek/deepseek-v3.2

Levnější (cca 3x levnější blend cena)

Deepseek V3.2 je levnější, ale má menší kontextové okno a pravděpodobně nižší výkon v náročnějších úlohách.

Doporučení

Cílová skupina

Výzkumníci v oblasti AI
Vývojáři agentů
Firmy s vysokými nároky na výpočetní výkon

Vhodné pro

Vědecké modelování
Generování kódu
Náročné úlohy vyžadující hluboké rozumování

Nevhodné pro

Aplikace s nízkým rozpočtem
Úlohy vyžadující silnou podporu češtiny
Aplikace vyžadující extrémně rychlou odezvu

Verdikt

gpt-oss-120b je vhodný pro uživatele, kteří potřebují vysoký výkon v oblasti vědy, matematiky a programování a jsou ochotni investovat do výpočetního výkonu. Pro aplikace vyžadující silnou podporu češtiny je nutné zvážit alternativy.