OpenAI: gpt-oss-120b
openai/gpt-oss-120b
💪 Silné stránky
⚠️ Slabé stránky
Hodnocení podle kategorií
Expertní hodnocení
gpt-oss-120b je jazykový model typu Mixture-of-Experts (MoE) s otevřenými váhami a 117 miliardami parametrů od OpenAI, navržený pro produkční případy použití s vysokou úrovní usuzování, agentních schopností a všeobecného určení. Aktivuje 5,1 miliardy parametrů na jeden průchod dopřednou sítí a je optimalizován pro běh na jedné GPU H100 s nativní kvantizací MXFP4. Model podporuje konfigurovatelnou hloubku usuzování, plný přístup k řetězci myšlenek a nativní používání nástrojů, včetně volání funkcí, procházení webu a generování strukturovaného výstupu.
Unikátní charakteristiky
gpt-oss-120b je navržen pro náročné úlohy vyžadující hluboké rozumování a schopnosti agentů. Využívá architekturu MoE, aktivuje pouze 5.1B parametrů na průchod a je optimalizován pro běh na jedné H100 GPU s MXFP4 kvantizací, což z něj činí efektivní volbu pro náročné aplikace.
Silné stránky
Věda a matematika
Vynikající výsledky v testech zaměřených na vědu a matematiku, jako GPQA Diamond (78.2%) a AIME (93.4%), ukazují na silné schopnosti v těchto oblastech.
Programování
Vysoké skóre v LiveCodeBench (87.8%) naznačuje dobrou schopnost generovat a rozumět kódu.
Slabé stránky
Obecná inteligence
Relativně nízké skóre v HLE (18.5%) a průměrné skóre v AI Intelligence Index (60.5%) naznačují slabiny v oblastech vyžadujících komplexní logické uvažování a obecnou inteligenci.
Jazykové schopnosti (čeština)
Chybí data pro hodnocení jazykových schopností, zejména v češtině (MMMLU), což omezuje jeho použitelnost v lokálních aplikacích.
Srovnání s konkurencí
Claude Opus je dražší, ale může nabízet lepší kvalitu v některých oblastech. Konkurenční kontextové okno.
Gemini Pro má menší kontextové okno, ale může mít lepší výkon v některých specifických úlohách.
Mistral 14B je levnější, ale pravděpodobně nabízí nižší výkon v náročnějších úlohách, menší kontextové okno.
Deepseek V3.2 je levnější, ale má menší kontextové okno a pravděpodobně nižší výkon v náročnějších úlohách.
Doporučení
Cílová skupina
- Výzkumníci v oblasti AI
- Vývojáři agentů
- Firmy s vysokými nároky na výpočetní výkon
Vhodné pro
- Vědecké modelování
- Generování kódu
- Náročné úlohy vyžadující hluboké rozumování
Nevhodné pro
- Aplikace s nízkým rozpočtem
- Úlohy vyžadující silnou podporu češtiny
- Aplikace vyžadující extrémně rychlou odezvu
Verdikt
gpt-oss-120b je vhodný pro uživatele, kteří potřebují vysoký výkon v oblasti vědy, matematiky a programování a jsou ochotni investovat do výpočetního výkonu. Pro aplikace vyžadující silnou podporu češtiny je nutné zvážit alternativy.