Souhrn
Společnost OpenAI Group PBC spustila GPT-5.2, nejnovější iteraci svého velkého jazykového modelu (LLM). Tento model překonává předchozí verzi a konkurenci v řešení složitých matematických problémů. Dostupný je ve verzích Instant, Thinking a Pro, kde vyšší varianty slibují lepší výkon v benchmarkách.
Klíčové body
- Verze Thinking dosáhla 40,3 % úspěšnosti na benchmarku FrontierMath (úroveň 1-3), což je nový rekord; tento dataset obsahuje univerzitní matematické problémy, které graduate studentům zaberou několik hodin.
- Model získal perfektní skóre na kvalifikační zkoušce Mezinárodní matematické olympiády (IMO).
- Verze Pro přispěla k novému objevu v oblasti statistické teorie učení tím, že vyřešila zjednodušenou verzi otevřeného problému z matematické konference v roce 2019.
- V benchmarku CharXiv Reasoning na interpretaci grafů z vědeckých prací dosáhla verze Thinking 88,7 % úspěšnosti, což je nárůst o více než 8 % oproti GPT-5.1.
- Vizuální schopnosti umožňují analýzu nízkorezoluce obrázků, jako je identifikace součástek na základní desce, business intelligence dashboardů nebo produktových diagramů.
Podrobnosti
GPT-5.2 byl otestován na benchmarku FrontierMath, který zahrnuje problémy na úrovni vysoké školy a postgraduálního studia. Tyto úlohy často vyžadují hodiny ručního řešení od expertů, přičemž verze Thinking vyřešila 40,3 % z nich správně – to představuje nejlepší dosavadní výsledek v oboru. Pro srovnání, předchozí modely jako GPT-5.1 nebo konkurence od Anthropic či Google dosahovaly nižších skóre. Model navíc získal plný počet bodů na kvalifikační zkoušce pro Mezinárodní matematickou olympiádu, což demonstruje schopnost zvládat soutěžní úlohy na světové úrovni.
Nejsilnější verze Pro prokázala praktickou hodnotu tím, že bez lidského vedení vyvinula řešení zjednodušené verze otevřeného problému ze statistické teorie učení, prezentovaného na konferenci v roce 2019. Tento objev mohl urychlit výzkum v oblasti, kde se model naučil aplikovat abstraktní matematické principy samostatně. Dalším zlepšením je porozumění vizuálním datům: v benchmarku CharXiv Reasoning, zaměřeném na grafy a tabulky z vědeckých publikací na platformě arXiv, dosáhla verze Thinking 88,7 % správných interpretací. To znamená, že model nyní lépe chápe kontextové informace v diagramách, což usnadňuje analýzu vědeckých textů.
Vizuální funkce GPT-5.2 rozšiřují aplikace mimo text: v interním testu identifikoval klíčové součástky na nízkorezoluce fotografii základní desky počítače. Model lze použít k analýze business intelligence dashboardů, kde extrahuje data z grafů pro rozhodování, nebo k prohlížení produktových schémat a jiných souborů. Trénink probíhal na grafických procesorech Nvidia Corp., což podtrhuje závislost na hardwaru pro takové modely. Verze Instant je určená pro rychlé odpovědi, Thinking pro hlubší uvažování a Pro pro nejsložitější úlohy, jako je vědecký výzkum.
Proč je to důležité
Tento pokrok posouvá hranice velkých jazykových modelů směrem k lepšímu řešení matematiky, což je klíčový milník na cestě k AGI. Pro výzkumníky znamená rychlejší validaci hypotéz a objevy v oborech jako statistické učení, kde lidé dosud tráví týdny. V průmyslu umožní automatizaci analýzy dat z grafů v papírech nebo dashboardech, což zefektivní práce v datové vědě a business intelligence. Oproti GPT-5.1 je zlepšení kvantitativní, ale zůstává otázka škálovatelnosti na reálné, neotestované problémy. V širším kontextu to zesiluje dominanci OpenAI v AI ekosystému, kde konkurence jako Claude nebo Gemini bude muset reagovat podobnými upgrady.
Zdroj: 📰 SiliconANGLE News