Souhrn
Jazykový model GPT-5.2 dosáhl skóre 75 % na benchmarku ARC AGI2, což je výrazný pokrok oproti předchozímu stavu techniky a překonává průměr lidského výkonu kolem 60 %. Tento úspěch není výsledkem cíleného tréninku na konkrétní úkoly, ale díky novému meta-systému vyvinutému malým týmem v Poetic, který mění způsob, jak AI řeší problémy.
Klíčové body
- GPT-5.2 dosáhl 75 % na ARC AGI2 bez model-specifického tréninku nebo optimalizace.
- Překonal lidský průměr 60 % a předchozí nejlepší AI výkon o 15 procentních bodů.
- Meta-systém Poetic zahrnuje iterativní řešení problémů, dynamický výběr modelů, samo-audit a strukturované uvažování.
- Systém je škálovatelný a adaptabilní pro pokročilé uvažování.
- ARC AGI2 testuje obecnou inteligenci prostřednictvím abstraktního uvažování a kreativního řešení problémů.
Podrobnosti
Benchmark ARC AGI2, navržený François Cholleto, slouží k měření obecné inteligence AI modelů tím, že testuje schopnost abstraktního uvažování, rozpoznávání vzorů a aplikace základních znalostí (core knowledge priors) na úplně nové úkoly. Na rozdíl od standardních benchmarků jako MMLU nebo GSM8K, kde AI modely excelují díky masivnímu tréninku na datech, ARC vyžaduje flexibilitu a kreativitu bez předchozí expozice. Lidé na něm dosahují průměrně 60 %, což odráží intuitivní porozumění geometrii, objekty a kauzalitě.
Poetic, malá výzkumná skupina zaměřená na pokročilé mechanismy uvažování v AI, vyvinula meta-systém, který GPT-5.2 transformuje v efektivnější řešič. Tento systém funguje jako vrstva nad modelem: iterativní řešení problémů umožňuje opakované pokusy s úpravami na základě předchozích chyb, dynamický výběr modelů volí nejlepší podmodel pro daný krok (např. pro vizuální analýzu nebo logiku), samo-audit kontroluje výstupy proti konzistenci a strukturované uvažování vynucuje krok-za-krokem přístup s explikacemi. Vše probíhá bez úprav základního tréninku GPT-5.2, což znamená, že systém lze aplikovat na libovolný LLM.
Tento přístup snižuje závislost na brute-force výpočetní síle – například na tisících GPU – a zaměřuje se na efektivitu. Poetic tvrdí, že meta-systém zlepšuje přesnost i rychlost, což by mohlo umožnit nasazení na méně výkonném hardware. V praxi to znamená, že AI může lépe řešit reálné problémy jako design nových materiálů nebo diagnostiku v medicíně, kde je potřeba abstraktní generalizace.
Proč je to důležité
Tento pokrok signalizuje posun k AGI, kde AI nepouze replikuje vzory z dat, ale adaptivně uvažuje. Překročení lidského průměru na ARC naznačuje potenciál pro superlidské výkony v komplexních úkolech, což ovlivní výzkum v robotice, vědě a ekonomice. Škálovatelnost meta-systému umožní rychlejší iterace v průmyslu – např. OpenAI nebo Google by ho mohly integrovat do svých modelů pro zlepšení agentů. Nicméně jako expert upozorňuji, že ARC je stále úzký benchmark; plná AGI vyžaduje robustnost v širším spektru úkolů včetně dlouhodobého plánování a interakce se světem. Dopady zahrnují nutnost revize bezpečnostních protokolů, protože pokročilé uvažování zvyšuje rizika misuse, a akceleraci investic do AI infra.
Zdroj: 📰 Geeky Gadgets