ChatGPT 5 překonal lidské skóre na benchmarku ARC AGI 2 díky vrstvě správcovské vrstvy bez omezení

Souhrn

ChatGPT 5 od OpenAI dosáhl skóre 75 % na benchmarku ARC AGI 2, což překonává průměr lidských testerů na úrovni 60 %. Tento test, navržený pro měření abstraktního uvažování a generalizace na nové problémy, ukazuje pokrok v schopnostech velkých jazykových modelů řešit úkoly mimo svá tréninková data. Klíčovým prvkem je správcovská vrstva, která odstraňuje umělá omezení modelu a koordinuje složité procesy.

Klíčové body

Skóre 75 % na ARC AGI 2 překonává lidský průměr 60 % a demonstruje pokročilé abstraktní uvažování.
Technika „unhobbling“ odstraňuje umělá omezení modelu, jako jsou předem dané struktury myšlení.
Správcovská vrstva funguje jako meta-systém, který rozděluje problémy na kroky, monitoruje pokrok a adaptuje strategie.
Použití řetězového uvažování (chain-of-thought prompting) a strukturovaných rámců zlepšuje generalizaci.
Benchmark ARC AGI 2 testuje kompozici myšlení, rozpoznávání vzorů v neznámých kontextech a adaptabilitu.

Podrobnosti

Benchmark ARC AGI 2, vytvořený Françoisem Cholleto, je náročný test navržený specificky pro hodnocení pokroku směrem k AGI. Na rozdíl od běžných benchmarků jako GLUE nebo MMLU, které se zaměřují na znalosti z tréninkových dat, ARC AGI 2 předkládá gridové úlohy s barevnými bloky, kde model musí odvodit pravidla z mála příkladů a aplikovat je na nové instance. Lidé dosahují průměrně 60 %, protože úlohy vyžadují intuitivní generalizaci, ne pouhý pattern matching. ChatGPT 5 tento práh překonal díky kombinaci pokročilého tréninku a inženýrských triků.

Hlavní inovací je „unhobbling“, což znamená odstranění umělých omezení, která brání modelu v plném využití svých schopností. Například standardní modely jsou omezeny fixními tokenovými limity nebo předem definovanými šablonami výstupu. Zde se aplikuje řetězové uvažování, kde model generuje krok za krokem myšlenky, což umožňuje hlubší analýzu. Klíčový je však meta-systém nazvaný správcovská vrstva (manager layer). Tato vrstva funguje jako nadřazený koordinátor: analyzuje úkol, rozděluje ho na submóduly, přiřazuje je různým částem modelu, monitoruje výstupy a iteruje, pokud dojde k chybě. Například při řešení ARC úlohy vrstva nejdříve identifikuje typ vzoru (rotace, symetrie, kompozice), pak spustí specializované podprocesy a sloučí výsledky.

Tento přístup umožňuje modelu adaptovat se na neznámé výzvy, což bylo dříve považováno za doménu lidské intuice. OpenAI tak ukazuje, jak lze velké jazykové modely – trénované primárně na textu – přizpůsobit pro vizuálně-prostorové úlohy prostřednictvím promptingu a strukturovaných rámců. Správcovská vrstva navíc umožňuje sebe-monitorování, kde model hodnotí svou vlastní přesnost a upravuje parametry v reálném čase. V praxi to znamená, že ChatGPT 5 lze použít nejen pro textové úkoly, ale i pro programování, datovou analýzu nebo design, kde je potřeba generalizace.

Proč je to důležité

Tento průlom posouvá hranice toho, co považujeme za „lidské“ v AI. ARC AGI 2 byl dlouho symbolem bariéry pro AGI, takže 75 % skóre signalizuje, že velké modely s meta-vrstvami se blíží k robustní generalizaci. Pro průmysl to otevírá dveře k autonomním systémům v robotice, medicíně nebo výzkumu, kde AI musí řešit nepředvídatelné problémy. Nicméně zůstávají otázky: je to skutečná intuice, nebo jen sofistikovaný pattern matching s lepším scaffoldingem? Navíc vyžaduje výpočetní zdroje na úrovni stovek GPU, což omezuje přístupnost. V širším kontextu urychluje to soutěž mezi OpenAI, Anthropic a Google, kde podobné techniky jako o1-preview ukazují trend k agentickým systémům. Dlouhodobě to může vést k AI, které překonává člověka v kreativních doménách, ale zároveň zvyšuje potřebu bezpečnostních mechanismů proti chybám v kritických aplikacích.

Číst původní článek

Zdroj: 📰 Geeky Gadgets