Souhrn
OpenAI na konci loňského roku vydalo GPT-5.2-Codex, specializovanou verzi modelu GPT-5.2 určenou pro nástroj Codex. Codex je cloudový agent pro vývoj softwaru, který zpracovává úkoly jako psaní funkcí aplikací, odpovídání na otázky o kódu, opravy chyb a tvorbu návrhů na sloučení změn (pull requestů). Použití Codexu vzrostlo více než dvacetinásobně od srpna minulého roku.
Klíčové body
- GPT-5.2-Codex dosahuje stavu umění (SOTA) na benchmarkách SWE-Bench Pro a Terminal Bench 2.0, což měří schopnosti v reálném software engineeringu.
- Zlepšené porozumění dlouhému kontextu, nativní komprese dat a efektivní plánování úkolů s velkým počtem tokenů.
- Lepší výkon v prostředích Windows a s vizuálními vstupy, jako jsou snímky obrazovky nebo diagramy.
- Interně v OpenAI generuje téměř všechen kód a poháněl projekty jako Aardvark, Atlas a aplikaci Sora pro Android.
- Posílené bezpečnostní mechanismy v souladu s pokroky v kyberbezpečnosti.
Podrobnosti
Codex funguje jako cloudový software engineering agent, který spouští každý úkol v samostatném sandboxovém prostředí předem načteném repozitářem vývojáře. To umožňuje paralelní zpracování více úkolů bez rizika kolizí. Například dokáže napsat nové funkce aplikace, analyzovat codebase na otázky, identifikovat a opravit chyby nebo navrhnout pull requesty k lidskému schválení. OpenAI uvádí, že od spuštění GPT-5-Codex v srpnu minulého roku se využití zvýšilo o více než 20násobek. Vnitřně se Codex stal standardním nástrojem: téměř všechny příspěvky kódu pocházejí od vývojářů používajících tento agent a podílel se na nedávných projektech.
Mezi nimi vyniká Aardvark, autonomní bezpečnostní nástroj pro AI, který automaticky hledá a opravuje zranitelnosti v zdrojovém kódu. Prohledává repozitáře, vytváří modely hrozeb, validuje potenciální útoky v sandboxech a navrhuje konkrétní záplaty k revizi člověkem. GPT-5.2-Codex posouvá hranice v dlouhodobých úkolech, kde je klíčová spolehlivost v čase. Nabízí lepší navigaci v obřích repozitářích, refaktoring kódu, správu migrací databází a tvorbu pull requestů. Klíčové vylepšení zahrnují silnější porozumění dlouhému kontextu, nativní kompresi pro efektivitu a tokenově úsporné plánování. Model zvládá Windows prostředí lépe a interpretuje vizuální data, což usnadňuje práci s diagramy nebo screenshoty chyb. Bezpečnostní prvky byly zesíleny, aby odpovídaly rychlým pokrokům v kybernetické obraně.
Proč je to důležité
Tento vývoj urychluje automatizaci software engineeringu, kde lidští vývojáři dosud tráví hodiny rutinními úkoly. Pro průmysl znamená snížení času na vývoj a vyšší kvalitu kódu díky SOTA benchmarkům, které testují reálné scénáře jako SWE-Bench Pro (řešení úkolů z GitHubu) nebo Terminal Bench 2.0 (pracování v terminálu). V širším kontextu posiluje OpenAI svou pozici v AI pro kódování, kde konkuruje nástrojům jako GitHub Copilot. Pro uživatele to otevírá přístup k nástrojům pro složité projekty, ale zároveň zvyšuje závislost na cloudových službách OpenAI a klade důraz na bezpečnost, protože autonomní agenti jako Aardvark mohou ovlivnit kritickou infrastrukturu. Dlouhodobě to může změnit roli programátorů směrem k dohledu nad AI, což vyžaduje nové dovednosti v ovládání těchto agentů.
Zdroj: 📰 ComputerWeekly.com