Openai 19. 01. 2026

OpenAI: GPT Audio

openai/gpt-audio

Nativní zpracování řeči Hlasová interakce v reálném čase Multimodální generování

💰

Vstup

$2.5/1M

📤

Výstup

$10.0/1M

📏

Kontext

128000

📝

Max výstup

16384

Vstup: text audio → Výstup: text audio

Model gpt-audio je prvním obecně dostupným audio modelem od OpenAI. Nový snapshot obsahuje vylepšený dekodér pro přirozeněji znějící hlasy a zachovává lepší konzistenci hlasu. Cena audia je 32 USD za milion vstupních tokenů a 64 USD za milion výstupních tokenů.

Unikátní charakteristiky

Model gpt-audio představuje první obecně dostupný model OpenAI specializovaný na přímý vstup a výstup audia bez nutnosti externích převodníků (STT/TTS). Vyznačuje se vylepšeným dekodérem pro zachování konzistence hlasu a oddělenou cenovou politikou pro textové a audio tokeny.

Silné stránky

Nativní audio modality

Schopnost zpracovávat audio přímo (audio-in/audio-out) umožňuje zachovat neverbální informace (tón, intonace) a snižuje latenci oproti kaskádovým systémům.

Kvalita syntézy

Nový snapshot modelu obsahuje vylepšený dekodér, který zajišťuje přirozenější projev a vyšší konzistenci hlasu během delších interakcí.

Slabé stránky

Cena audio zpracování

Cena za audio tokeny ($32/$64 za 1M) je řádově vyšší než za textové zpracování, což prodražuje aplikace s vysokým objemem hlasových dat.

Kontextové okno

Kapacita 128,000 tokenů je v prosinci 2025 podprůměrná ve srovnání s konkurencí (Google, X-AI), která běžně nabízí 1M až 2M tokenů.

Srovnání s konkurencí

OpenAI GPT Audio Mini

Textový vstup je cca 4x levnější ($0.60 vs $2.50)

Ekonomičtější varianta pro aplikace, kde není vyžadována maximální nuance v hlasovém projevu nebo komplexní uvažování.

Google Gemini 3 Pro Preview

Mírně levnější vstup ($2.00), dražší výstup ($12.00)

Hlavní konkurent v multimodalitě. Gemini nabízí 8x větší kontextové okno (1M), což je výhodnější pro analýzu dlouhých záznamů.

Anthropic Claude Sonnet 4.5

Dražší textové zpracování ($3.00/$15.00)

Claude dominuje v textovém uvažování a má větší kontext (1M), ale postrádá nativní audio výstup, což vyžaduje externí TTS řešení.

Doporučení

Cílová skupina

Vývojáři hlasových asistentů
Platformy pro výuku jazyků
Zákaznická podpora s důrazem na empatii

Vhodné pro

Konverzační agenti s nízkou latencí
Překlad řeči v reálném čase se zachováním intonace

Nevhodné pro

Analýzu rozsáhlých textových archivů (kvůli kontextu)
Dávkové zpracování audia s nízkým rozpočtem

Verdikt

Ideální volba pro aplikace vyžadující vysoce kvalitní, přirozenou hlasovou interakci, kde vyšší cena za audio tokeny vyvažuje absenci složitého STT/TTS pipeline.