Reportáž: OpenAI plánuje spustit nový audio model v prvním čtvrtletí

Souhrn

OpenAI Group PBC podle informací z The Information vyvíjí nový model umělé inteligence zaměřený na generování audia. Spuštění je očekáváno do konce března, tedy v prvním čtvrtletí roku 2026. Novinka má přinést vylepšenou přirozenost řeči a lepší podporu pro obousměrné interakce v reálném čase.

Klíčové body

Model bude postaven na nové architektuře, odlišné od současného GPT-realtime založeného na transformeru.
Očekává se vyšší kvalita výstupu oproti stávajícím modelům, včetně lepšího zpracování spektrogramů nebo přímého audia.
Projekt vede Kundan Kumar, bývalý výzkumník z Character.AI, firmy zaměřené na konverzační AI postavy.
OpenAI spojilo týmy z inženýrství, produktového vývoje a výzkumu pro podporu tohoto projektu.
Možné více verzí modelu s různou kvalitou výstupu, podobně jako u Whisperu.

Podrobnosti

OpenAI aktuálně disponuje modelem GPT-realtime, který slouží k generování řeči v reálném čase a je založen na architektuře transformer. Tato architektura je standardem v mnoha jazykových modelech, ale pro audio úlohy často vyžaduje předzpracování vstupů, například převod audia na spektrogramy – grafy znázorňující frekvenční složky signálu. Model Whisper, vydaný OpenAI v roce 2022, funguje právě takto: převádí audio na spektrogramy pro transkripci řeči do textu a je dostupný v několika edicích s různou přesností. Nový model by mohl tento přístup vylepšit nebo zcela změnit, přičemž není jasné, zda půjde o úplně nový design algoritmu, nebo jen o optimalizovanou variantu transformera.

Projekt je řízen Kundanem Kumarem, který předtím pracoval ve startupu Character.AI. Tato firma se specializuje na AI modely pro vytváření interaktivních virtuálních postav schopných konverzace, často s osobnostmi celebrit nebo fiktivních hrdinů. V roce 2024 se většina týmu Character.AI přesunula do Google v rámci reverzní akvizice za 2,7 miliardy dolarů, což naznačuje vysokou hodnotu jejich know-how v konverzačním AI. OpenAI tak získává experta s praktickými zkušenostmi z komerčního nasazení.

Společnost pro tento vývoj spojila několik týmů, což signalizuje prioritu audia v jejich strategii. Současné audio modely OpenAI jsou již integrovány do ChatGPT a podobných služeb, kde umožňují hlasové interakce. Nový model by mohl rozšířit možnosti na složitější scénáře, jako je generování hudby nebo pokročilé dialogy. Trh s AI-generovanou hudbou roste rychle – například startup Suno, který se zaměřuje na tvorbu písní z textových popisů, dosahuje ročního obratu přes 200 milionů dolarů podle Wall Street Journal. OpenAI by tak mohl vstoupit i do tohoto segmentu, kde konkuruje hráči jako Suno nebo Udio.

Proč je to důležité

Tento vývoj posiluje pozici OpenAI v oblasti multimodálního AI, kde audio hraje klíčovou roli pro přirozenější uživatelské rozhraní. Vylepšené real-time interakce by zlepšily aplikace jako hlasoví asistenti v ChatGPT, kde současné modely trpí latencí nebo nepřirozeností intonace. Pro průmysl to znamená konkurenční tlak na Google, Meta a Apple v voice AI. Pokud model podpoří generování hudby, OpenAI by mohl diverzifikovat příjmy mimo textové modely, což je aktuálně jejich hlavní zdroj. Nicméně, protože jde o informace z anonymních zdrojů, je třeba brát v úvahu možnou změnu plánů. V širším kontextu to podtrhuje trend směrem k univerzálním AI modelům schopným zpracovávat různé modality dat, což je krok k pokročilejším systémům blízkým AGI.

Číst původní článek

Zdroj: 📰 SiliconANGLE News