Zpráva: OpenAI plánuje spustit nový audio model v prvním čtvrtletí

Souhrn

OpenAI Group PBC prý připravuje nový model umělé inteligence zaměřený na generování audia, který by měl být dostupný do konce března. Tento algoritmus slibuje přirozenější syntézu řeči a lepší zpracování obousměrných konverzací v reálném čase oproti stávajícím řešením společnosti. Projekt vede bývalý výzkumník z Character.AI a zahrnuje sloučené týmy z oblastí inženýrství, produktového vývoje a výzkumu.

Klíčové body

Spuštění plánováno na konec března 2026.
Nová architektura, pravděpodobně odlišná od současného transformeru v modelu GPT-realtime.
Vylepšení přirozenosti řeči a real-time interakcí.
Vedení projektu Kundanem Kumarem z Character.AI, firmy zaměřené na konverzační AI s virtuálními postavami.
Možné více verzí modelu s různou kvalitou výstupu, podobně jako u Whisperu.

Podrobnosti

Podle zprávy publikované The Information OpenAI mění přístup k audio modelům. Současný vlajkový model GPT-realtime, určený pro zpracování audia v reálném čase jako je hlasové ovládání nebo konverzace, spoléhá na architekturu transformerů, která je standardem v mnoha velkých jazykových modelech (LLM). Transformer zpracovává sekvence dat paralelně, což umožňuje efektivní trénink na obrovských datových sadách, ale může mít limity v rychlosti a přirozenosti pro audio úlohy.

Nový model by měl být postaven na odlišné architektuře, ačkoli detaily nejsou známy. Některé audio modely na bázi transformerů zpracovávají řeč přímo, jiné – jako Whisper z roku 2022, který slouží k transkripci audia do textu s vysokou přesností – nejprve převádějí zvuk na spektrogramy. Spektrogram je grafické znázornění frekvenčního spektra audia v čase, což usnadňuje jeho zpracování neuronovými sítěmi. Whisper je dostupný v několika edicích od lehké (pro mobilní zařízení) po velmi přesnou (pro profesionální použití). OpenAI by mohlo podobně nabídnout varianty nového modelu.

Projekt koordinuje Kundan Kumar, který přišel z Character.AI, startupu specializovaného na AI pro interakce s virtuálními postavami v reálném čase. V roce 2024 mnoho zaměstnanců Character.AI přešlo do Google v rámci reverzní akvizice za 2,7 miliardy dolarů. OpenAI pro tento cíl sloučilo týmy z inženýrství, produktového vývoje a výzkumu. Zpráva naznačuje, že model nemusí být omezen jen na řeč: rychle rostoucí segment AI-generované hudby, kde startup Suno dosahuje ročního obratu přes 200 milionů dolarů, by mohl být dalším cílem. Suno umožňuje uživatelům generovat skladby z textových popisů, což přitahuje hudebníky i firmy.

Proč je to důležité

Tento vývoj posiluje pozici OpenAI v multimodálních AI systémech, kde audio hraje klíčovou roli v konverzačních agentech, virtuálních asistentech a aplikacích jako ChatGPT s hlasovým vstupem/výstupem. Lepší real-time interakce by zlepšily uživatelský zážitek v aplikacích od telefonních asistentů po herní AI postavy, kde zpoždění milisekund rozhoduje o přirozenosti. V širším kontextu to reaguje na konkurenci od Google (s Gemini), Meta a startupů jako ElevenLabs v text-to-speech. Pokud nová architektura překoná transformery v efektivitě, mohlo by to ovlivnit design budoucích LLM. Nicméně jde o neoficiální zprávu, takže skutečné spuštění a výkon zůstávají nejisté. Pro průmysl to znamená potenciální posun k pokročilejším voice AI, které by mohly nahradit tradiční call centra nebo rozšířit generování obsahu do hudby a podcastů.

Číst původní článek

Zdroj: 📰 SiliconANGLE News