Souhrn
OpenAI Group PBC prý připravuje nový model umělé inteligence zaměřený na generování audia, který by měl být dostupný do konce března. Tento algoritmus slibuje přirozenější syntézu řeči a lepší zpracování obousměrných konverzací v reálném čase oproti stávajícím řešením společnosti. Projekt vede bývalý výzkumník z Character.AI a zahrnuje sloučené týmy z oblastí inženýrství, produktového vývoje a výzkumu.
Klíčové body
- Spuštění plánováno na konec března 2026.
- Nová architektura, pravděpodobně odlišná od současného transformeru v modelu GPT-realtime.
- Vylepšení přirozenosti řeči a real-time interakcí.
- Vedení projektu Kundanem Kumarem z Character.AI, firmy zaměřené na konverzační AI s virtuálními postavami.
- Možné více verzí modelu s různou kvalitou výstupu, podobně jako u Whisperu.
Podrobnosti
Podle zprávy publikované The Information OpenAI mění přístup k audio modelům. Současný vlajkový model GPT-realtime, určený pro zpracování audia v reálném čase jako je hlasové ovládání nebo konverzace, spoléhá na architekturu transformerů, která je standardem v mnoha velkých jazykových modelech (LLM). Transformer zpracovává sekvence dat paralelně, což umožňuje efektivní trénink na obrovských datových sadách, ale může mít limity v rychlosti a přirozenosti pro audio úlohy.
Nový model by měl být postaven na odlišné architektuře, ačkoli detaily nejsou známy. Některé audio modely na bázi transformerů zpracovávají řeč přímo, jiné – jako Whisper z roku 2022, který slouží k transkripci audia do textu s vysokou přesností – nejprve převádějí zvuk na spektrogramy. Spektrogram je grafické znázornění frekvenčního spektra audia v čase, což usnadňuje jeho zpracování neuronovými sítěmi. Whisper je dostupný v několika edicích od lehké (pro mobilní zařízení) po velmi přesnou (pro profesionální použití). OpenAI by mohlo podobně nabídnout varianty nového modelu.
Projekt koordinuje Kundan Kumar, který přišel z Character.AI, startupu specializovaného na AI pro interakce s virtuálními postavami v reálném čase. V roce 2024 mnoho zaměstnanců Character.AI přešlo do Google v rámci reverzní akvizice za 2,7 miliardy dolarů. OpenAI pro tento cíl sloučilo týmy z inženýrství, produktového vývoje a výzkumu. Zpráva naznačuje, že model nemusí být omezen jen na řeč: rychle rostoucí segment AI-generované hudby, kde startup Suno dosahuje ročního obratu přes 200 milionů dolarů, by mohl být dalším cílem. Suno umožňuje uživatelům generovat skladby z textových popisů, což přitahuje hudebníky i firmy.
Proč je to důležité
Tento vývoj posiluje pozici OpenAI v multimodálních AI systémech, kde audio hraje klíčovou roli v konverzačních agentech, virtuálních asistentech a aplikacích jako ChatGPT s hlasovým vstupem/výstupem. Lepší real-time interakce by zlepšily uživatelský zážitek v aplikacích od telefonních asistentů po herní AI postavy, kde zpoždění milisekund rozhoduje o přirozenosti. V širším kontextu to reaguje na konkurenci od Google (s Gemini), Meta a startupů jako ElevenLabs v text-to-speech. Pokud nová architektura překoná transformery v efektivitě, mohlo by to ovlivnit design budoucích LLM. Nicméně jde o neoficiální zprávu, takže skutečné spuštění a výkon zůstávají nejisté. Pro průmysl to znamená potenciální posun k pokročilejším voice AI, které by mohly nahradit tradiční call centra nebo rozšířit generování obsahu do hudby a podcastů.
Zdroj: 📰 SiliconANGLE News