Startup Gradium zaměřený na audio language models získal 70 milionů dolarů na vývoj realistickějších hlasových AI systémů

Souhrn

Startup Gradium, zaměřený na vývoj audio language models (ALM), získal 70 milionů dolarů v seed financování pouhých tři měsíce po založení. Tyto modely slouží k zpracování, porozumění a generování přirozeného jazyka na základě audio-textových dat a mají umožnit přirozenější hlasové interakce s AI. Společnost vede mise komercializovat tuto technologii, která vznikla z výzkumu v laboratoři Kyutai.

Klíčové body

Financování: 70 milionů dolarů v seed kole vedeném FirstMark Capital a Eurazeo, s účasťou DST Global Partners, Korelya Capital, Amplify Partners a anjela Erica Schmidta.
Technologie: Audio language models (ALM) trénované na párech audio a textu, které nahrazují tradiční označování dat přirozeným jazykem jako supervizním signálem.
Aplikace: Audio klasifikace, syntéza řeči s nižší latencí pro realistické konverzace.
Původ: Vyvinuto zakladateli během práce v neziskové AI laboratoři Kyutai.
Cíl: Udělat hlas primárním rozhraním mezi lidmi a stroji.

Podrobnosti

Gradium je startup specializující se na audio umělou inteligenci, který dnes oficiálně startuje po uzavření seed kola v hodnotě 70 milionů dolarů. Tato částka je významná pro tak mladou firmu, založenou před pouhými třemi měsíci, a signalizuje zájem investorů o specializované AI modely mimo standardní textové velké jazykové modely (LLM). Mezi klíčovými investory jsou FirstMark Capital a Eurazeo, kteří vedli kolo, dále DST Global Partners, Korelya Capital a Amplify Partners. Podporu poskytl i Eric Schmidt, bývalý generální ředitel Google.

Jádro technologie Gradia tvoří audio language models (ALM), což jsou specializované AI systémy navržené pro audio doménu. Na rozdíl od univerzálních LLM, které primárně zpracovávají text, ALM trénují na datech spojujících audio nahrávky s popisným textem. Tento přístup umožňuje modelu naučit se složité vztahy mezi zvukem a jazykem bez nutnosti manuálního označování dat. Přirozený jazyk funguje jako “supervizní signál”, který řídí učení – například pro úlohy jako klasifikace audia (rozeznávání obsahu zvuku) nebo syntéza řeči (generování hovoreného výstupu). Výsledkem mají být interakce s nižší latencí, což znamená rychlejší odezvy, a vysoce expresivní hlasy, které připomínají lidskou řeč.

Koncept ALM vznikl u zakladatelů během jejich působení v Kyutai, neziskové laboratoři zaměřené na výzkum AI. CEO Neil Zeghidour zdůrazňuje limity současných hlasových systémů: jsou křehké v nepředvídatelných situacích, nákladné na provoz a nedokážou zajistit přirozené dialogy. Gradium chce tyto nedostatky odstranit tím, že ALM učiní hlas nativním rozhraním pro AI aplikace, jako jsou hlasoví asistenti, telefonní systémy nebo interakce v reálném čase. V praxi to znamená, že uživatelé by mohli vést plynulé konverzace bez zpoždění typického pro současné modely, které často kombinují textové LLM s oddělenými řečovými moduly.

Proč je to důležité

Tento vývoj posiluje trend specializace AI modelů na specifické modality, kde audio language models představují audio-nativní odpověď na úspěch LLM v textu. Pro průmysl to znamená potenciál pro lepší hlasové rozhraní v zařízeních jako chytré reproduktory, auta nebo zákaznické služby, kde latence a přirozenost rozhodují o uživatelské zkušenosti. Nicméně, jako seed-stage startup, Gradium ještě musí prokázat škálovatelnost a robustnost svých ALM v reálném nasazení oproti etablovaným hráčům jako OpenAI s Whisper nebo Google s WaveNet. V širším kontextu to urychluje přechod k multimodálním AI, kde hlas nahradí klávesnici jako primární vstup, ale závisí na kvalitě tréninkových dat a výpočetních zdrojích.

Číst původní článek

Zdroj: 📰 SiliconANGLE News