Gemini Voice přináší rychlou multispeakerovou audio, bohaté styly a 32k kontextové okno

Souhrn

Google spustil systém Gemini Text-to-Speech (TTS), který převádí text na řeč s podporou více mluvčích, různými emotivními styly a kontextovým oknem 32 tisíc tokenů. Tento nástroj, integrovatelný přes Google Generative AI SDK s API klíčem, je k dispozici ve dvou variantách: Flash pro rychlou generaci a Pro pro složitější nuancované výstupy. Video od Prompt Engineering ho analyzuje v kontextu aplikací jako audioknihy nebo virtuální asistenti.

Klíčové body

Podpora více mluvčích umožňuje vytvářet dialogy s odlišnými hlasy a osobnostmi.
Přizpůsobitelné emotivní tóny, akcenty a tempo pro kulturně specifický obsah.
Podpora 24 jazyků včetně češtiny pro globální použití.
Rozsáhlá knihovna hlasů a verze Flash (rychlost) vs. Pro (kvalita).
Kontextové okno 32k tokenů pro delší texty, ale menší než u některých konkurenčních modelů.

Podrobnosti

Systém Gemini TTS staví na velkých jazykových modelech Gemini 2.5 a není pouhým převodníkem textu na zvuk, ale generátorem řeči s vysokou expresivitou. Uživatelé zadávají text přes API, kde specifikují parametry jako hlas, tón (např. radostný, smutný, neutrální), rychlost a přestávky. Multi-speaker funkce umožňuje přepínat mezi hlasy v jednom výstupu, což je ideální pro audioknihy s dialogy nebo podcasty s hosty. Například lze vytvořit scénu, kde postavy mluví různými hlasy s příslušnými akcenty.

Pro integraci je nutný Google Generative AI SDK, který slouží k volání API endpointů. Flash verze optimalizuje latenci pro real-time aplikace jako konverzační AI v aplikacích nebo call centrech, kde rychlost převažuje nad dokonalostí. Pro verze naopak zpracovává složité texty s emotivními nuancemi, vhodné pro profesionální voice-over nebo vzdělávací obsah. Podpora 24 jazyků zahrnuje angličtinu, španělštinu, hindštinu i méně rozšířené jako tamilštinu, s možností ladění akcentu pro lokální trhy.

Limity zahrnují menší kontextové okno 32k oproti například 128k u některých modelů GPT-4o, což omezuje zpracování velmi dlouhých textů najednou – řešení vyžaduje chunking. Cena je založena na počtu znaků, s nižšími tarifů pro Flash. Ve srovnání s ElevenLabs nebo OpenAI TTS nabízí Gemini lepší multi-speaker podporu, ale méně pokročilou kontrolu nad intonací v některých testech. Pro vývojáře je snadná integrace do webových app nebo mobilních zařízení, kde slouží k dynamické generaci zvuku bez závislosti na lidských dabérech.

Proč je to důležité

Tento TTS systém posiluje pozici Google v oblasti AI hlasových technologií a umožňuje škálovat aplikace bez nákladů na profesionální hlasové herce. Pro průmysl znamená levnější tvorbu obsahu v e-learningu, kde lze personalizovat výuku podle studentova jazyka, nebo v zákaznické podpoře s přirozeně znějícími odpověďmi. V širším ekosystému AI konkuruje OpenAI TTS a Microsoft Azure, ale vyniká integrací s Gemini modely pro end-to-end workflowy. Omezení kontextu však brání plnému využití v dlouhých naracích, což nutí vývojáře optimalizovat prompty. Celkově urychluje adopci AI v audio médiích, kde dosud dominovaly manuální záznamy.

Číst původní článek

Zdroj: 📰 Geeky Gadgets