Souhrn
Sonya Sotinsky, 51letá spoluvlastnice architektonické firmy v Tucsonu v Arizoně, přišla po diagnóze invazivní rakoviny úst o jazyk a hrtan. Před operací nahrála svůj hlas říkající běžné fráze, dětské knihy a řadu nadávek, aby si zachovala osobnost. Pomocí AI technologie vytvořila syntetický hlas s autentickým new jersey akcentem, který ovládá přes text-to-speech software na mobilním telefonu spojeném s přenosnou klávesnicí.
Klíčové body
- Před operací nahrála fráze jako „Všechno nejlepší k narozeninám“, „Jsem na tebe pyšná“ pro rodinu, „Už jsem u tebe“ pro zákazníky a četbu dětských knih od Eloise po Dr. Seusse pro budoucí vnoučata.
- Největší sbírka nahrávek zahrnovala nadávky a vulgární výrazy, které odrážejí její sarkastickou osobnost.
- AI hlas umožňuje rychlou komunikaci oproti ručnímu psaní poznámek nebo primitivním hlasovým syntezátorům.
- Systém běží na telefonu a ovládá se Bluetooth klávesnicí, což umožňuje okamžitou syntézu textu do řeči.
- Tento přístup jí pomohl nejen komunikovat, ale i udržet autenticitu projevu.
Podrobnosti
Sonya Sotinsky čelila rakovině úst ve věku 51 let, což vyžadovalo radikální operaci: odstranění jazyka a hrtanu, aby se nádor odstranil. Před zákrokem si uvědomila, že hlas je klíčovým nositelem osobnosti – intonace, kadence a lehce new jersey akcent jsou pro ni „otisky prstů identity“. Proto se posadila k mikrofonu a nahrála stovky frází. Zaměřila se na praktické věci: pozdravy pro manžela a dvě dcery, profesionální fráze pro svou architektonickou firmu a zejména na dětské knihy, aby jednoho dne mohla číst vnoučatům příběhy jako Eloise nebo knihy Dr. Seusse. Nevynechala ani vulgární výrazy – „What the literal you-know-what?“ nebo jiné nadávky –, protože sarkasmus a profanity jsou podle ní esenciální částí její identity.
Po operaci zjistila, že standardní hlasové syntezátory nebo ruční psaní jsou nedostatečné: „Když nemůžete mluvit, je to nesmírně frustrující. Lidé vám přisuzují osobnost, kterou nemáte, a vy v duchu křičíte bez křiku.“ Pak narazila na moderní AI řešení pro klonování hlasu. Tyto technologie, jako například modely založené na neuronových sítích typu Tacotron nebo WaveNet (vyvinuté Google), trénují na krátkých osobních nahrávkách – stačí několik minut řeči – a generují nový syntetický hlas, který napodobuje původní tón, akcent i emoce. Sotinsky své nahrávky nahrála do takového systému, pravděpodobně open-source nástroje jako Coqui TTS nebo komerční služby typu ElevenLabs či Respeecher, které umožňují personalizovanou syntézu řeči z textu (text-to-speech, TTS).
K ovládání slouží přenosná klávesnice připojená k telefonu přes Bluetooth. Napiše text, AI ho převede do jejího hlasu a přehraje. To je rychlejší než appky na tabletu a umožňuje komunikaci v reálném čase, včetně profesionálních schůzek v architektuře. Článek zdůrazňuje, že tento hlas nejen pomohl Sotinsky komunikovat, ale doslova zachránil její život tím, že jí vrátil sebeúctu a schopnost vyjadřovat frustraci.
Proč je to důležité
Tento případ ilustruje praktické nasazení AI v oblasti zdravotní péče, konkrétně personalizované syntézy hlasu pro pacienty po laryngektomii nebo jiných onemocněních ústní dutiny. Na rozdíl od generických TTS systémů jako Google Text-to-Speech nebo Amazon Polly, které mají neutrální hlasy, klonování umožňuje zachovat individuální charakter – akcent, intonaci i slang. V širším kontextu to posiluje trend AI v augmentativní a alternativní komunikaci (AAC), kde firmy jako CereProc nebo projekt Voiceitt rozvíjejí podobné nástroje pro lidi s poruchami řeči. Pro průmysl znamená potenciál pro masové aplikace: od pacientů s ALS (amyotrofická laterální skleróza) po celebrity, které chtějí vzkříšit své hlasy (např. projekt HereAfter AI). Kriticky řečeno, technologie ještě není dokonalá – vyžaduje kvalitní vstupní data a může selhat u složitých emocí –, ale ukazuje, jak AI snižuje bariéry v každodenním životě. V USA postihuje rakovinu hlavy a krku ročně desítky tisíc lidí, takže škálovatelné řešení by mohlo zlepšit kvalitu života mnoha pacientů.
Zdroj: 📰 Boston Herald
|