Zrcadlový trénink: Jak se humanoidní robot naučil synchronizovat rty se řečí pomocí AI a odrazu

Souhrn

Výzkumníci z laboratoře Hod Lipsona na Columbia University vyvinuli humanoidního robota, který se naučil synchronizovat pohyb rtů se slovy pomocí umělé inteligence a zrcadla. Robot pozoroval svůj vlastní odraz, analyzoval ho AI modelem a postupně upravoval mechanické pohyby pro přesnou shodu s výslovností. Tento přístup nahrazuje tradiční manuální programování a přispívá k překonání tzv. uncanny valley v robotické mimice.

Klíčové body

Robot s 10 stupni svobody v oblasti rtů: dva motory pro každý roh, tři pro horní ret, jeden pro čelist a dva pro dolní ret.
Trénink založený na zrcadle: robot sleduje svůj odraz a AI porovnává vizuální data s audio signálem.
Překonání tradičních limitů: žádné pevně nastavené pravidla pro fonémy, místo toho učení podobné lidskému napodobování.
Zaměření na obličej: lidé věnují během konverzace téměř polovinu vizuální pozornosti pohybu rtů.
Hardware s magnetickými konektory pro snadnou výměnu a úpravu obličeje.

Podrobnosti

Laboratoř Creative Machines Lab na Columbia University, vedená Hod Lipsonem, se dlouhodobě zabývá vývojem humanoidních robotů schopných přirozeně interagovat s lidmi. Klíčovým problémem byl obličej, zejména ústa, kde i pokročilé roboty pohybují rty pouze hrubě – otevíráním a zavíráním podobně jako loutky. Lidé jsou na chyby v mimice extrémně citliví: během tváří v tvář konverzace směřuje přibližně polovina vizuální pozornosti na rty a nesoulad i o zlomek sekundy okamžitě odhalíme.

Tým Lipsona navrhl hardware s vysokou flexibilitou: oblast rtů má 10 stupňů svobody. Dva motory ovládají každý roh rtů, umožňují stažení nebo vysunutí pro těsné uzavření nutné u zvuků jako „b“ nebo „p“. Horní ret má tři motory pro jemné zakřivení, čelist jeden pro vertikální pohyb a dolní ret dva pro boční a vertikální úpravy. Silikonová kůže je připojena magnetickými konektory, což usnadňuje demontáž a úpravy. Tento design umožňuje tvořit subtilní tvary odpovídající fonémům, jako kulatý tvar pro „o“ nebo zašpičatělý pro „u“.

Tradiční metody spočívaly v manuálním mapování pohybů na jednotlivé zvuky (fonémy), což bylo pracné a vedlo k nepřirozeným výsledkům – podobně jako programování chůze krok za krokem místo učení zkušeností. Nový přístup, nazvaný mirror training, funguje tak, že robot vyslovuje slova (audio signál) a současně sleduje svůj odraz v zrcadle. AI model, pravděpodobně založený na neuronových sítích pro počítačové vidění a reinforcement learning, analyzuje video a porovnává pohyb rtů s očekávaným tvarem z tréninkových dat. Robot pak upravuje motory, aby minimalizoval chybu. Tento sebe-supervizovaný trénink umožňuje generalizaci na nová slova bez explicitního programování.

Text zmiňuje pokračování systému s magnetickými konektory, což naznačuje modulární design pro další iterace. Laboratoř se zaměřuje na kreativní stroje, které se učí autonomně, podobně jako v předchozích pracích na samoorganizujících se robotech.

Proč je to důležité

Tento vývoj představuje zásadní posun v robotice směrem k autonomnímu učení obličeje, což je klíčové pro humanoidní roboty v sociálních rolích – péče o seniory, vzdělávání nebo zákaznický servis. Překonání uncanny valley zlepší důvěru a přirozenost interakce, kde současné roboty jako ti od Boston Dynamics excelují v pohybu těla, ale selhávají v mimice. V širším kontextu posiluje integraci AI do robotiky: podobné techniky lze aplikovat na emoce, gesta nebo dokonce celkovou antropomorfii. Pro průmysl znamená méně závislosti na expertním programování, rychlejší nasazení a škálovatelnost. Nicméně zůstává výzvou real-time výpočetní náročnost a robustnost v reálném světě mimo kontrolované prostředí laboratoře. Tento pokrok může urychlit komercializaci humanoidů od firem jako Figure nebo Tesla Optimus.

Číst původní článek

Zdroj: 📰 ScienceBlog.com