Souhrn
Inženýři z Columbia Engineering pod vedením Hoda Lipsona vyvinuli robota, který se poprvé naučil realistické pohyby rtů prostřednictvím pozorování vlastního odrazu v zrcadle a analýzy videí lidí z internetu. Tento přístup umožňuje synchronizované pohyby obličeje při mluvení i zpěvu bez nutnosti explicitního programování jednotlivých gest. Výsledek byl oznámen 15. ledna 2026 a představuje pokrok směrem k překonání fenoménu uncanny valley.
Klíčové body
- Robot se učí pohyby rtů observačním učením, podobně jako děti před zrcadlem.
- Kombinuje analýzu vlastního odrazu s daty z online videí lidí.
- Dokáže vykonávat synchronizované pohyby při řeči a zpěvu.
- Vyvinuto týmem Columbia University School of Engineering and Applied Science.
- Cílem je zlepšit přirozenost humanoidních robotů v interakci s lidmi.
Podrobnosti
Při tváří v tvář konverzaci lidé věnují téměř polovinu své pozornosti pohybům rtů, což roboti dosud nedokázali napodobit přirozeně. Dokonce i nejpokročilejší humanoidní platformy, jako ty od Boston Dynamics nebo Hanson Robotics, spoléhají na tuhé, přehnané pohyby úst, které připomínají loutky. Columbia Engineering, fakulta Columbia University zaměřená na aplikovanou vědu a inženýrství, nyní představila metodu, která toto mění.
Robot byl trénován observačním učením: nejprve sledoval svůj vlastní odraz v zrcadle, čímž si uvědomil své aktuální pohyby, a poté porovnával tyto data s videi lidí z veřejných zdrojů na internetu. Tento proces umožnil modelu identifikovat a replikovat subtilní nuance, jako jsou jemné zakřivení rtů při hláskách nebo synchronizace s intonací. Výsledkem je robot, který mluví a zpívá s pohyby obličeje odpovídajícími lidským vzorům, bez ručního kódování každého gesta.
Tým Hoda Lipsona, specialisty na měkkou robotiku a autonomní systémy, zdůrazňuje, že tradiční metody programování obličejových pohybů selhávají kvůli vysoké komplexitě – lidský obličej má přes 40 svalů ovlivňujících rty. Nový přístup využívá machine learning algoritmy k generalizaci z dat, což snižuje potřebu manuálního ladení. Testy ukázaly výrazné zlepšení v percepci uživatelů, kteří hodnotili pohyby jako méně mechanické. Nicméně, metoda stále závisí na kvalitě tréninkových dat a hardware robotických aktuatorů musí být dostatečně flexibilní, aby pohyby realizovala.
V kontextu současné robotiky toto navazuje na pokroky v softwaru, jako je reinforcement learning pro autonomii, ale zaměřuje se na sociální interakci. Například roboti jako Sophia od Hanson Robotics trpěli nepřirozenými výrazy, což brzdilo jejich nasazení v péči o seniory nebo vzdělávání.
Proč je to důležité
Tento průlom v humanoidní robotice přispívá k překonání uncanny valley, kdy roboti působí nepříjemně kvůli drobným nesrovnalostem v mimice. Pro průmysl znamená lepší interakce v oblastech jako zdravotnictví, kde roboti mohou asistovat v terapii nebo komunikaci s pacienty, nebo v zábavním průmyslu pro virtuální postavy. V širším ekosystému AI a robotiky to urychluje vývoj sociálních robotů schopných dlouhodobé spolupráce s lidmi, což je klíčové pro aplikace v domácnostech nebo továrnách.
Kriticky lze poznamenat, že i když metoda je inovativní, uncanny valley zahrnuje i oči, obočí a celkovou dynamiku obličeje, takže plné překonání vyžaduje integraci s pokročilými vision systémy a emotion AI. Pro uživatele to zatím neznamená okamžité komerční produkty, ale posiluje fundament pro autonomní humanoidy, jako ty od Tesla Optimus nebo Figure AI. Celkově představuje krok k praktické autonomii v robotice, kde učení z pozorování nahrazuje rigidní programování.
Zdroj: 📰 Science Daily