AGI potřebuje modely světa a stav modelů světa

Souhrn

Demis Hassabis z Google DeepMind zdůraznil, že dosažení AGI (umělé obecné inteligence) vyžaduje modely světa, které umožňují AI chápat fyzickou realitu. Současné velké jazykové modely (LLM) jako ty od OpenAI nebo Anthropic nestačí samy o sobě a je nutné integrovat kontinuální učení a paměť. Článek přehledává stav těchto modelů u firem jako Tesla, Google a Nvidia.

Klíčové body

Demis Hassabis předpovídá AGI během 5–10 let a zdůrazňuje nutnost modelů světa pro pochopení fyziky.
Google Genie 3 generuje interaktivní 3D prostředí z textových popisů pro simulace a trénink AI.
Tesla využívá modely světa v systému FSD pro predikci pohybu z kamerových dat a aplikuje je na robota Optimus.
Konkurenti jako 1X (výrobce humanoidních robotů Neo) a Nvidia vyvíjejí simulátory a world models pro robotiku.
Potřeba rychlých reakcí v milisekundách a integrace s robotickými systémy pro reálné nasazení.

Podrobnosti

Demis Hassabis v nedávném rozhovoru vysvětlil, jak současné AI, včetně ChatGPT, postrádají hluboké porozumění fyzickému světu. LLM přístup, který dominuje u OpenAI, Google, XAI a Anthropic, exceluje v zpracování textu, ale selhává v predikci dynamických interakcí. Modely světa (world models) řeší tento problém tím, že simulují prostředí, predikují fyzikální jevy a umožňují plánování akcí. Příkladem je Google Genie 3, vydaný v srpnu minulého roku, který z textových vstupů vytváří plně interaktivní 3D světy. Tyto simulace slouží k tréninku agentů v bezpečném prostředí bez rizika pro reálný svět.

Tesla vede v praktickém nasazení díky systému Full Self-Driving (FSD), který již dva roky predikuje budoucí snímky z osmi kamerových vstupů. Tento přístup simuluje možné scénáře jízdy a pomáhá v rozhodování v reálném čase. Tesla má stovky patentů na neurální sítě, zpracování vidění a simulace, včetně generování syntetických dat pro trénink. Stejné principy aplikuje na humanoidního robota Optimus, kde end-to-end modely na bázi vidění řídí manipulaci, navigaci a plánování úkolů. Optimus predikuje fyziku v lidských prostředích a reaguje v milisekundách, což je klíčové pro bezpečné fungování.

Konkurence je silná: Firma 1X, specializující se na humanoidní roboty, používá world models pro robota Neo k snížení závislosti na dálkovém ovládání (teleoperaci). Nvidia poskytuje simulátory pro většinu robotických firem a vyvíjí vlastní world foundation models. World Labs od Fei-Fei Li (známé jako „královna počítačového vidění“) se zaměřuje na teoretické základy. I když Tesla nepublikuje papíry ani kód, jejich pokroky v datech a hardwaru naznačují náskok v integraci.

Proč je to důležité

Modely světa představují klíčový krok k AGI, protože umožňují AI nejen generovat text, ale chápat kauzalitu a fyziku. Pro průmysl to znamená lepší autonomní vozidla, kde FSD Tesly snižuje chyby v predikci, a robotiku, kde Optimus může vykonávat složité úkoly v továrnách. Hassabisova predikce AGI do 5–10 let podmiňuje energetické nároky, což ovlivní datová centra. V širším kontextu posiluje to soutěž mezi Google DeepMind, Tesla/XAI a OpenAI, kde absence world models brzdí pokrok v embodied AI. Pro uživatele to přinese spolehlivější AI asistenty schopné reálných akcí, ale vyžaduje řešení etických otázek jako bezpečnost a energie.

Číst původní článek

Zdroj: 📰 Next Big Future