Umělá inteligence – „Svět je v nebezpečí“: Šéf bezpečnosti Anthropic rezignuje

Souhrn

Mrinank Sharma, dosud šéf Safeguards Research Team v Anthropic, rezignoval z pozice, kde dohlížel na prevenci zneužití AI pro tvorbu biologických zbraní. Jeho rezignační dopis, který získal přes 14 milionů zobrazení na platformě X, začíná slovy „svět je v nebezpečí“ a končí citací básně Williama Stafforda o morální niti, kterou nesmíme pustit. Sharma kritizuje, jak v praxi selhávají hodnoty při rozhodování o vývoji AI.

Klíčové body

Sharma vedl tým odpovědný za bezpečnostní mechanismy AI v Anthropic, včetně ochrany proti návrhům biologických zbraní.
Jeho poslední projekt zkoumal, jak AI systémy zkreslují vnímání reality uživateli.
Dopis zdůrazňuje selhání v uplatňování hodnot v interních rozhodnutích firmy.
Sharma odchází z klíčové role v AI bezpečnosti do studia poezie.
Text dopisu cituje báseň „The Way It Is“, symbolizující morálku jako neměnnou nit života.

Podrobnosti

Anthropic je americká firma založená v roce 2021 bývalými vývojáři OpenAI, zaměřená na vývoj velkých jazykových modelů (LLM) jako Claude, které mají být bezpečnější než konkurence jako GPT od OpenAI nebo Gemini od Google. Firma klade důraz na tzv. Constitutional AI, kde modely dostávají vestavěné principy etiky a bezpečnosti, aby minimalizovaly rizika jako dezinformace nebo škodlivé rady. Sharma převzal vedení Safeguards Research Team v roce 2022 a jeho tým testoval modely na schopnost pomoci při návrhu biologických zbraní – konkrétně simuloval scénáře, kde AI poskytuje pokyny k syntéze toxinů nebo patogenů. Tyto testy ukazovaly, že i pokročilé modely jako Claude 3.5 mohou být obejdeny chytrými jailbreaky, což vede k únikům citlivých informací.

Jeho finální práce se soustředila na zkreslení reality: AI systémy, trénované na obrovských datech z internetu, často zesilují biasy, halucinace nebo selektivní fakta, což ovlivňuje uživatele v politice, vědě i každodenním rozhodování. Například modely mohou prezentovat zkreslené historické události nebo podporovat konspirační teorie pod rouškou neutrality. Sharma ve dopise popisuje, jak v uzavřených schůzích Anthropic viděl, že ekonomický tlak a soutěž s OpenAI a Google vedou k oslabení bezpečnostních standardů. „Viděl jsem to v sobě i v týmu,“ píše, a poukazuje na dilemata, kdy rychlost vývoje převažuje nad riziky. Dopis, publikovaný 23. února 2026 na X (dříve Twitter), okamžitě vyvolal debatu mezi AI etiky, s komentáři od expertů jako Yoshua Bengio nebo Elona Muska, kteří podobné varování opakují. Sharma neuvádí konkrétní incidenty, ale implikuje systémové selhání v korporátním prostředí, kde priorita je skalovat modely na miliardy parametrů za cenu bezpečnosti.

Proč je to důležité

Odchod Sharma představuje trhlinu v jedné z nejtvrdších linií AI bezpečnosti – Anthropic se prezentuje jako etická alternativa k profitově řízeným gigantům, ale tento krok naznačuje vnitřní konflikty. V širším kontextu posiluje debatu o regulaci AI: Evropská unie pracuje na AI Actu, který klasifikuje modely jako Claude jako vysoce rizikové, zatímco USA váhá s federálními pravidly. Pro průmysl to znamená riziko reputačních ztrát a investorů, kteří vyžadují důkazy o bezpečnosti (Anthropic získal funding přes 7 miliard USD). Pro uživatele to podtrhuje nutnost skeptického přístupu k AI výstupům – zkreslení reality může ovlivnit volby nebo veřejné zdraví. Pokud i Anthropic selhává v morálce, zvyšuje to tlak na globální standardy, jako ty od Partnership on AI, a může způsobit zpomalení vývoje AGI. Sharmaův odchod do poezie ironicky kontrastuje s komercializací AI, kde humanitní aspekty ustupují technologii.

Číst původní článek

Zdroj: 📰 Freerepublic.com