Anthropic opouští svůj hlavní bezpečnostní závazek

Souhrn

Společnost Anthropic, vývojář modelů Claude, opouští klíčový závazek své bezpečnostní politiky Responsible Scaling Policy (RSP). Dříve slibovala, že nebude trénovat AI systémy nad určitou úroveň, pokud nemůže předem zaručit adekvátní bezpečnostní opatření. Nová verze politiky toto omezení ruší a nahrazuje ho sliby větší transparentnosti a odložení vývoje jen za specifických podmínek.

Klíčové body

Anthropic ruší závazek k nepokračování v trénování AI bez předchozího zaručení bezpečnosti.
Důvod: Rychlý pokrok v AI a akce konkurentů, jako OpenAI, činí unilaterální závazky neudržitelnými.
Nová RSP zahrnuje větší transparentnost o bezpečnostních testech vlastních modelů.
Firma slibuje překonávat bezpečnostní snahy konkurentů a odložit vývoj, pokud bude lídrem v AI závodě a rizika katastrofy budou významná.
Změna znamená méně striktní sebeomezení oproti původní verzi.

Podrobnosti

Anthropic, americká firma zaměřená na vývoj velkých jazykových modelů (LLM) jako Claude, se v roce 2023 zavázala k Responsible Scaling Policy (RSP), jejímž jádrem byl princip, že nebude trénovat AI systémy nad určitými výkonovými hranicemi – například na úrovni ASL-3 (Artificial System Level) – bez předchozího ověření bezpečnostních opatření. Tato politika měla bránit rychlému nasazení potenciálně nebezpečných systémů a sloužila jako argument proti tlaku trhu na urychlený vývoj. Podle exkluzivního rozhovoru pro TIME s vrchním vědeckým pracovníkem Jaredem Kaplanem však firma v posledních měsících RSP radikálně přepracovala.

Kaplan uvedl, že zastavení trénování by nepomohlo nikomu, protože konkurenti jako OpenAI pokračují vpřed. Nová politika, kterou TIME prohlédla, zachovává některé prvky, jako závazek k transparentnosti: Anthropic bude zveřejňovat výsledky bezpečnostních testů svých modelů, včetně detailů o jejich chování v rizikových scénářích. Dále slibuje, že bezpečnostní úsilí překoná konkurenty, a zavazuje se k odložení vývoje, pokud bude považována za lídra v AI závodě a riziko globální katastrofy bude podle jejích lídrů významné. Přesto je nová RSP méně restriktivní – dříve kategoricky zakazovala trénování nad hranicí bez připravených opatření, nyní toto pravidlo chybí.

Tato změna přichází v době, kdy Anthropic, dříve zaostávající za OpenAI, dosahuje technologických úspěchů a získává masivní investice, včetně od Amazonu. RSP byla navržena jako škálovatelný rámec, kde se bezpečnostní požadavky zvyšují s výkonem modelu (např. ASL-4 pro systémy s riziky biologických zbraní). Rušení centrálního pilíře signalizuje posun k pragmatickému přístupu, kde se bezpečnost řídí spíše konkurenčním prostředím než absolutními pravidly. Pro uživatele to znamená, že budoucí modely Claude mohou přijít rychleji, ale s potenciálně vyšším rizikem neočekávaného chování, jako halucinace nebo manipulace.

Proč je to důležité

Tato změna oslabuje důvěryhodnost AI safety hnutí, které Anthropic vedl. V širším kontextu AI průmyslu, kde firmy jako OpenAI a Google DeepMind také upravují bezpečnostní závazky (např. po sporu o superalignment u OpenAI), ukazuje na selhání sebeomezujících mechanismů. Pokud top laboratoře nebudou brzdit vývoj kvůli rizikům, zvyšuje se pravděpodobnost incidentů s pokročilými AI, jako nesprávné rady v kritických oblastech (zdravotnictví, bezpečnost). Pro průmysl to znamená eskalaci závodu, kde bezpečnost následuje za výkonem, což může vést k regulatorním zásahům od vlád. Kriticky řečeno, Anthropic přiznává, že tržní síly převažují nad ideály, což podtrhuje potřebu externích regulací pro skutečnou kontrolu nad AGI pokrokem.

Číst původní článek

Zdroj: 📰 Time