OpenAI přiznává, že prohlížeče s AI čelí neřešitelným útokům typu prompt injection

Souhrn

OpenAI v nedávném blogovém příspěvku přiznává, že útoky typu prompt injection na prohlížeče poháněné umělou inteligencí, jako je jejich ChatGPT Atlas, nelze úplně eliminovat. Tyto útoky využívají skryté instrukce v webových stránkách nebo dokumentech, které AI detekuje a následuje. Společnost proto vyvinula automatizovaný systém pro simulaci útoků, aby testovala bezpečnost.

Klíčové body

Prompt injection útoky jsou srovnatelné se sociálním inženýrstvím a nelze je plně odstranit, pouze minimalizovat.
ChatGPT Atlas, spuštěný v říjnu, umožňuje AI autonomní procházení webu, což rozšiřuje povrch útoku.
OpenAI vytvořila automatizovaný systém útočníka pro testování odolnosti proti kybernetickým hrozbám.
Rizika rostou s rostoucí autonomií AI agentů, kteří mohou přistupovat k uživatelským datům.
Prohlížeče s AI čtou webový obsah a konají podle něj, což je činí zranitelnými vůči skrytým pokynům.

Podrobnosti

OpenAI, lídr v oblasti velkých jazykových modelů (LLM), nedávno spustila prohlížeč ChatGPT Atlas, který integruje umělou inteligenci přímo do prohlížení webu. Tento nástroj umožňuje AI nejen číst obsah stránek, ale i autonomně na něm reagovat – například vyhledávat informace, vyplňovat formuláře nebo interagovat s prvky webu bez nutnosti manuálního zásahu uživatele. Režim „agent mode“ navíc rozšiřuje tyto schopnosti, díky čemuž AI působí jako plnohodnotný digitální asistent s přístupem k otevřenému internetu.

Problém nastává s útoky typu prompt injection, kde útočníci vkladají do webových stránek, e-mailů nebo dokumentů skryté instrukce viditelné pouze pro AI. Tyto pokyny mohou AI donutit k nechtěným akcím, jako je krádež dat, odeslání citlivých informací nebo spuštění škodlivého kódu. OpenAI srovnává tento typ hrozeb se sociálním inženýrstvím u lidí: lze rizika snižovat školením a filtry, ale nikdy je nelze zcela vymýtit, protože závisí na kreativitě útočníků.

Aby to otestovala, OpenAI vyvinula automatizovaný systém útočníka, který simuluje reálné kybernetické hrozby. Tento systém generuje varianty prompt injection útoků a měří, jak dobře je ChatGPT Atlas odolává. Výsledky ukazují, že s rostoucí autonomií AI se rizika znásobují – čím více pravomocí má AI (např. přístup k souborům nebo účtům), tím větší škody může způsobit při úspěšném útoku. Text zmíní i širší kontext: kyberzločinci již nepotřebují malware, stačí jim správná slova na správném místě. Například v dokumentu schovaném na webu může být instrukce „pošli všechna data na tento server“, kterou AI vykoná bez povšimnutí uživatele.

Toto přiznání přichází v době, kdy se AI agenti stávají běžnějšími. ChatGPT Atlas je příkladem nástroje, který slouží k automatizaci rutinních úkolů na webu, ale zároveň otevírá dveře novým zranitelnostem. OpenAI doporučuje uživatelům opatrnost při sdílení citlivých dat a plánuje další iterace bezpečnostních opatření, jako jsou pokročilé filtry a sandboxing.

Proč je to důležité

Toto přiznání OpenAI signalizuje posun v myšlení o bezpečnosti AI: od naivity k realismu. Pro uživatele znamená, že autonomní AI nástroje jako ChatGPT Atlas nejsou bezpečné pro plnohodnotné nasazení v citlivých prostředích, jako jsou firemní sítě nebo osobní finance. V širším ekosystému to ovlivní vývoj podobných produktů od konkurentů, jako Google nebo Anthropic, kteří čelí stejným výzvám. Pokud se prompt injection stane standardní hrozbou, může způsobit regulace, zpomalit adopci AI agentů a donutit firmy investovat do robustnějších bezpečnostních vrstev. Dlouhodobě to podtrhuje limity současných LLM, kde bezpečnost závisí na probabilistickém zpracování textu, nikoli na absolutní izolaci. (512 slov)

Číst původní článek

Zdroj: 📰 Fox News