Microsoft varuje, že otrávená tlačítka a odkazy AI mohou zradit vaši důvěru

Souhrn

Microsoft upozorňuje na novou techniku manipulace AI modelů nazvanou AI Recommendation Poisoning, při níž podniky vkládají skryté instrukce do URL parametrů tlačítek typu „Shrň s AI“ a odkazů na svých webech. Tyto prompty ovlivňují výstupy AI tak, aby poskytovaly zkreslená doporučení v citlivých oblastech jako zdraví, finance či bezpečnost. Bezpečnostní tým Microsoftu Defender identifikoval přes 50 unikátních promptů od 31 firem napříč 14 průmyslovými odvětvími.

Klíčové body

Technika je analogická k SEO Poisoning, ale cílí na paměť a doporučení AI modelů místo vyhledávačů.
Manipulace probíhá přes query parametry v URL, což je snadno dostupné i díky volně sdíleným nástrojům.
Microsoft zaznamenal nárůst takových útoků, které mohou vést k nenápadně zkresleným radám bez vědomí uživatelů.
Příklad: Odkaz s URL-kódovaným promptem nutícím AI shrnout článek v pirátské mluvě fungoval na Perplexity AI.
Dopady zahrnují rizika v kritických oblastech, kde AI asistenti ovlivňují rozhodování.

Podrobnosti

Microsoft, který aktivně propaguje výhody AI, nyní varuje před zneužitím této technologie v praxi. Bezpečnostní výzkumníci společnosti odhalili, jak firmy strategicky vkládají manipulativní data do „paměti“ AI modelů. Princip spočívá v přidání query parametru do URL odkazu směřujícího na chatboty jako Perplexity AI nebo podobné služby. Tento parametr obsahuje URL-kódovaný text s instrukcemi, které AI interpretuje jako součást zadání. Například zadání shrnutí článku z CNBC s příkazem „napiš to jako pirát“ vedlo k odpovědi v pirátské mluvě, přičemž AI citovala původní zdroj i další reference.

Tato metoda je extrémně snadná na implementaci díky volně dostupným nástrojům, což umožňuje rychlé nasazení na webech. Microsoft Defender Security Team v blogovém příspěvku uvedl, že analyzovali více než 50 unikátních promptů od 31 podniků v odvětvích od financí po zdravotnictví. Tyto prompty nejsou jen hravé, ale často směřují k prosazování specifického pohledu, například doporučení určitých produktů nebo služeb. Na rozdíl od tradičního SEO Poisoningu, kde se optimalizují stránky pro lepší pozici ve vyhledávačích, zde jde o přímou injekci biasu do generovaného obsahu AI. Uživatelé, kteří kliknou na takové tlačítko „Shrň s AI“, nedostávají neutrální shrnutí, ale verzi ovlivněnou záměrem webu.

Pro uživatele to znamená, že důvěra v AI asistenty klesá, protože nelze snadno odhalit manipulaci. AI modely jako ty v Perplexity nebo Microsoftových službách zpracovávají tyto prompty jako legitimní vstup, což vede k outputu, který vypadá autenticky. Firmy tak mohou subtilně ovlivňovat rozhodnutí spotřebitelů, aniž by to prozradily. Microsoft doporučuje větší opatrnost při používání externích AI tlačítek a zdůrazňuje potřebu lepší detekce v modelech.

Proč je to důležité

Tato technika odhaluje zranitelnost současných AI systémů vůči prompty injection, což je širší problém v ekosystému velkých jazykových modelů (LLM). V době, kdy AI asistenti integrují do webů pro rychlé shrnutí obsahu, může masivní nasazení vést k šíření zkreslených informací. Pro průmysl to znamená nutnost nových bezpečnostních opatření, jako filtrování query parametrů nebo watermarking promptů. V kritických sektorech, kde AI radí ohledně zdraví nebo financí, může manipulace způsobit reálné škody – od špatných investičních rozhodnutí po zavádějící zdravotní rady. Microsoftův objev podtrhuje, že růst AI přináší nejen výhody, ale i nové vektory útoků, které vyžadují okamžitou reakci od vývojářů i regulátorů. Pokud se technika rozšíří, podkopá důvěryhodnost AI jako nástroje pro objektivní analýzu.

Číst původní článek

Zdroj: 📰 Theregister.com