Insideri z AI průmyslu spustili web k otravování dat, která živí modely umělé inteligence

Souhrn

Skupina insiderů z AI průmyslu spustila před týdnem projekt Poison Fountain, který má otrávit data používaná k tréninku modelů umělé inteligence. Provozovatelé webů jsou vyzýváni, aby na svých stránkách umístili odkazy vedoucí k upraveným datům, jež AI crawleři automaticky sbírají. Iniciativa vychází z výzkumu Anthropic a má ukázat zranitelnost AI vůči masové sabotáži tréninkových dat.

Klíčové body

Projekt Poison Fountain funguje již týden a hledá spojence mezi webovými operáty.
Inspirován prací Anthropic z října, která prokázala, že k degradaci modelů stačí jen několik škodlivých dokumentů.
Anonymní zdroj z velké americké technologické firmy varuje před „Achillovou patou“ AI.
Data poisoning se liší od útoků, kde AI sama generuje škodlivé rady, například v oblasti zdraví.
Příklad útoků: Silent Branding, kde upravená datová sada vkládá loga značek do výstupů text-to-image modelů.

Podrobnosti

AI crawleři, jako ty nasazované firmami typu OpenAI nebo Google, procházejí internet a sbírají veřejně dostupná data k tréninku velkých jazykových modelů (LLM) nebo obrazových generátorů. Tento proces je často označován jako scraping a vede k napětí s vydavateli obsahu, kteří svá data chrání pomocí robots.txt nebo paywallů. Projekt Poison Fountain tuto dynamiku využívá k opaku: nabízí webovým správci snadno vkládatelné odkazy na soubory s úmyslně chybnými nebo manipulovanými daty.

Otrava dat (data poisoning) může probíhat v různých fázích vývoje AI. Na úrovni zdroje jde o chybné informace na webech, například faktické nepřesnosti nebo bugy v kódu. Pokročilejší formy zahrnují cílené útoky na tréninkové datasety, jako byl Silent Branding, kde byly obrázky upraveny tak, aby text-to-image modely, jako Stable Diffusion, generovaly výstupy s nechtěnými logy. Výzkum Anthropic z října ukázal, že k výraznému snížení kvality modelu stačí jen hrstka škodlivých dokumentů – například 100 z milionů – což činí takové útoky prakticky proveditelnými i pro jednotlivce.

Iniciátory projektu, včetně anonymního zdroje pracujícího pro jednu z hlavních amerických AI firem, argumentují alarmem z toho, co s AI modely firmy staví. Poison Fountain tak není jen technickou demonstrací, ale voláním po kolektivní akci proti „parazitickému“ vztahu mezi AI vývojáři a webovým obsahem. Zdroj zdůraznil, že cílem je zvýšit povědomí o zranitelnostech, nikoli způsobit chaos, avšak rizika jsou zjevná: otrávená data by mohla zhoršit přesnost modelů v kritických oblastech, jako je medicína nebo právo.

Proč je to důležité

Tento projekt odhaluje klíčovou slabinu současných AI modelů závislých na veřejných datech: jejich trénink je zranitelný vůči koordinovaným útokům, což může vést k eskalaci v „válce o data“. Pro průmysl znamená riziko dražších ochran, jako ověřování datových zdrojů nebo uzavřené datasety, což zpomalí pokrok v otevřeném vývoji. Z etického hlediska vyvolává otázky legitimity sabotáže insiderů – je to obrana proti monopolům, nebo nebezpečná anarchie? Pro uživatele to signalizuje, že budoucí AI odpovědi mohou být méně spolehlivé, pokud otrava dat nabere na obrátkách, a zdůrazňuje nutnost lepší regulace sběru dat. V širším kontextu posiluje debatu o udržitelnosti současného AI boomu, kde firmy jako Anthropic sám přiznávají praktické hrozby, které teď někteří využívají k protiútoku.

Číst původní článek

Zdroj: 📰 Theregister.com