Bývalý reportér Wall Street Journal, který odhalil podvod Theranosu, žaluje AI giganty kvůli údajnému pirátství knih

Souhrn

John Carreyrou, investigativní novinář, jehož reportáže v Wall Street Journal vedly k pádům podvodné firmy Theranos, nyní zaútočil na šest klíčových hráčů v oblasti umělé inteligence. Žaluje Google, xAI Elona Muska, OpenAI, Meta Platforms, Anthropic a Perplexity za údajné neoprávněné použití svých chráněných knih k trénování velkých jazykových modelů (LLM), které pohánějí populární chatbota. Spolu s ním žaluje pět dalších autorů a tvrdí, že AI průmysl staví svou technologii na ukradené duševní vlastnosti bez kompenzace.

Klíčové body

Žaloba podána v kalifornském federálním soudu; první případ, kde je obviněno xAI.
Obvinění z pirátství knih, které slouží k trénování LLM pro generování textu v chatbotech jako ChatGPT nebo Claude.
Žalobci: Carreyrou (autor knihy Bad Blood) a další autoři.
Reakce: Perplexity tvrdí, že knihy neindexuje; ostatní firmy nekomentovaly.
Kontext: Část vlny soudních sporů proti AI firmám za scraping dat z internetu.

Podrobnosti

John Carreyrou získal Pulitzerovu cenu za své reportáže z let 2015–2018, které odhalily, jak startup Theranos pod vedením Elizabeth Holmesové falešně sliboval revoluční krevní testy z kapky krve. Tyto texty vedly k trestnímu stíhání Holmesové a Sunnyho Balwaniho a inspirovaly jeho bestseller Bad Blood: Secrets and Lies in a Silicon Valley Startup, který prodal miliony výtisků. Nyní, jako novinář New York Times, Carreyrou obviňuje AI firmy, že bez souhlasu načetly jeho a další knihy do trénovacích dat pro LLM. Tyto modely, jako GPT od OpenAI (pohání ChatGPT pro konverzační AI), Llama od Meta (otevřený model pro vývojáře), Gemini od Google (multimodální AI pro vyhledávání a generování obsahu), Claude od Anthropic (bezpečnostně zaměřený LLM) nebo Grok od xAI (konverzační AI s důrazem na pravdivost), se učí na obrovských korpusech textů, aby generovaly odpovědi podobné lidským.

Perplexity je AI vyhledávač, který kombinuje LLM s real-time vyhledáváním pro odpovědi s citacemi. xAI, založené Elonem Muskem v roce 2023, vyvíjí Grok za účelem urychlení vědeckého objevování. Žaloba argumentuje, že firmy masivně investovaly miliardy do AI díky těmto datům, zatímco autoři nedostali nic. Tento případ navazuje na podobné žaloby, například od New York Times proti OpenAI nebo od vydavatelů jako Penguin Random House. Soudy teď řeší, zda trénink na chráněných textech spadá pod fair use – výjimku z autorských práv pro kritiku nebo vzdělávání – nebo je to přímé porušení. Experti upozorňují, že bez legálních datových zdrojů by AI vývoj zpomalil, ale současný scraping z internetu (včetně Books3 datasetu) je právně rizikový.

Proč je to důležité

Tento spor může nastavit precedens pro celý AI průmysl, kde trénink LLM závisí na datech z webu bez explicitního souhlasu. Pokud soudy rozhodnou ve prospěch autorů, firmy budou muset platit licenční poplatky nebo hledat syntetická data, což zdraží vývoj a zpomalí inovace v chatbotech a generativní AI. Pro uživatele to znamená potenciálně dražší služby nebo omezenou kvalitu modelů. Zároveň posiluje debatu o etice: AI giganty jako OpenAI (s investicemi přes 13 miliard dolarů) profitují z kreativní práce bez sdílení zisků. Pro xAI to je první velký právní test, což může ovlivnit Muskovu strategii proti konkurentům. V širším kontextu to urychlí přechod k licencovaným datasetům, jako Common Crawl s oprávněními, a donutí legislativu (např. EU AI Act) k jasnějším pravidlům pro duševní vlastnictví.

Číst původní článek

Zdroj: 📰 New York Post