New York Times žaluje startup s umělou inteligencí za nelegální kopírování milionů článků

Souhrn

New York Times podal žalobu proti startupu Perplexity AI, který obviňuje z nelegálního kopírování a využívání milionů svých článků. Firma Perplexity, specializující se na vyhledávač poháněný umělou inteligencí, údajně scrapovala obsah bez souhlasu k tréninku svých modelů a pro vytváření shrnutí odpovědí uživatelům. Tento případ navazuje na podobné soudní spory s dalšími AI firmami.

Klíčové body

New York Times obviňuje Perplexity z porušení autorských práv kopírováním přes dvou milionů článků.
Perplexity AI je vyhledávač na bázi LLM, který generuje odpovědi s citacemi zdrojů, ale bez placené licence.
Žaloba požaduje náhradu škody a zákaz dalšího používání obsahu.
Případ byl podán u federálního soudu v New Yorku.
Perplexity čelí kritice za nedostatečné respektování autorských práv v porovnání s Google.

Podrobnosti

New York Times, jeden z nejvýznamnějších světových deníků, zahájil právní spor proti Perplexity AI, kalifornskému startupu založenému v roce 2022. Perplexity se zaměřuje na vývoj vyhledávače poháněného velkými jazykovými modely (LLM), jako jsou varianty GPT od OpenAI nebo vlastní modely. Tento systém načítá data z webu v reálném čase, analyzuje je a generuje stručné odpovědi s citacemi zdrojů, což ho staví do přímé konkurence s Google Search. Na rozdíl od tradičních vyhledávačů však Perplexity často přímo převádí obsah do nové formy, což podle NYT překračuje hranice fair use.

Podle žaloby Perplexity systematicky scrapoval – tedy automaticky stahoval – obsah z webu New York Times, včetně plných textů článků, bez jakéhokoli povolení nebo úhrady. Odhaduje se, že šlo o přes dva miliony dokumentů zahrnujících novinové články, analýzy a investigativní žurnalistiku. Tyto data byla použita nejen k tréninku AI modelů Perplexity, ale i k okamžitému generování odpovědí pro uživatele, které často obsahují významné části originálního textu. NYT argumentuje, že toto chování nejen porušuje americké autorské právo podle zákona Copyright Act, ale také ohrožuje ekonomický model vydavatelů, kteří investují miliony do tvorby kvalitního obsahu.

Tento spor není ojedinělý. New York Times úspěšně žaloval v roce 2023 OpenAI a Microsoft za podobné praktiky spojené s ChatGPT, kde došlo k demonstraci, že model dokáže reprodukovat celé články. Další vydavatelé, jako Associated Press nebo Axel Springer, vedou analogické případy proti Anthropic nebo Google. Perplexity, který získal investice přes 500 milionů dolarů včetně od Nvidie a Jeffa Bezose, se brání tvrzením, že jeho systém respektuje robots.txt protokoly a poskytuje citace, což by mělo stačit pro fair use. Nicméně kritici poukazují, že Perplexity často ignoruje paywall a generuje obsah, který snižuje návštěvnost původních stránek.

Pro uživatele znamená tento vývoj riziko omezení přístupu k AI nástrojům, pokud soudy rozhodnou ve prospěch vydavatelů. Firmy jako Perplexity by mohly muset uzavírat licenční smlouvy, což by zvýšilo náklady na provoz – odhaduje se, že licence za data tvoří až 20 % rozpočtu na trénink LLM.

Proč je to důležité

Tento případ může nastavit precedent pro celý ekosystém umělé inteligence, kde data z otevřeného webu tvoří základ tréninku modelů. Pokud NYT uspěje, donutí to AI startupy k placenému získávání obsahu, což zpomalí inovace u menších firem a posílí pozici gigantů jako OpenAI, kteří už jednají o licencích. Na druhé straně to ochrání tvůrce obsahu před „parazitismem“ AI, kde modely profitují z práce bez kompenzace. V širším kontextu to ovlivní vývoj AI search technologií, protože současné modely závisí na masivním scrapování. Dlouhodobě by to mohlo vést k hybridnímu modelu, kde AI firmy platí za data podobně jako Spotify za hudbu, což by stabilizovalo mediální průmysl, ale zvýšilo ceny služeb pro koncové uživatele.

Číst původní článek

Zdroj: 📰 Biztoc.com