Soudce v New Yorku nařídil OpenAI předat komunikaci s právníky o smazání databází s pirátskými knihami

Souhrn

Soudce v newyorském federálním soudu nařídila společnosti OpenAI předat veškerou komunikaci s právníky ohledně důvodů smazání dvou rozsáhlých databází knih, které byly staženy z pirátské online knihovny LibGen. Tento krok je klíčový v rámci kolektivní žaloby na porušení autorských práv, kterou podaly významné mediální domy i jednotliví autoři, mezi nimiž jsou například George R.R. Martin a John Grisham.

Klíčové body

OpenAI smazalo databáze „Books1“ a „Books2“ v roce 2022, které pravděpodobně obsahovaly miliony pirátsky získaných knih.
Soudkyně Ona Wang zamítla námitku právního privilegia, protože OpenAI samo uvedlo své „dobré úmysly“ jako součást své obhajoby.
Žalobci tvrdí, že OpenAI využilo tyto knihy k trénování svých AI modelů, včetně ChatGPT.
Mezi žalobce patří nejen jednotliví autoři, ale i vydavatelství jako Tribune Publishing a MediaNews Group.

Podrobnosti

V roce 2018 údajně zaměstnanec OpenAI stáhl dvě rozsáhlé kolekce knih – „Books1“ a „Books2“ – z tzv. „shadow library“ LibGen, což je známý zdroj nelegálně distribuovaných knih. Tyto databáze byly v roce 2022 smazány, což OpenAI vysvětlovalo různými důvody, včetně obav o kvalitu dat či legální rizika. Soudkyně Ona Wang však v 28stránkovém rozhodnutí uvedla, že právě tato nekonzistence v důvodech zpochybňuje možnost uplatnění právního privilegia (attorney-client privilege). OpenAI tvrdí, že nejednalo záměrně protiprávně, ale soudkyně zdůraznila, že „stav mysli“ společnosti je nyní předmětem vyšetřování a žalobci mají právo na přístup k relevantním důkazům. Tato žaloba je součástí širšího právního tlaku na AI firmy kvůli způsobu, jakým získávají trénovací data pro své modely.

Proč je to důležité

Toto rozhodnutí má potenciál ovlivnit celý AI průmysl, protože otevírá cestu k prokazování záměrného porušení autorských práv při trénování velkých jazykových modelů (LLM). Pokud soudy budou vyžadovat transparentnost ohledně zdrojů trénovacích dat, mohlo by to vést k přehodnocení datových strategií u všech hlavních hráčů – včetně Google, Meta nebo Anthropic. Zároveň to posiluje pozici autorů a vydavatelů v boji o spravedlivé využívání jejich děl v éře generativní AI.

Číst původní článek

Zdroj: 📰 Boston Herald