Anthropic obviňuje čínské AI firmy z kopírování dat pomocí falešných účtů a destilace AI

Souhrn

Americká AI firma Anthropic, tvůrce modelu Claude, obviňuje tři čínské společnosti – DeepSeek, Moonshot AI a MiniMax – z rozsáhlého kopírování dat. Tyto firmy údajně vytvořily přes 24 tisíc falešných účtů na platformě Anthropic a odeslaly jim 16 milionů dotazů, aby získaly odpovědi pro trénování vlastních modelů. Tento případ odhaluje napětí v AI průmyslu ohledně metod destilace.

Klíčové body

Falešné účty a objem dat: Přes 24 000 účtů, celkem 16 milionů interakcí; DeepSeek (150 tisíc), Moonshot AI (3,4 milionu), MiniMax (13 milionů).
Metoda destilace: Použití výstupů velkého modelu Claude jako tréninkových dat pro menší, levnější modely konkurentů.
Další obvinění: OpenAI podobně upozornila na DeepSeek v memorandu pro americké zákonodárce.
Reakce firem: Čínské společnosti neodpověděly na žádosti o komentář.
Širší kontext: Čínské AI modely rychle napredují v kódování a uvažování, navzdory omezením v přístupu k špičkovým čipům.

Podrobnosti

Anthropic, americká společnost specializující se na vývoj velkých jazykových modelů (LLM) jako Claude – systém určený pro generování textu, kódování a složité úlohy uvažování –, odhalil systematické zneužití své platformy. Podle zprávy Wall Street Journal firmy DeepSeek (zabývá se vývojem open-source AI modelů s důrazem na efektivitu), Moonshot AI (vyvíjí pokročilé LLM pro čínský trh) a MiniMax (současný model Kimi.ai s vysokými schopnostmi v dlouhých kontextech) vytvořily tisíce automatizovaných účtů. Tyto účty sloužily k odesílání masivních objemů dotazů, jejichž odpovědi byly sbírány jako syntetická tréninková data.

Destilace, známá v AI jako knowledge distillation, je technika, při níž se výstupy velkého, výkonného modelu (učitele) používají k natrénování menšího modelu (žáka). To umožňuje rychlejší a levnější vývoj bez nutnosti plného tréninku od nuly. Anthropic uznává, že destilace je legální pro interní použití, ale její aplikace na konkurenční systémy představuje riziko kopírování know-how. Například DeepSeek plánuje brzy vydat novou generaci modelu, přičemž minulý výzkum ukázal, že jejich trénink zahrnoval webové stránky s AI-generovanými odpověďmi, což nepřímo kopíruje data z jiných systémů.

Tento incident navazuje na podobné varování od OpenAI, která DeepSeek obviňuje z analogických praktik. Čínské firmy jako Moonshot (model Kimi) a MiniMax nedávno vydaly modely s výjimečnými schopnostmi v programování a logickém uvažování, což vyvolává obavy z rychlého dohánění USA. Navzdory americkým exportním omezením na GPU čipy (jako Nvidia H100) Čína využívá syntetická data a efektivnější architektury. Syntetická data se stávají standardem, protože kvalitní veřejné datasety docházejí.

Proč je to důležité

Tento spor eskaluje geopolitické napětí mezi USA a Čínou v AI sektorech, kde se rozhoduje o technologické nadvládě. Obvinění z destilace zpochybňuje hranice legálního sdílení znalostí a může vést k novým regulacím, jako ochranným mechanismům proti scrapingům (automatickému sběru dat). Pro průmysl to znamená rizika pro inovace: firmy budou muset investovat do detekce zneužití a vodoznaků v výstupech modelů. Uživatelé pocítí dopady v podobě dražších předplatných nebo omezeného přístupu k API. Dlouhodobě to urychlí vývoj bezpečnějších AI systémů, ale zpomalí globální spolupráci. Celkově podtrhuje, jak syntetická data mění dynamiku AI závodů, kde Čína kompenzuje hardwareové deficity datovými triky.

Číst původní článek

Zdroj: 📰 The Times of India