Souhrn
Americká AI firma Anthropic, tvůrce modelu Claude, obviňuje tři čínské společnosti – DeepSeek, Moonshot AI a MiniMax – z rozsáhlého kopírování dat. Tyto firmy údajně vytvořily přes 24 tisíc falešných účtů na platformě Anthropic a odeslaly jim 16 milionů dotazů, aby získaly odpovědi pro trénování vlastních modelů. Tento případ odhaluje napětí v AI průmyslu ohledně metod destilace.
Klíčové body
- Falešné účty a objem dat: Přes 24 000 účtů, celkem 16 milionů interakcí; DeepSeek (150 tisíc), Moonshot AI (3,4 milionu), MiniMax (13 milionů).
- Metoda destilace: Použití výstupů velkého modelu Claude jako tréninkových dat pro menší, levnější modely konkurentů.
- Další obvinění: OpenAI podobně upozornila na DeepSeek v memorandu pro americké zákonodárce.
- Reakce firem: Čínské společnosti neodpověděly na žádosti o komentář.
- Širší kontext: Čínské AI modely rychle napredují v kódování a uvažování, navzdory omezením v přístupu k špičkovým čipům.
Podrobnosti
Anthropic, americká společnost specializující se na vývoj velkých jazykových modelů (LLM) jako Claude – systém určený pro generování textu, kódování a složité úlohy uvažování –, odhalil systematické zneužití své platformy. Podle zprávy Wall Street Journal firmy DeepSeek (zabývá se vývojem open-source AI modelů s důrazem na efektivitu), Moonshot AI (vyvíjí pokročilé LLM pro čínský trh) a MiniMax (současný model Kimi.ai s vysokými schopnostmi v dlouhých kontextech) vytvořily tisíce automatizovaných účtů. Tyto účty sloužily k odesílání masivních objemů dotazů, jejichž odpovědi byly sbírány jako syntetická tréninková data.
Destilace, známá v AI jako knowledge distillation, je technika, při níž se výstupy velkého, výkonného modelu (učitele) používají k natrénování menšího modelu (žáka). To umožňuje rychlejší a levnější vývoj bez nutnosti plného tréninku od nuly. Anthropic uznává, že destilace je legální pro interní použití, ale její aplikace na konkurenční systémy představuje riziko kopírování know-how. Například DeepSeek plánuje brzy vydat novou generaci modelu, přičemž minulý výzkum ukázal, že jejich trénink zahrnoval webové stránky s AI-generovanými odpověďmi, což nepřímo kopíruje data z jiných systémů.
Tento incident navazuje na podobné varování od OpenAI, která DeepSeek obviňuje z analogických praktik. Čínské firmy jako Moonshot (model Kimi) a MiniMax nedávno vydaly modely s výjimečnými schopnostmi v programování a logickém uvažování, což vyvolává obavy z rychlého dohánění USA. Navzdory americkým exportním omezením na GPU čipy (jako Nvidia H100) Čína využívá syntetická data a efektivnější architektury. Syntetická data se stávají standardem, protože kvalitní veřejné datasety docházejí.
Proč je to důležité
Tento spor eskaluje geopolitické napětí mezi USA a Čínou v AI sektorech, kde se rozhoduje o technologické nadvládě. Obvinění z destilace zpochybňuje hranice legálního sdílení znalostí a může vést k novým regulacím, jako ochranným mechanismům proti scrapingům (automatickému sběru dat). Pro průmysl to znamená rizika pro inovace: firmy budou muset investovat do detekce zneužití a vodoznaků v výstupech modelů. Uživatelé pocítí dopady v podobě dražších předplatných nebo omezeného přístupu k API. Dlouhodobě to urychlí vývoj bezpečnějších AI systémů, ale zpomalí globální spolupráci. Celkově podtrhuje, jak syntetická data mění dynamiku AI závodů, kde Čína kompenzuje hardwareové deficity datovými triky.
Zdroj: 📰 The Times of India