Souhrn
Zakladatel a generální ředitel Scale AI Alexandr Wang tento podzim vyjádřil nesouhlas s klíčovými manažery Meta, včetně Chrisa Cose (šéf produktu) a Andrewa Bosworthe (CTO reality labs), zejména v otázce využívání uživatelských dat z Instagramu pro trénink modelů umělé inteligence. Tato frikce probíhá v rámci nově založeného AI laboratoře Meta nazvaného TBD, kde se řeší budoucnost datového tréninku. Článek New York Times z 10. prosince 2025 popisuje vnitřní konflikty, které mohou ovlivnit strategii Meta v AI.
Klíčové body
- Alexandr Wang, zakladatel Scale AI (firma specializující se na označování a přípravu dat pro trénink AI modelů), nesouhlasí s přístupem Meta k datům z Instagramu.
- Kritika směřuje k Chris Coxovi a Andrew Bosworthovi, kteří podporují intenzivní využití sociálních dat pro vývoj AI.
- Konflikt se týká laboratoře TBD, která má být centrem Meta AI výzkumu.
- Scale AI je klíčovým dodavatelem datových služeb pro velké AI projekty, jako jsou modely od OpenAI nebo Google.
- Tato neshoda nastoluje debatu o kvalitě a etice dat v AI tréninku.
Podrobnosti
Scale AI, založená Alexandrem Wangem v roce 2016, se zaměřuje na poskytování vysoce kvalitních anotovaných dat pro trénink velkých jazykových modelů (LLM) a dalších AI systémů. Firma pomohla s projekty jako ChatGPT od OpenAI nebo autonomní systémy, kde přesnost dat rozhoduje o výkonu modelu. Wang, jenž je považován za jednoho z nejvlivnějších mladých lídrů v AI (v 28 letech miliardář díky valuaci Scale AI přes 14 miliard dolarů), tento podzim na veřejných fórech a soukromých schůzkách kritizoval plány Meta.
Meta, mateřská společnost Facebooku a Instagramu, buduje AI laboratoř TBD (To Be Determined), která má konkurovat OpenAI a Anthropic. Manažeři jako Chris Cox, zodpovědný za produkty jako Facebook a Instagram, a Andrew Bosworth, který vede vývoj smíšené reality (AR/VR), prosazují využití interních dat z Instagramu – fotografií, videí, popisků a interakcí uživatelů – k tréninku multimodálních AI modelů. Tyto modely by měly generovat obrázky, texty nebo dokonce personalizovaný obsah přímo v aplikacích Meta.
Wang však argumentuje, že data z sociálních sítí jsou často šumovitá: plná filtrů, duplicit, nízké kvality nebo biasů z uživatelských preferencí. Podle jeho názoru takové surové data nejsou vhodná pro high-end AI trénink bez rozsáhlého čištění a anotace, což je přesně specializace Scale AI. Tato neshoda není izolovaná – odráží širší debatu v průmyslu, kde giganti jako Meta chtějí minimalizovat závislost na externích dodavatelích dat (jako Scale AI nebo Snorkel AI) a spoléhat se na vlastní zdroje. Například Meta nedávno otevřeně zveřejnila model Llama 3.1, který byl trénován na miliardách tokenů, včetně veřejných dat z internetu, ale Wang varuje před riziky kvality.
Vnitřní frikce v TBD labu zahrnuje i otázky alokace zdrojů: Meta investuje miliardy do GPU clusterů (jako 350 000 H100 od Nvidia), ale bez kvalitních dat hrozí neefektivita. Wangův nesouhlas mohl ovlivnit rozhodnutí o partnerstvích – Scale AI spolupracuje s mnoha firmami, ale s Meta je vztah napjatý.
Proč je to důležité
Tato neshoda podtrhuje klíčový problém AI průmyslu: data jsou novou ropou, ale jejich kvalita rozhoduje o konkurenční výhodě. Pro Meta, které chce dohnat lídry jako OpenAI (GPT-4o) nebo Google (Gemini), znamená to riziko zpoždění, pokud neinvestuje do profesionálního datového managementu. Pro uživatele to má dopady na soukromí – využití Instagram dat bez explicitního souhlasu vyvolává etické otázky podle GDPR v EU. V širším kontextu posiluje to pozici firem jako Scale AI, které mohou diktovat podmínky v partnerstvích. Pokud se frikce prohloubí, může to ovlivnit vývoj otevřených modelů Llama a posunout debatu k regulaci dat v AI směrem k bezpečnějším standardům.
Zdroj: 📰 Biztoc.com