'Výsledky byly falšovány': Odcházející šéf AI Meta potvrzuje manipulaci benchmarků Llama 4

Souhrn

Yann LeCun, odcházející hlavní vědec pro umělou inteligenci u Meta, potvrdil v rozhovoru pro Financial Times, že výsledky benchmarků modelu Llama 4 byly falšovány. Tým použil pro různé testy odlišné varianty modelu, aby vypadal výkonnější. Tato praxe vedla k kritice vydání jako selhání, ztrátě důvěry generálního ředitele Marka Zuckerberga a masivním personálním změnám v divizi generativní AI.

Klíčové body

LeCun přiznal, že ‘výsledky byly trochu falšovány’ a tým použil různé modely pro jednotlivé benchmarky.
Llama 4 byla při vydání v dubnu 2025 široce kritizována jako neúspěch.
Zuckerberg ztratil důvěru v zapojené zaměstnance a odstavil celou organizaci generativní AI.
LeCun po více než deseti letech odchází z Meta zakládat novou firmu Advanced Machine Intelligence Labs.
Kritizoval nové zaměstnance Meta jako ‘úplně posedlé LLM’ a označil velké jazykové modely za slepou uličku pro superinteligenci.

Podrobnosti

Model Llama 4 je nejnovější iterací open-source řady velkých jazykových modelů (LLM) od Meta, určených pro generování textu, překlady, sumarizace a další úlohy zpracování přirozeného jazyka. Benchmarky představují standardizované testy, které měří výkon AI modelů na úlohách jako logické uvažování, znalosti světa nebo kódování, například MMLU pro znalosti nebo HumanEval pro programování. Tyto skóre slouží k porovnání modelů mezi sebou i s konkurencí jako GPT od OpenAI nebo Gemini od Google.

Podle LeCuna, který je spoluautorem konvolučních neuronových sítí (CNN) a nositelem Turingovy medaile, tým Meta před vydáním Llama 4 v dubnu 2025 úmyslně volil pro každý benchmark tu variantu modelu, která dosáhla nejlepšího výsledku. Tím model vypadal univerzálně silnější, než ve skutečnosti byl. Při spuštění byl Llama 4 okamžitě označen za zklamání – nezodpovídal očekáváním rychlého postupu vůči uzavřeným modelům konkurence a benchmarky působily nerealisticky.

Tato aféra měla hluboké interní důsledky. Zuckerberg byl ‘opravdu naštvaný’ a ztratil důvěru v celý tým, což vedlo k odstavení divize generativní AI. Mnoho zaměstnanců odešlo, další plánují odchod. LeCun sám, po deseti letech v Meta, zakládá Advanced Machine Intelligence Labs, nový výzkumný podnik zaměřený na pokročilou strojovou inteligenci mimo LLM paradigma. Kritizoval nedávné najaty pro Meta jako ‘úplně LLM-pilled’, tedy fanaticky věřící v velké jazykové modely, které sám opakovaně označil za slepou uličku na cestě k superinteligenci – systému překonávajícímu lidskou inteligenci ve všech oblastech.

Tato manipulace není ojedinělá; v AI průmyslu je ‘gaming benchmarků’ běžné, kdy firmy trénují modely specificky na testy nebo cherry-pickují výsledky. LeCunovo přiznání však podtrhuje problémy u jednoho z největších hráčů.

Proč je to důležité

Toto odhalení oslabuje důvěryhodnost benchmarků jako měřítka pokroku v umělé inteligenci. Uživatelé a firmy se spoléhají na tyto skóre při výběru modelů pro aplikace jako chatboti, automatizace nebo výzkum, ale falšování vede k chybným rozhodnutím. Pro průmysl znamená nutnost lepších, odolnějších evaluací – například dynamických testů nebo otevřených datových sad.

V širším kontextu zesiluje to soutěž mezi Meta (open-source přístup), OpenAI a Google. Odchod LeCuna, klíčové postavy, signalizuje nestabilitu v Meta AI a posun k alternativním architekturám mimo LLM. Pro uživatele znamená, že Llama 4 není tak pokročilá, jak byla prezentována, a zdůrazňuje rizika spěchu v AI vývoji. Celkově to může vést k větší transparentnosti, ale krátkodobě podkopává důvěru v celý sektor. (512 slov)

Číst původní článek

Zdroj: 📰 Slashdot.org