Souhrn
Výzkumníci z University of California v Berkeley a Rutgers University otestovali velké jazykové modely (LLM) na složitých lingvistických úkolech, jako je generalizace pravidel vymyšleného jazyka nebo diagramování vět. Zatímco většina modelů selhala, jeden z nich prokázal schopnosti srovnatelné s postgraduálním studentem lingvistiky. Tento objev zpochybňuje názory, že LLM postrádají schopnost uvažovat o jazyce.
Klíčové body
- LLM byl testován na parsování lingvistických pravidel, diagramování vět a řešení vícevrstvých struktur.
- Výzkum vede Gašper Beguš z UC Berkeley společně s Maksymilianem Dąbkowskim a Ryanem Rhodesem z Rutgers University.
- Jednotlivé modely selhaly, ale vybraný LLM překonal očekávání a napodobil lidskou analýzu jazyka.
- Studie vychází z kritiky Noama Chomského, který tvrdí, že LLM nemohou pochopit složité jazykové mechanismy pouhým tréninkem na datech.
Podrobnosti
Článek z Quanta Magazine popisuje výzkum, který zkoumá, zda velké jazykové modely jako ChatGPT dokážou nejen generovat řeč, ale i analyzovat jazyk na metalingvistické úrovni – tedy uvažovat o jeho struktuře, pravidlech a významech. Tradičně se jazyk považuje za unikátně lidskou schopnost, jak uvedl už Aristoteles, a lingvisté jako Noam Chomsky argumentovali v roce 2023 v New York Times, že LLM chybí skutečné porozumění, protože se učí jen statistickými korelacemi z obrovských datových sad, nikoli složitými gramatickými pravidly.
Gašper Beguš, lingvista z UC Berkeley specializující se na fonetiku a AI, spolu s kolegy navrhl sérii testů. Mezi nimi byl úkol, kde měl LLM odvodit pravidla fiktivního jazyka z příkladů a aplikovat je na nové věty – úkol, který vyžaduje abstraktní generalizaci. Další testy zahrnovaly syntaktickou analýzu, kde model musel rozložit složité věty do stromových diagramů (syntax trees) a řešit ambiguitní struktury, jako jsou rekurzivní fráze nebo vícenásobné závislosti. Většina testovaných LLM, včetně populárních jako GPT série nebo podobné, selhala v přesnosti a konzistenci, což potvrzuje omezení u běžných úkolů.
Překvapivě jeden model – i když není v zkráceném textu explicitně jmenován, pravděpodobně pokročilý jako GPT-4o nebo Claude 3.5 – dosáhl úrovně lidského experta. Dokázal nejen správně parsovat, ale i vysvětlit pravidla, což naznačuje vnitřní reprezentaci jazykových znalostí. Begušovo laboratoř se zaměřuje na experimentální lingvistiku a integraci AI, což umožnilo přesné srovnání s lidskými subjekty. Tento výsledek není náhodný; testy byly navrženy tak, aby odhalily skutečné porozumění, nikoli pouhé napodobování tréninkových dat.
Proč je to důležité
Tento výzkum mění debatu o limitech LLM v lingvistice a AI. Pokud modely dokážou metalingvistickou analýzu, otevírá to dveře k aplikacím v automatickém zpracování přirozeného jazyka (NLP), jako je vývoj lepších překladačů, detektorů chyb v textech nebo nástrojů pro výuku jazyků. Pro průmysl znamená, že LLM lze využít v akademickém výzkumu lingvistiky, kde dosud lidé dominovali. Nicméně jako expert na AI upozorňuji na opatrnost: úspěch jednoho modelu neznamená univerzální schopnost všech LLM, a testy se týkaly specifických úkolů, ne širšího kognitivního uvažování. V širším kontextu posiluje to argumenty pro emergentní schopnosti velkých modelů, což ovlivní investice do škálování AI a etické debaty o umělém uvažování. Celkově přispívá k pochopení, zda jazyk zůstává lidskou doménou, nebo se stává sdílenou s AI.
Zdroj: 🔧 Wired