Souhrn
Velký jazykový model Gemini 3.0 Pro od Google pomohl výzkumníkům z projektu GDELT rozluštit ručně psané okružní poznámky v exempláři Norimberské kroniky, vytištěné v roce 1493. Tyto malé kruhové anotace s latinskými zkratkami a římskými čísly zůstaly po staletí nevyřešené, přestože tištěný text je dobře pochopený. Model prokázal schopnost multimodálního uvažování napříč paleografií, chronologií a teologickou historií, když identifikoval poznámky jako výpočty Anno Mundi k usmíření dat z Septuaginty a hebrejské Bible.
Klíčové body
- Gemini 3.0 Pro analyzoval vysocerozlišovací snímky listu kroniky a interpretoval jak tištěný text, tak ručně psané roundels.
- Poznal zkrácené latinské termíny a římská čísla jako výpočty k určení roku narození Abraháma v prechristianském časovém rámci.
- Spojil anotace s jinými pasážemi kroniky a biblickými chronologiemi, přičemž dospěl k konzistentní interpretaci navzdory drobným číselným chybám.
- Norimberská kronika (Liber Chronicarum) je jedním z nejdůležitějších ilustrovaných děl raného novověku od Hartmanna Schedela.
- Projekt GDELT monitoruje globální události z médií pomocí AI a tentokrát aplikoval model na historické texty.
Podrobnosti
Norimberská kronika, známá také jako Liber Chronicarum, vyšla v roce 1493 v Norimberku a představuje první velké ilustrované vydání světské historie od stvoření světa po současnost. Obsahuje přes 600 dřevorytových ilustrací a je považována za vrchol rané knihtiskové produkce. Konkrétní list v jednom dochovaném exempláři obsahuje čtyři malé kruhové anotace, nazývané roundels, vyplněné zkráceným latinským textem a římskými čísly. Tyto marginální poznámky odborníci dlouho považovali za nevyřešitelnou záhadu, protože neodpovídaly známým dekorativním prvkům ani jednoduchým poznámkám.
Výzkumníci z GDELT Projectu, který se zabývá automatickou analýzou médií a globálních událostí pomocí AI nástrojů, nahráli do modelu Gemini 3.0 Pro vysocerozlišovací snímky listu. Model nejen rozpoznával znaky, ale prováděl složité uvažování: analyzoval paleografii (studium starých rukopisů) pro dekódování zkratek, chronologii pro výpočty Anno Mundi (rok od stvoření světa) a teologickou historii pro kontext biblických tradic. Zjistil, že autor poznámek se snažil sloučit data z Septuaginty (řecký překlad Starého zákona s delšími chronologiemi) a hebrejské Bible (kratší verze), aby určil přesný rok narození Abraháma. Například spojil římská čísla s pasážemi kroniky popisujícími biblické události a prechristianské časové osy.
Gemini 3.0 Pro, multimodální model schopen zpracovávat text i obrázky, úspěšně parsoval zkraty jako odkazy na biblické éry a propojil je s celkovým obsahem kroniky. I když udělal drobné chyby v číselných hodnotách (např. malé posunuty v římských číslech), celková interpretace je interně konzistentní a shoduje se se středověkými metodami biblické chronologie, jak je známe z prací jako Eusebius nebo Bede. Tento přístup ukazuje, jak AI dokáže integrovat vizuální a textové vstupy pro kontextovou analýzu, což přesahuje jednoduché OCR (optické rozpoznávání znaků).
Proč je to důležité
Tento případ demonstruje pokrok Gemini 3.0 Pro v multimodálním uvažování, což je klíčová schopnost pro budoucí aplikace v digitálních humanitách, jako je automatická transkripce archivních dokumentů nebo rekonstrukce historických textů. Pro průmysl znamená, že modely jako Gemini mohou asistovat vědcům při úkolech vyžadujících interdisciplinární znalosti, což urychluje výzkum v knihovnách jako British Library nebo Vatican Library. Nicméně drobné chyby zdůrazňují nutnost lidské verifikace – AI zatím nenahrazuje experty, ale funguje jako nástroj pro hypotézy. V širším kontextu posiluje to pozici Google v závodě o pokročilé LLM, kde multimodální reasoning (např. v Claude 3.5 nebo GPT-4o) slouží k praktickým úkolům mimo generování textu, jako analýza umění nebo vědecké ilustrace. Pro uživatele to otevírá dveře k nástrojům pro osobní archivní výzkum, ale vyžaduje kritické hodnocení výstupů.
Zdroj: 📰 SiliconANGLE News