Úniky Gemini 3.5: Google testuje modely Fierce Falcon a Ghost Falcon na LM Arena po GPT-5.2

Souhrn

Google údajně testuje dva modely z řady Gemini 3.5, Fierce Falcon a Ghost Falcon, na proprietární platformě LaMarina, která slouží k hodnocení výkonu velkých jazykových modelů (LLM) v reálných scénářích. Zaměřují se na složité úlohy jako tvorba her, návrh uživatelských rozhraní (UI) a simulace kódování. Fierce Falcon vyniká rychlostí a přesností, zatímco Ghost Falcon je lepší v kreativních disciplínách, ale trpí občasnými nesrovnalostmi.

Klíčové body

Google testuje modely na LaMarina, platformě pro simulaci reálných úloh, identifikaci chyb a optimalizaci výkonu.
Fierce Falcon exceluje v rychlosti a přesnosti při kódování a simulacích.
Ghost Falcon je silný v kreativních úkolech jako návrh UI a generování vektorové grafiky (SVG).
Modely podporují interaktivní vývoj her a další pokročilé funkce.
Testy probíhají v kontextu konkurence s OpenAI GPT-5.2, který zatím není veřejně dostupný.

Podrobnosti

Tyto informace pocházejí z úniků, které popisují interní testy Google na platformě LaMarina – pravděpodobně varianta nebo proprietární verze veřejné LMSYS Chatbot Arena, což je online leaderboard pro anonymní srovnávání LLM na základě hlasování uživatelů. LaMarina umožňuje vývojářům spouštět simulace reálných scénářů, jako je generování interaktivních her, kde model musí vytvořit funkční kód pro prohlížeč, včetně logiky hry, grafik a ovládání. Například Fierce Falcon rychle produkuje přesný kód bez chyb, což ho činí vhodným pro aplikační vývoj, kde je priorita efektivita.

Ghost Falcon naopak září v kreativních úkolech, jako je návrh UI pomocí SVG – skalární vektorové grafiky, která slouží k tvorbě responzivních ikon, diagramů nebo animací bez ztráty kvality při škálování. Tento model dokáže navrhnout komplexní rozhraní pro mobilní aplikace nebo web, integrovat interaktivní prvky a přizpůsobit je uživatelským potřebám. Nicméně testy odhalily slabiny: Ghost Falcon občas produkuje nekonzistentní výstupy, například neslučitelné styly nebo chybné reference v kódu, což vyžaduje další ladění.

V širším kontextu jde o odpověď Google na pokroky OpenAI, kde GPT-5.2 představuje hypotetickou aktualizaci s lepšími multimodálními schopnostmi. Gemini 3.5 série navazuje na Gemini 1.5 a 2.0, které již zvládají dlouhé kontexty a multimodální vstupy (text, obrázky, video). Tyto testy naznačují posun k agentickým systémům, kde AI nejen generuje kód, ale simuluje celé vývojové cykly. Pro uživatele to znamená potenciálně lepší nástroje pro programátory v prostředích jako Google Colab nebo Vertex AI, kde lze integrovat tyto modely pro automatizaci.

Proč je to důležité

V konkurenčním prostředí AI, kde Google, OpenAI a Anthropic soutěží o náskok, tyto leaky ukazují na urychlený vývoj směrem k univerzálním modelům schopným komplexních úkolů. Pokud se Gemini 3.5 potvrdí, posílí pozici Google v cloudu a enterprise řešeních, kde přesnost v kódování a kreativita v designu přímo ovlivňují produktivitu týmů. Nicméně závislost na testovacích platformách jako LaMarina zdůrazňuje rizika: veřejné leaderboardy mohou zkreslit výsledky kvůli biasu hlasování. Pro průmysl to znamená větší tlak na transparentnost a bezpečnost, protože takové modely by mohly generovat autonomní software bez lidského dohledu, což zvyšuje potřebu robustních bezpečnostních mechanismů proti halucinacím nebo zneužití.

Číst původní článek

Zdroj: 📰 Geeky Gadgets