Art House Melichar Brandýs nad Labem - popup galerie pro toto léto

Novinky: Nano Banana, xAI Grok Code, NVIDIA Jetson Thor, Microsoft VibeVoice a další

💡 Letní škola AI zdarma! Každý pracovní den jedna lekce, za tři týdny jste v obraze.
👉 Přidejte se zdarma na skola.prolnuto.cz

Patrick Zandl · 31. srpen 2025

Rychlé shrnutí článku
  • xAI představilo rychlý model Grok Code Fast 1 pro programování s agenty
  • Microsoft uvolnil open-source model VibeVoice pro syntézu řeči
  • NVIDIA uvedla výkonný čip Jetson Thor pro humanoidní roboty
  • Lindy AI představila nástroj Build pro automatickou tvorbu webových aplikací
  • Google odhalil model Gemini 2.5 Flash Image pro úpravu obrázků
  • Anthropic spustil rozšíření Claude pro Chrome v testovacím režimu

Uplynulý týden přinesl řadu významných oznámení v oblasti umělé inteligence. Největší společnosti představily nové modely pro programování, syntézu řeči a robotiku. Mezi hlavní novinky patří rychlý programovací model od xAI, výkonný čip pro roboty od společnosti NVIDIA a open-source model pro syntézu řeči od Microsoftu.

xAI uvádí Grok Code Fast 1 pro rychlé programování

Společnost xAI, kterou založil Elon Musk, představila nový model Grok Code Fast 1 určený specificky pro programování s využitím agentů. Model je navržen pro vysokou rychlost při zachování kvality výstupů a je optimalizován pro práci v rámci automatizovaných vývojových postupů.

Grok Code Fast 1 dosahuje čtyřnásobné rychlosti oproti konkurenčním modelům při desetině nákladů. Model je nyní dostupný zdarma v populárních vývojových prostředích včetně GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code, opencode a Windsurf. Tato široká integrace umožňuje vývojářům okamžitě využít výhody rychlejšího generování kódu přímo ve svých oblíbených nástrojích.

Lindy Build automatizuje tvorbu webových aplikací

Startup Lindy AI představil Build, první nástroj pro tvorbu aplikací pomocí umělé inteligence, který automaticky testuje a opravuje vlastní kód. Systém využívá agenta pro procházení webu, který autonomně klikává po rozhraní, identifikuje problémy a provádí opravy bez zásahu uživatele.

Nástroj umožňuje vytvořit plnohodnotné webové aplikace pouze na základě textového zadání. Součástí jsou integrované databáze a možnost bezproblémové automatizace pomocí agentů. Build představuje významný posun v oblasti takzvaného “vibe coding” - programování založeného na popisu požadovaného výsledku namísto psaní konkrétního kódu. Zatímco počáteční prototypování působí téměř magicky, Build řeší i následné ladění a opravy, které byly dosud problematické.

Microsoft vydává open-source model VibeVoice pro syntézu řeči

Microsoft uvolnil VibeVoice-1.5B, open-source model pro syntézu řeči schopný generovat až 90 minut vícehlasových konverzací. Model s 1,5 miliardami parametrů je vydán pod licencí MIT, což umožňuje jeho volné použití včetně komerčních aplikací.

VibeVoice podporuje čtyři různé hlasy s přirozeným střídáním mluvčích. Pro zajištění bezpečnosti obsahuje model vestavěné vodoznaky, které umožňují identifikovat synteticky vytvořený obsah. Tato funkcionalita je důležitá pro prevenci zneužití technologie k vytváření falešných nahrávek.

NVIDIA uvádí Jetson Thor pro humanoidní roboty

NVIDIA oznámila všeobecnou dostupnost platformy Jetson Thor, která poskytuje 7,5násobně vyšší výpočetní výkon pro umělou inteligenci oproti předchozí generaci. Tento “robotický mozek” za 3 499 dolarů je navržen specificky pro pohánění humanoidních robotů.

Jetson Thor umožňuje zpracování dat v reálném čase z více senzorů současně a provádění komplexního logického uvažování. Platforma obsahuje čip Blackwell s grafickým procesorem, 2× USB-A, 2× USB-C, Ethernet port, slot pro kartu microSD, porty HDMI 2.1 a DisplayPort pro 4K výstup při 60 snímcích za sekundu. Čip je určen pro náročné robotické aplikace vyžadující vysoký výpočetní výkon při zachování energetické efektivity.

Kling 2.1 přináší kontrolu nad začátkem a koncem videí

Čínská platforma Kling aktualizovala svůj model generování videí na verzi 2.1, která přináší funkci Start & End Frames. Tato novinka dává tvůrcům bezprecedentní kontrolu nad generováním videí tím, že umožňuje přesně definovat počáteční a koncový snímek.

Aktualizace přináší 235% zlepšení výkonu, což výrazně zkracuje dobu generování videí. Možnost určit přesný začátek a konec videa řeší jeden z hlavních problémů generativních video modelů - nedostatečnou kontrolu nad výsledným obsahem. Tvůrci tak mohou lépe integrovat vygenerovaná videa do svých projektů.

OpenAI rozšiřuje Codex o integraci do vývojových prostředí

OpenAI vylepšilo svůj programovací systém Codex o nové rozšíření pro vývojová prostředí, revize kódu na platformě GitHub a využití výkonu modelu GPT-5. Sjednocený agent nyní funguje napříč různými prostředími včetně VS Code, terminálu, cloudu a mobilních zařízení s bezproblémovým předáváním úkolů mezi nimi.

Tato integrace představuje významný krok směrem k vytvoření skutečně univerzálního programovacího asistenta. Vývojáři mohou začít práci na mobilním zařízení, pokračovat v terminálu a dokončit ji ve vývojovém prostředí, přičemž kontext a stav projektu zůstávají zachovány.

Google představuje Gemini 2.5 Flash Image pro úpravu obrázků

Google odhalil, že interně označovaný model “Nano Banana” je ve skutečnosti Gemini 2.5 Flash Image, který se stal nejlépe hodnoceným modelem pro úpravu obrázků na světě. Model je nyní integrován do aplikace Gemini.

Gemini 2.5 Flash Image vyniká především v zachování konzistence postav napříč různými úpravami a umožňuje ovládání pomocí přirozeného jazyka. Uživatelé tak mohou provádět komplexní úpravy obrázků pouhým popisem požadovaných změn, aniž by museli ovládat složité grafické nástroje.

Anthropic testuje Claude pro Chrome s možností ovládání prohlížeče

Anthropic spustil Claude for Chrome v testovacím režimu, který umožňuje umělé inteligenci provádět akce přímo v prohlížeči uživatele. Rozšíření je zatím omezeno na 1 000 uživatelů předplatného Max.

Systém obsahuje robustní ochranné mechanismy proti útokům typu prompt injection a blokuje přístup k finančním webům. Toto opatření má zabránit zneužití technologie k neoprávněným finančním transakcím. Claude for Chrome představuje první krok směrem k plně autonomním webovým agentům schopným provádět komplexní úkoly na základě pokynů uživatele.

Kontext pro agenty umělé inteligence

Součástí dodaných materiálů byl také diagram popisující šest typů kontextu pro AI agenty. Tento rámec rozděluje kontext na instrukce (role, cíle, požadavky), příklady (pozitivní a negativní ukázky chování), znalosti (externí a úkolový kontext), paměť (krátkodobou a dlouhodobou), nástroje (jejich popisy a parametry) a výsledky nástrojů.

Správné nastavení kontextu je klíčové pro efektivní fungování AI agentů. Například poskytnutí strategického kontextu podle výzkumu (arXiv:2401.04729) prokazatelně zlepšuje autonomii umělé inteligence. Negativní příklady pomáhají řešit problémy identifikované při analýze chyb, zatímco dlouhodobá paměť umožňuje agentům učit se z předchozích interakcí a zlepšovat své výkony v čase.

Jak se vám líbí tento článek?

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃

Zkopírováno do schránky!