AI novinky - Google Edge AI Gallery, DeepSeek R1, ElevenLabs Conversational AI 2.0 ...

💡 Reklama v Patrickově newsletteru? Vyzkoušejte MailPromo - nový reklamní nástroj pro newslettery.
👉 MailPromo.cz

Patrick Zandl · 3. červen 2025

AI AI novinky

Rychlé shrnutí článku

Google Edge AI Gallery přináší offline AI modely do Android telefonů.
DeepSeek R1, čínský AI model, dosáhl třetího místa v globálním žebříčku.
Sakana AI Darwin Gödel Machine se autonomně zlepšuje úpravou vlastního kódu.
ElevenLabs Conversational AI 2.0 a Resemble AI Chatterbox vylepšují hlasové technologie.

Tento týden přinesl další zajímavé pokroky v lokálním zpracování umělé inteligence, hlasových technologiích a výkonu AI modelů. Google spustil Edge AI Gallery pro chytré telefony, DeepSeek dosáhl třetího místa v globálním žebříčku AI modelů a japonská Sakana AI představila samozdokonalujícího se agenta schopného přepisovat vlastní kód. A je toho více. Pojďme si to projít…

Google Edge AI Gallery - umělá inteligence přímo v telefonu

Google tiše spustil Edge AI Gallery, knihovnu open-source AI modelů pro chytré telefony. Služba umožňuje vývojářům i pokročilým uživatelům stahovat a spouštět AI modely přímo na mobilních zařízeních bez nutnosti internetového připojení.

Praktické využití:

Rozpoznávání objektů na fotografiích bez odesílání dat do cloudu
Překlad textu v reálném čase bez internetového připojení
Analýza dokumentů přímo na telefonu
Personalizované AI asistenty s ochranou soukromí

Technické vlastnosti:

Aktuálně dostupná na Android zařízeních
Verze pro iOS je v přípravě
Kompletně offline zpracování
Modely optimalizované pro mobilní hardware

Edge AI Gallery (zde na Github) představuje alternativu k cloudovým AI službám, kde uživatelé získávají kontrolu nad svými daty a nezávislost na internetovém připojení.

DeepSeek R1 - čínský model překonává světovou konkurenci

Čínská společnost DeepSeek aktualizovala svůj model R1, který se okamžitě vyšplhal na třetí pozici v žebříčku Artificial Analysis Intelligence Index. Model dosáhl skóre 68 bodů, čímž překonal řešení od Meta, xAI i Anthropic.

Konkrétní vylepšení v R1-0528:

Vylepšené front-end rozhraní s lepší interpretací uživatelských požadavků
Zlepšené mechanismy ověřování faktů, které snižují generování nepravdivých informací
Nativní podpora strukturovaných výstupů ve formátu JSON
Možnost volání externích funkcí pro rozšíření schopností modelu
Optimalizace pro matematické úlohy a logické uvažování

DeepSeek tak upevňuje pozici vedoucího poskytovatele open-source AI modelů a potvrzuje růst čínského technologického sektoru.

Sakana AI Darwin Gödel Machine - průlom v samozdokonalování

Japonská Sakana AI představila Darwin Gödel Machine (DGM), samozdokonalujícího se agenta schopného upravovat vlastní kód za účelem zvýšení výkonu. Systém představuje významný pokrok směrem k obecné umělé inteligenci.

Výsledky testování:

SWE-bench: zlepšení z 20,0 % na 50,0 %
Polyglot: zlepšení z 14,2 % na 30,7 %
Kombinuje evoluční principy s pokročilým učením
Udržuje expandující genealogii variant agentů

DGM inspirovaný evolucí představuje nový paradigma v oblasti AI, kde systémy mohou autonomně zlepšovat své vlastní schopnosti.

ElevenLabs Conversational AI 2.0 - nová generace hlasových agentů

ElevenLabs spustila Conversational AI 2.0, platformu nové generace pro vytváření hlasových agentů s pokročilými schopnostmi.

Hlavní funkce:

Model pro střídání replik v reálném čase
Vestavěná detekce jazyka
Integrovaný RAG systém
Podpora multimodality
Škálovatelné dávkové volání

Příklad využití: S touto platformou lze vytvořit například zákaznickou podporu pro e-shop, která dokáže mluvit s klienty telefonicky, rozumí různým jazykům, vyhledává informace o produktech v databázi a současně zobrazuje relevantní obrázky nebo dokumenty během hovoru.

Platforma přímo konkuruje podobným řešením od OpenAI a Anthropic v rychle rostoucím trhu hlasových AI asistentů.

Resemble AI Chatterbox - pokročilá syntéza řeči překonává konkurenci

Resemble AI uvedla Chatterbox, systém text-to-speech AI, který podle nezávislých benchmarků překonává řešení od ElevenLabs.

Technické specifikace:

Zero-shot klonování hlasu ze 5sekundových nahrávek
Kontrola stylu a emoční intenzity
Vestavěná konverze hlasu s nepostřehnutelnými vodoznaky
Syntéza hlasu v reálném čase s ultra-nízkou latencí
Otevřené váhy modelu

Musím poznamenat, že jsem řešení chtěl implementovat pro Marigolda - aby mi načítalo články - s tím, že budu zpracovávat hlasový výstup na svém Macbooku, ale 8 GB paměti bylo pro model příliš málo. Hodí se více paměti a GPU… A na API službu jsme zatím nenarazil.

Anthropic Claude hlasový režim - konkurence ChatGPT

Anthropic spustila hlasový režim pro Claude Sonnet 4 s pěti hlasovými osobnostmi na výběr. Systém nabízí pokročilou integraci s produktivními nástroji.

Dostupné funkce:

Pět různých hlasových osobností
Integrace s Google Workspace
Hlasové vyhledávání v Gmailu, kalendáři a dokumentech
Mobilní beta verze pro anglicky mluvící uživatele

Figure F.03 - pokroky v humanoidní robotice

Společnost Figure oznámila, že jejich humanoidní robot nové generace F.03 oficiálně začal chodit. Figure se zaměřuje na komerční nasazení humanoidních robotů v průmyslu, což odlišuje F.03 od experimentálních robotů výzkumných institucí.

Kontext konkurence:

Boston Dynamics vyvíjí pokročilé roboty především pro výzkum a speciální aplikace
Tesla Bot (Optimus) je stále ve fázi prototypů
Honda ASIMO byl ukončen v roce 2018
Figure cílí na praktické nasazení v továrnách a skladech

Technické vlastnosti F.03:

Zaměření na průmyslové úkoly namísto pouze demonstrace chůze
Integrace s AI systémy pro autonomní rozhodování
Hardware optimalizovaný pro opakované úkoly v komerčním prostředí

Organizační změny ve společnosti:

Sloučení tří týmů do AI skupiny “Helix”
Urychlení procesu učení robotů
Příprava na uvedení robotů na trh v roce 2025-2026

Perplexity Labs - autonomní tvorba aplikací

Perplexity spustila Labs, nástroj pro vytváření interaktivních aplikací využívající Deep Research s integrovanými nástroji pro generování obrázků. https://www.perplexity.ai/labs

Schopnosti systému:

Tvorba analytických zpráv
Vytváření tabulek a webových aplikací
10+ minut autonomní práce na projektu
Dostupné pouze pro Pro předplatitele na iOS, Android a webu

Příklad využití: Uživatel může zadat požadavek “Vytvoř mi analýzu trhu elektromobilů v Evropě s grafy a prognózami na rok 2025”. Systém autonomně vyhledá aktuální data, vytvoří interaktivní zprávu s grafy, tabulkami porovnávajícími jednotlivé značky, mapy s hustotou dobíjecích stanic a webovou aplikaci umožňující filtrování dat podle zemí.

Hume EVI 3 - univerzální hlasová AI s osobností

Hume představila EVI 3, nový AI model schopný mluvit jakýmkoli hlasem nebo osobností prostřednictvím speech-to-speech interakce za méně než jednu sekundu.

Technické vlastnosti:

Voice-to-voice architektura
Hluboké porozumění tónu, rytmu a barvy hlasu
Pokročilá analýza způsobu mluvení
Generování hlasu s osobností z textového popisu

Tencent HunyuanVideo-Avatar - AI pro video marketing

Tencent spustil HunyuanVideo-Avatar, nový AI model pro video, který přeměňuje jednu referenční fotografii a audio na realistické krátké video s živým řečí nebo zpěvem.

Praktické využití:

E-commerce prezentace
Reklamní kampaně
Personalizovaný video obsah
Automatizace tvorby video materiálů

Black Forest Labs FLUX.1 Kontext - pokročilá editace obrázků

Black Forest Labs uvedla FLUX.1 Kontext, AI systém pro generování a editaci obrázků s revoluční schopností porozumění jak textu, tak obrázkům jako vstupu.

Inovativní funkce:

Kontextové generování a editace
8x rychlejší než konkurenční modely
Zachování postavy napříč iteracemi
Lokální editace bez ovlivnění zbytku obrázku
Přenos stylu a konzistentnost napříč verzemi

Příklad využití: Grafický designér může nahrát fotografii modelu v letních šatech a pomocí textového příkazu “změň pozadí na zimní krajinu a přidej kabát” systém automaticky upraví obrázek - přidá zimní pozadí, obléče model do kabátu, ale zachová jeho tvář, pózu a celkový styl fotografie. Následně může pokračovat dalšími úpravami jako “změň barvu kabátu na červenou” bez ovlivnění ostatních částí obrázku.

Další významné novinky

Mistral AI Agents API Francouzská společnost Mistral AI vydala API pro vytváření AI agentů s integrovanými nástroji. Systém představuje konkurenci k podobným řešením od OpenAI (GPTs) a Anthropic (Claude Tools), ale s důrazem na open-source přístup.

Dostupné nástroje:

Code Interpreter - spouštění Python kódu v sandboxovém prostředí
Web Search - vyhledávání aktuálních informací na internetu
Image Generation - tvorba obrázků pomocí AI modelů
Function Calling - možnost integrace vlastních nástrojů a API

Technické specifikace:

Kompatibilní s modely Mistral Large a Mistral Small
RESTful API s dokumentací na mistral.ai/news/agents-api
Podpora pro vlastní nástroje přes JSON schéma
Webové vyhledávání zvýšilo přesnost z 23 % na 75 % na GAIA benchmarku

Praktické aplikace: Vývojáři mohou vytvořit například finančního analytika, který vyhledá aktuální ceny akcií, spustí výpočet portfolia v Pythonu a vygeneruje graf s výsledky - vše v rámci jedné konverzace.

Dostupnost:

Beta verze přístupná přes Mistral API
Cenová politika založená na počtu použitých nástrojů
Dokumentace a příklady kódu dostupné pro vývojáře

Factory AI “Droids” Startup Factory AI představil AI agenty nazývané “Droids”, kteří zvládají kompletní životní cyklus vývoje softwaru. Agenti dokážou převzít programátorský tiket, napsat kód, otestovat ho, nasadit do produkce a reagovat na případné incidenty.

Automatizace od zadání úkolu po produkční nasazení
Generování dokumentace a řešení chyb

SpAItial AI Foundation Models Startup SpAItial získal 13 milionů dolarů na vývoj AI systému, který generuje trojrozměrné virtuální světy z textových popisů. Společnost založili bývalí výzkumníci z Google a Meta.

Nativní porozumění geometrii a fyzikálním zákonům
Tvorba 3D prostředí pro hry a simulace

Opera Neon - agentický webový prohlížeč Opera vydala experimentální verzi prohlížeče s integrovanými AI agenty. Agenti dokážou autonomně procházet webové stránky, nakupovat produkty, rezervovat lístky a vyplňovat formuláře jménem uživatele.

Automatizace webových úkolů bez programování
AI agent jako virtuální asistent pro internet

Bonusové novinky:

Kling AI vydala verzi 2.1
ChatGPT je nyní zdarma pro občany SAE
Freepik přidala Kling 2.1 a FLUX.1 do své platformy

Jak se vám líbí tento článek?

💡 Co je tu dalšího zajímavého ke čtení?

👉Vaše děti a naše školství - obojí bez budoucnosti

Smiřte se s tím, že vaše děti jsou tvorové bez budoucnosti. Leda byste byli připraveni vyklopit pět až deset tisíc měsíčně. Takhle naplacato a natvrdo řečeno...

👉České školství je dobrý příklad místní schopnosti budovat paralelní struktury

Můj minulý příspěvek o českém školství vzbudil nebývalý ohlas a vlnu reakcí všeho druhu. Původně jsem navíc chtěl psát o něčem mírně jiném. Totiž, že mě fasc...

Chcete tyto články emailem?

Sdílejte článek: Twitter, Facebook, Opravit 📃

« 🐑 Sheep Marketplace - jak Tomáš Jiříkovský a ministr spravedlnosti k bitcoinům přišli | Praha se loučila s bývalou německou kancléřkou »