AI novinky - Google Edge AI Gallery, DeepSeek R1, ElevenLabs Conversational AI 2.0 ...

💡 Firemní konzultace a workshopy o umělé inteligenci. Jak se vaší firmy dotkne AI a jak se na to připravit?
👉 Poradíme v Prolnuto.cz

Patrick Zandl · 3. červen 2025

Tento týden přinesl další zajímavé pokroky v lokálním zpracování umělé inteligence, hlasových technologiích a výkonu AI modelů. Google spustil Edge AI Gallery pro chytré telefony, DeepSeek dosáhl třetího místa v globálním žebříčku AI modelů a japonská Sakana AI představila samozdokonalujícího se agenta schopného přepisovat vlastní kód. A je toho více. Pojďme si to projít…

Google tiše spustil Edge AI Gallery, knihovnu open-source AI modelů pro chytré telefony. Služba umožňuje vývojářům i pokročilým uživatelům stahovat a spouštět AI modely přímo na mobilních zařízeních bez nutnosti internetového připojení.

Praktické využití:

  • Rozpoznávání objektů na fotografiích bez odesílání dat do cloudu
  • Překlad textu v reálném čase bez internetového připojení
  • Analýza dokumentů přímo na telefonu
  • Personalizované AI asistenty s ochranou soukromí

Technické vlastnosti:

  • Aktuálně dostupná na Android zařízeních
  • Verze pro iOS je v přípravě
  • Kompletně offline zpracování
  • Modely optimalizované pro mobilní hardware

Edge AI Gallery (zde na Github) představuje alternativu k cloudovým AI službám, kde uživatelé získávají kontrolu nad svými daty a nezávislost na internetovém připojení.

DeepSeek R1 - čínský model překonává světovou konkurenci

Čínská společnost DeepSeek aktualizovala svůj model R1, který se okamžitě vyšplhal na třetí pozici v žebříčku Artificial Analysis Intelligence Index. Model dosáhl skóre 68 bodů, čímž překonal řešení od Meta, xAI i Anthropic.

Konkrétní vylepšení v R1-0528:

  • Vylepšené front-end rozhraní s lepší interpretací uživatelských požadavků
  • Zlepšené mechanismy ověřování faktů, které snižují generování nepravdivých informací
  • Nativní podpora strukturovaných výstupů ve formátu JSON
  • Možnost volání externích funkcí pro rozšíření schopností modelu
  • Optimalizace pro matematické úlohy a logické uvažování

DeepSeek tak upevňuje pozici vedoucího poskytovatele open-source AI modelů a potvrzuje růst čínského technologického sektoru.

Sakana AI Darwin Gödel Machine - průlom v samozdokonalování

Japonská Sakana AI představila Darwin Gödel Machine (DGM), samozdokonalujícího se agenta schopného upravovat vlastní kód za účelem zvýšení výkonu. Systém představuje významný pokrok směrem k obecné umělé inteligenci.

Výsledky testování:

  • SWE-bench: zlepšení z 20,0 % na 50,0 %
  • Polyglot: zlepšení z 14,2 % na 30,7 %
  • Kombinuje evoluční principy s pokročilým učením
  • Udržuje expandující genealogii variant agentů

DGM inspirovaný evolucí představuje nový paradigma v oblasti AI, kde systémy mohou autonomně zlepšovat své vlastní schopnosti.

ElevenLabs Conversational AI 2.0 - nová generace hlasových agentů

ElevenLabs spustila Conversational AI 2.0, platformu nové generace pro vytváření hlasových agentů s pokročilými schopnostmi.

Hlavní funkce:

  • Model pro střídání replik v reálném čase
  • Vestavěná detekce jazyka
  • Integrovaný RAG systém
  • Podpora multimodality
  • Škálovatelné dávkové volání

Příklad využití: S touto platformou lze vytvořit například zákaznickou podporu pro e-shop, která dokáže mluvit s klienty telefonicky, rozumí různým jazykům, vyhledává informace o produktech v databázi a současně zobrazuje relevantní obrázky nebo dokumenty během hovoru.

Platforma přímo konkuruje podobným řešením od OpenAI a Anthropic v rychle rostoucím trhu hlasových AI asistentů.

Resemble AI Chatterbox - pokročilá syntéza řeči překonává konkurenci

Resemble AI uvedla Chatterbox, systém text-to-speech AI, který podle nezávislých benchmarků překonává řešení od ElevenLabs.

Technické specifikace:

  • Zero-shot klonování hlasu ze 5sekundových nahrávek
  • Kontrola stylu a emoční intenzity
  • Vestavěná konverze hlasu s nepostřehnutelnými vodoznaky
  • Syntéza hlasu v reálném čase s ultra-nízkou latencí
  • Otevřené váhy modelu

Musím poznamenat, že jsem řešení chtěl implementovat pro Marigolda - aby mi načítalo články - s tím, že budu zpracovávat hlasový výstup na svém Macbooku, ale 8 GB paměti bylo pro model příliš málo. Hodí se více paměti a GPU… A na API službu jsme zatím nenarazil.

Anthropic Claude hlasový režim - konkurence ChatGPT

Anthropic spustila hlasový režim pro Claude Sonnet 4 s pěti hlasovými osobnostmi na výběr. Systém nabízí pokročilou integraci s produktivními nástroji.

Dostupné funkce:

  • Pět různých hlasových osobností
  • Integrace s Google Workspace
  • Hlasové vyhledávání v Gmailu, kalendáři a dokumentech
  • Mobilní beta verze pro anglicky mluvící uživatele

Figure F.03 - pokroky v humanoidní robotice

Společnost Figure oznámila, že jejich humanoidní robot nové generace F.03 oficiálně začal chodit. Figure se zaměřuje na komerční nasazení humanoidních robotů v průmyslu, což odlišuje F.03 od experimentálních robotů výzkumných institucí.

Kontext konkurence:

  • Boston Dynamics vyvíjí pokročilé roboty především pro výzkum a speciální aplikace
  • Tesla Bot (Optimus) je stále ve fázi prototypů
  • Honda ASIMO byl ukončen v roce 2018
  • Figure cílí na praktické nasazení v továrnách a skladech

Technické vlastnosti F.03:

  • Zaměření na průmyslové úkoly namísto pouze demonstrace chůze
  • Integrace s AI systémy pro autonomní rozhodování
  • Hardware optimalizovaný pro opakované úkoly v komerčním prostředí

Organizační změny ve společnosti:

  • Sloučení tří týmů do AI skupiny “Helix”
  • Urychlení procesu učení robotů
  • Příprava na uvedení robotů na trh v roce 2025-2026

Perplexity Labs - autonomní tvorba aplikací

Perplexity spustila Labs, nástroj pro vytváření interaktivních aplikací využívající Deep Research s integrovanými nástroji pro generování obrázků. https://www.perplexity.ai/labs

Schopnosti systému:

  • Tvorba analytických zpráv
  • Vytváření tabulek a webových aplikací
  • 10+ minut autonomní práce na projektu
  • Dostupné pouze pro Pro předplatitele na iOS, Android a webu

Příklad využití: Uživatel může zadat požadavek “Vytvoř mi analýzu trhu elektromobilů v Evropě s grafy a prognózami na rok 2025”. Systém autonomně vyhledá aktuální data, vytvoří interaktivní zprávu s grafy, tabulkami porovnávajícími jednotlivé značky, mapy s hustotou dobíjecích stanic a webovou aplikaci umožňující filtrování dat podle zemí.

Hume EVI 3 - univerzální hlasová AI s osobností

Hume představila EVI 3, nový AI model schopný mluvit jakýmkoli hlasem nebo osobností prostřednictvím speech-to-speech interakce za méně než jednu sekundu.

Technické vlastnosti:

  • Voice-to-voice architektura
  • Hluboké porozumění tónu, rytmu a barvy hlasu
  • Pokročilá analýza způsobu mluvení
  • Generování hlasu s osobností z textového popisu

Tencent HunyuanVideo-Avatar - AI pro video marketing

Tencent spustil HunyuanVideo-Avatar, nový AI model pro video, který přeměňuje jednu referenční fotografii a audio na realistické krátké video s živým řečí nebo zpěvem.

Praktické využití:

  • E-commerce prezentace
  • Reklamní kampaně
  • Personalizovaný video obsah
  • Automatizace tvorby video materiálů

Black Forest Labs FLUX.1 Kontext - pokročilá editace obrázků

Black Forest Labs uvedla FLUX.1 Kontext, AI systém pro generování a editaci obrázků s revoluční schopností porozumění jak textu, tak obrázkům jako vstupu.

Inovativní funkce:

  • Kontextové generování a editace
  • 8x rychlejší než konkurenční modely
  • Zachování postavy napříč iteracemi
  • Lokální editace bez ovlivnění zbytku obrázku
  • Přenos stylu a konzistentnost napříč verzemi

Příklad využití: Grafický designér může nahrát fotografii modelu v letních šatech a pomocí textového příkazu “změň pozadí na zimní krajinu a přidej kabát” systém automaticky upraví obrázek - přidá zimní pozadí, obléče model do kabátu, ale zachová jeho tvář, pózu a celkový styl fotografie. Následně může pokračovat dalšími úpravami jako “změň barvu kabátu na červenou” bez ovlivnění ostatních částí obrázku.

Další významné novinky

Mistral AI Agents API Francouzská společnost Mistral AI vydala API pro vytváření AI agentů s integrovanými nástroji. Systém představuje konkurenci k podobným řešením od OpenAI (GPTs) a Anthropic (Claude Tools), ale s důrazem na open-source přístup.

Dostupné nástroje:

  • Code Interpreter - spouštění Python kódu v sandboxovém prostředí
  • Web Search - vyhledávání aktuálních informací na internetu
  • Image Generation - tvorba obrázků pomocí AI modelů
  • Function Calling - možnost integrace vlastních nástrojů a API

Technické specifikace:

  • Kompatibilní s modely Mistral Large a Mistral Small
  • RESTful API s dokumentací na mistral.ai/news/agents-api
  • Podpora pro vlastní nástroje přes JSON schéma
  • Webové vyhledávání zvýšilo přesnost z 23 % na 75 % na GAIA benchmarku

Praktické aplikace: Vývojáři mohou vytvořit například finančního analytika, který vyhledá aktuální ceny akcií, spustí výpočet portfolia v Pythonu a vygeneruje graf s výsledky - vše v rámci jedné konverzace.

Dostupnost:

  • Beta verze přístupná přes Mistral API
  • Cenová politika založená na počtu použitých nástrojů
  • Dokumentace a příklady kódu dostupné pro vývojáře

Factory AI “Droids” Startup Factory AI představil AI agenty nazývané “Droids”, kteří zvládají kompletní životní cyklus vývoje softwaru. Agenti dokážou převzít programátorský tiket, napsat kód, otestovat ho, nasadit do produkce a reagovat na případné incidenty.

  • Automatizace od zadání úkolu po produkční nasazení
  • Generování dokumentace a řešení chyb

SpAItial AI Foundation Models Startup SpAItial získal 13 milionů dolarů na vývoj AI systému, který generuje trojrozměrné virtuální světy z textových popisů. Společnost založili bývalí výzkumníci z Google a Meta.

  • Nativní porozumění geometrii a fyzikálním zákonům
  • Tvorba 3D prostředí pro hry a simulace

Opera Neon - agentický webový prohlížeč Opera vydala experimentální verzi prohlížeče s integrovanými AI agenty. Agenti dokážou autonomně procházet webové stránky, nakupovat produkty, rezervovat lístky a vyplňovat formuláře jménem uživatele.

  • Automatizace webových úkolů bez programování
  • AI agent jako virtuální asistent pro internet

Bonusové novinky:

  • Kling AI vydala verzi 2.1
  • ChatGPT je nyní zdarma pro občany SAE
  • Freepik přidala Kling 2.1 a FLUX.1 do své platformy

Jak se vám líbí tento článek?

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃

Zkopírováno do schránky!