Týden AI a robotiky - ChatGPT s novými konektory, vylepšený Gemini a pokroky humanoidů

💡 Reklama v Patrickově newsletteru? Vyzkoušejte MailPromo - nový reklamní nástroj pro newslettery.
👉 MailPromo.cz

Patrick Zandl · 12. červen 2025

AI OpenAI Microsoft Google robotika humanoidní roboti Figure Agility Robotics Apple WWDC

Rychlé shrnutí článku

OpenAI představil datové konektory pro ChatGPT a vylepšil Advanced Voice mode
Google aktualizoval Gemini 2.5 Pro s lepšími výsledky v programování a matematice
Microsoft integroval Sora do mobilní aplikace Bing a rozšířil Copilot o nákupní funkce
Figure pokračuje v testování humanoidních robotů pro logistické úkoly
Apple na WWDC 2025 představil jen omezené AI novinky zaměřené na překlad a chytré akce
Skywork AI vydal open-source model SkyReels-V2 pro generování neomezených videí

Uplynulý týden přinesl řadu významných aktualizací od hlavních technologických společností. Podívejme se na detaily. Z těch větších věcí? OpenAI rozšířil možnosti ChatGPT o datové konektory a vylepšil hlasový režim, Google posílil svůj model Gemini 2.5 Pro a Microsoft integroval generování videí do mobilní aplikace Bing. Současně pokračuje rychlý vývoj v oblasti humanoidní robotiky, kde společnosti jako Figure, Agility Robotics a čínské firmy představují stále schopnější systémy.

Marigold má novou rubriku Vibecoding, kam se soustřeďují novinky v hlavních nástrojích pro vibecoding a AI programování. A to včetně těch, které pro svou celkovou podružnost nejdou ani na titulní stránku.

OpenAI rozšiřuje možnosti ChatGPT

OpenAI představil několik podstatných aktualizací svého chatbota ChatGPT. Nejvýznamnější je přidání datových konektorů, které umožňují přímé propojení s externími zdroji dat včetně Google Drive a OneDrive. Tato funkcionalita usnadňuje práci s dokumenty a daty uloženými v cloudových službách - ale v aplikaci zatím není, jen na webu. Prý časem.

Společnost také vylepšila režim nahrávání schůzek, který nyní dokáže automaticky převádět meetingy na přepisy s analýzami a pozorováními. Funkce je zatím dostupná jen ve vyšším placeném tarifu pro firmy. Codex, vývojářská verze ChatGPT, získal přístup k internetu, což výrazně rozšiřuje jeho schopnosti při programování a vyhledávání aktuálních informací. Nyní mu stačí předhodit URL dokumentace a on si ji stáhne, nemusíte ji uploadovat.

OpenAI vydal aktualizaci pro ChatGPT Advanced Voice, která činí hlasové interakce přirozenějšími a efektivnějšími. Hlavní vylepšení zahrnuje pokročilé překladové schopnosti s persistentním překladem napříč několika výměnami až do explicitního zastavení uživatelem. Systém nyní lépe rozpoznává kontext konverzace a dokáže udržovat překladový režim během celé konverzace bez opakovaného aktivování. Aktualizace je dostupná všem placeným uživatelům ChatGPT Plus a Pro. Nová verze také zlepšuje intonaci a rytmus řeči, což činí interakci podobnější rozhovoru s člověkem. OpenAI postupně zavádí podporu dalších jazyků beyond původních možností.

Bezplatní uživatelé se dočkali funkce lightweight memory, která umožňuje ChatGPT si pamatovat kontext předchozích konverzací v rámci relace. OpenAI také aktualizoval Advanced Voice mode, který je nyní přirozenější v konverzaci a efektivnější při překladech. Systém dokáže vytrvale překládat v průběhu více výměn, dokud nedostane pokyn k zastavení.

Google posiluje pozici Gemini 2.5 Pro

Google vydal aktualizovanou verzi modelu Gemini 2.5 Pro Preview, která podle benchmarků výrazně posílila pozici společnosti v žebříčcích výkonnosti AI modelů. Model vykazuje zlepšení především v oblasti programování, matematiky, vědeckého uvažování a porozumění obrazu.

Kromě výkonnostních vylepšení Google upravil styl a strukturu odpovědí modelu, které jsou nyní lépe formátované a přehlednější. Společnost také představila Edge AI Gallery pro Android, která umožňuje uživatelům spouštět open-source modely přímo na mobilních zařízeních bez nutnosti připojení k internetu.

Google DeepMind ve spolupráci s britskou vládou spustil nástroj Extract, který využívá multimodální schopnosti modelu Gemini k digitalizaci složitých plánovacích dokumentů. Systém dokáže převést i ručně psané poznámky na digitální data během 40 sekund, což má urychlit rozhodovací procesy v oblasti infrastruktury a bytové výstavby.

Google Extract digitalizuje britskou byrokracii

Google DeepMind ve spolupráci s britskou vládou představil Extract, specializovaný nástroj postavený na modelu Gemini pro zrychlení infrastrukturních a bytových rozhodnutí. Systém využívá multimodální analýzu k převodu složitých plánovacích dokumentů, včetně rukopisných poznámek, na digitální data během 40 sekund.

Extract automaticky extrahuje klíčové informace z dokumentů jako jsou územní plány, environmentální studie a technické specifikace. Nástroj dokáže zpracovat skenované dokumenty, fotografie a rukou psané formuláře, což významně zrychluje administrativní procesy ve veřejné správě.

Implementace probíhá v rámci digitalizační strategie britské vlády a má potenciál zkrátit schvalovací procesy z měsíců na týdny. Google plánuje rozšíření podobných nástrojů i do dalších sektorů veřejné správy.

Microsoft integruje Sora a rozšiřuje Copilot

Microsoft přidal do mobilní aplikace Bing bezplatný Video Creator poháněný modelem Sora od OpenAI. Tato funkce umožňuje uživatelům vytvářet videa přímo z mobilního zařízení bez nutnosti placené verze.

Společnost také rozšířila Copilot o nativní nákupní funkce včetně shrnutí recenzí, sledování cen a upozornění na slevy. Microsoft oznámil, že banka Barclays rozšiřuje nasazení MS365 Copilot na 100 000 zaměstnanců, což představuje jedno z největších známých nasazení generativní AI v bankovním sektoru.

Pokroky v humanoidní robotice

Společnost Figure pokračuje ve vývoju humanoidních robotů pro praktické úkoly. Jejich roboti nyní zvládají složité logistické operace včetně třídění různých balíčků. Klíčovou roli hraje systém Helix AI, který se naučil otáčet balíčky čárovým kódem dolů a srovnávat nafouklé obaly pro skenování. Figure zveřejnila 60minutové video dokumentující nepřetržitou práci robota při řešení logistických úloh.

Agility Robotics představila demo svého humanoidního robota Digit, který autonomně zvládá vícestupňové domácí úkoly. Robot dokáže sebrat ingredience potřebné na přípravu těstovin a přinést je zpět ke stolu.

UCR Robotics ukázala nové záběry svého humanoidního robota Moby, který zvládá lokomoci včetně bočních kroků, chůze po rampě a couvání. Robot byl trénován na pipeline postavené na Nvidia Isaac GR00T, Isaac Lab a Isaac Sim.

Čínské společnosti posilují pozici

Čínská společnost Unitree ve spolupráci s britskou firmou Reborn představila využití frameworku Roboverse, který kombinuje simulační platformu, datové sady a jednotné benchmarky. Tato technologie má urychlit učení robotů 30násobně a umožnit inteligentnější chování.

Společnosti BIGAI a Unitree společně vydaly CLONE, holistický systém pro dálkové řízení (teleoperations) celého těla humanoidních robotů. Systém využívá jediné zařízení Vision Pro a umožňuje robotům provádět složité dlouhodobé úkoly včetně boxu, stolního tenisu a manipulace s objekty.

Čínská firma Agibot navázala partnerství s PepsiCo na vytvoření Fizz Bot, prvního humanoidního robota s brandem Pepsi. Robot interagoval s Davidem Beckhamem na pódiu a bude používán pro propagační kampaně.

Manus integruje Google Veo 3

Manus, AI agent konkurující OpenAI Operatoru, integroval Google model Veo 3 pro vylepšení generování videí. Integrace umožňuje uživatelům vytvářet kinematografický obsah s “extra vizuálním důrazem” a pokročilými efekty.

Manus je AI platforma zaměřená na automatizaci kreativních procesů, především v oblasti video produkce a marketingu. Veo 3 je nejnovější model Google pro generování videí, který nabízí vyšší kvalitu obrazu a lepší konzistenci napříč snímky.

Funkce je dostupná uživatelům všech plánů - Basic, Plus i Pro. Integrace umožňuje generování videí různých stylů a délek s možností detailního řízení vizuálních parametrů.

Skywork AI spouští open-source video model

Čínská společnost Skywork AI, specializující se na vývoj jazykových modelů a AI nástrojů, vydala SkyReels-V2, open-source model pro generování videí neomezené délky. Model umožňuje tvorbu kinematografických videí přímo v prohlížeči bez omezení délky.

SkyReels-V2 představuje pokrok v oblasti diffuzních modelů pro video, které dokážou generovat konzistentní obsah napříč dlouhými sekvencemi. Váhy modelu a inference kód jsou nyní dostupné na GitHubu pod open-source licencí.

Model podporuje různé rozlišení a frame rates, přičemž dokáže udržovat vizuální konzistenci i u hodinových videí. Uživatelé mohou experimentovat s různými styly a tématy bez jakýchkoliv poplatků nebo omezení použití.

Dostupnost open-source řešení pro generování dlouhých videí představuje významný krok pro demokratizaci pokročilých AI nástrojů v kreativním průmyslu.

Nové nástroje pro tvorbu obsahu

ElevenLabs představila Eleven v3 (alpha), pokročilý text-to-speech systém podporující více než 70 jazyků. Model zvládá multi-speaker dialog, audio tagy jako vzrušení, vzdychání a smích, a dokáže zpracovat přerušení, změny tónu a emocionální nuance. Proč ElevenLabs nepoužívám na Marigoldovi? Protože neumožňuje placení pay-as-you-go, musí se platit předplatné balíky a je to strašně rigidní a nepohodlné.

Anysphere získala 900 milionů dolarů při valuaci 9,9 miliardy dolarů a uvedla Cursor 1.0 s funkcemi jako BugBot pro review pull requestů, background agent pro asynchronní pomoc s kódem, podporu Jupyter, Memory (beta) pro zapamatování chyb a 1-click MCP + OAuth.

Luma Labs spustila Modify Video, nástroj pro úplné přestylování videí změnou stylu a nastavení. V blind testech překonal Runway V2V při zachování pohybu, animace obličeje a časové konzistence. Nástroj je dostupný v Dream Machine: Ray 2.

Skywork AI vydala SkyReels-V2, open-source model pro generování videí neomezené délky. Model umožňuje vytváření kinematografických videí jakékoli délky zdarma přímo z prohlížeče. Váhy modelu a inference kód jsou dostupné na GitHubu.

AI společnost Manus přidala agentní generování videí do své nabídky služeb a integrovala model Google Veo 3. Platforma dokáže naplánovat každou scénu, vytvořit vizuály a animovat vizi, přičemž vytvoří detailní video během několika minut.

PlayAI open-sourcovala PlayDiffusion, model založený na difúzi pro audio inpainting. Model dokáže upravovat slova v mluvených větách bez změny celé řeči při zachování původního kontextu a tónu. Je dostupný prostřednictvím Fal a HuggingFace.

Higgsfield AI uvedla Higgsfied Speak, nástroj pro vytváření videí s mluvícími avatary řízenými pohybem. Stačí vybrat formát stylu, zvolit avatar a napsat scénář - nástroj vygeneruje kinematografickou kvalitu včetně hlasu, pohybu a emocí.

Jak se vám líbí tento článek?

💡 Co je tu dalšího zajímavého ke čtení?

👉Apple jde do dětského porna

Apple nově představil technologii pro odhalování takzvané CSAM (Child Sexual Abuse Material), tedy dětské pornografie. Technologie má přijít do iOS v někter...

👉Umělointeligenční asistenti a pochybnosti nad existencí svobodné vůle

Představte si, že máte elektronického asistenta, kterému dáte přístup do vašeho kalendáře i emailu, on tím zjistí, koho máte rádi a začne vám každý týden v n...

Chcete tyto články emailem?

Sdílejte článek: Twitter, Facebook, Opravit 📃

« OpenAI snížila cenu modelu o3 o 80 % a představila o3-Pro | Asistenti, Projekty, GEMy, GPTs a základy automatizace práce pomocí AI »