AI novinky k 15.5.2025

💡 Firemní workshopy o umělé inteligenci - pojďme se zamyslet nad tím, jak se vaší firmy dotkne AI a jak se na to připravit!

Patrick Zandl · 15. květen 2025

AI novinky k 15.5.2025
Rychlé shrnutí článku
  • Google představil AlphaEvolve kombinující Gemini s evolučními strategiemi pro vědecké objevy.
  • OpenAI uvedla GPT-4.1 s lepším kódováním a zlepšila bezpečnostní postupy.
  • Meta představila pět AI projektů včetně Perception Encoder a Collaborative Reasoner.
  • Mistral AI vydal konkurenční modely Medium 3 a Le Chat Enterprise.

Na minulý souhrn AI novinek jsem měl dobré ohlasy, takže si jej po týdnu zopakujme. Mezi nejdůležitější novinky patří zejména GPT-4.1 ve web rozhraní, Google Gemini novinky, ale také robotika a Meta aktuality.

Co konkrétně se v tomto článku dozvíte?

Google posunuje hranice s AlphaEvolve a rozšiřuje Gemini

Google DeepMind představil údajně převratný nástroj AlphaEvolve, který kombinuje schopnosti jazykového modelu Gemini s evolučními strategiemi pro vytváření algoritmů řešících vědecké a výpočetní výzvy. Tento kódovací agent již dosáhl několika významných matematických objevů včetně prvního vylepšení Strassenova algoritmu z roku 1969.

Systém využívá modely Gemini (Flash pro generování nápadů, Pro pro analýzu) k vytváření kódu, který je testován hodnotiteli a iterativně zdokonalován. AlphaEvolve již nyní optimalizuje datacentrová harmonogramy, zlepšuje trénink AI (včetně svého vlastního) a pomáhá s návrhem čipů. Při testování na více než 50 otevřených matematických problémech dosáhl nejmodernějších řešení v 75 % případů a objevil zcela nová, vylepšená řešení v dalších 20 %.

Google zároveň oznámil významné rozšíření své AI asistentky Gemini na další platformy a zařízení. V následujících měsících se Gemini objeví na chytrých hodinkách s Wear OS, kde uživatelům umožní přirozenější hlasovou interakci. Google plánuje také integraci do Google TV, kde AI pomůže s personalizovanými doporučeními obsahu a vysvětlením složitých konceptů jednoduchým způsobem. Jsem na to zvědav, protože řada televizí má dneska problém utáhnout Google TV software, natož, když se do toho přidá AI…

Zajímavá je i integrace do systému Android Auto, kde Gemini vylepší “řidičský zážitek” díky porozumění přirozenějším, konverzačním příkazům. Asistentka dokáže najít nabíjecí stanice, shrnout zprávy nebo navrhnout místa k procházce během nabíjení automobilu. Tato funkce by měla být spuštěna v příštích měsících. V neposlední řadě má Gemini přijít i na první headset s Android XR, který vyvíjí Samsung.

Google dále aktualizoval dva klíčové modely:

  • Gemini 2.5 Pro Preview (I/O Edition) s vylepšeným porozuměním videím a zdokonalením pro UI, kód a agentní workflow
  • Gemini 2.0 Flash pro generování obrázků s vylepšenou kvalitou, vykreslováním textu a menším počtem obsahových omezení

OpenAI přináší GPT-4.1, rozšiřuje vedení a vydává bezpečnostní nástroje

OpenAI integrovala své nejnovější jazykové modely GPT-4.1 a GPT-4.1 mini do ChatGPT, čímž zlepšila schopnosti kódování a následování pokynů pro předplatitele služby. Tyto modely jsou dostupné pro uživatele ChatGPT Plus, Pro a Team a nabízejí vylepšený výkon ve srovnání s předchozími verzemi.

Uvedení GPT-4.1 však neproběhlo bez kontroverze. Počáteční vydání bez bezpečnostní zprávy vyvolalo kritiku týkající se transparentnosti a možných rizik nasazení takto pokročilých modelů bez důkladného prověření. OpenAI reagovala na kritiku závazkem k častějšímu zveřejňování bezpečnostních hodnocení a vytvořením Safety Evaluations Hub, který bude pravidelně zobrazovat výsledky testů svých AI modelů.

Společnost také oznámila jmenování Fidji Simo, dosavadní CEO Instacart, do pozice CEO of Applications. V této nově vytvořené vedoucí pozici bude Simo dohlížet na produktové nabídky a obchodní operace společnosti. Tato divize Applications spojuje existující obchodní a operační týmy odpovědné za uvádění výzkumu na trh. Simo bude přímo podřízena CEO Samu Altmanovi, kterému tento krok umožní více se soustředit na výzkum, výpočetní infrastrukturu a bezpečnostní systémy.

OpenAI také upustila od svého záměru stát se plně ziskovou společností a oznámila, že převede svoji ziskovou divizi na Public Benefit Corporation (PBC) při zachování řízení neziskovou organizací. Toto rozhodnutí přichází po tlaku bývalých zaměstnanců a v rámci probíhajícího právního sporu.

Společnost zároveň rozšířila svůj GitHub konektor pro funkci Deep Research, což umožňuje nástroji využívat a odpovídat na otázky týkající se kódových základen. Tato funkce dovoluje uživatelům připojit repozitáře a využít ChatGPT pro čtení a vyhledávání ve zdrojovém kódu a PR, přičemž vytváří podrobnou zprávu s citacemi.

Na poli zdravotnických aplikací OpenAI vydala HealthBench, referenční měřítko vytvořené ve spolupráci s 262 lékaři k hodnocení výkonu AI systémů ve zdravotnických konverzacích. Tato iniciativa má za cíl stanovit nový standard pro měření bezpečnosti a efektivity AI v medicínském kontextu.

Hlavní vědec OpenAI, Jakub Pachocki (je to polák, ne čech 😎), v rozhovoru pro Nature odhalil svou vizi pro blízkou budoucnost AI. Zmínil, že existují “významné důkazy o tom, že modely jsou schopné objevovat nové poznatky,” ačkoli AI uvažuje jinak než lidé. Pachocki také uvedl, že AI vytvářející “měřitelný ekonomický dopad” a originální výzkum by naplnily jeho definici AGI (umělé obecné inteligence), kterou očekává do konce dekády.

Anthropic chystá nové modely Sonnet a Opus a vylepšuje Claude Code

Anthropic se připravuje na uvedení pokročilých verzí svých modelů Claude Sonnet a Opus v “nadcházejících týdnech”, které budou disponovat hybridním myšlením a rozšířenými možnostmi využití nástrojů. Těším se, snad je napadne dát jim inteligentnější označení než třeba Sonnet 3.7-05-25… - a 3.8 není velký zlepšení

Tyto modely mají být schopné střídat mezi uvažováním a používáním nástrojů a dokáží se opravovat tím, že se zastaví a prozkoumají, co se pokazilo. V oblasti kódování mohou testovat svůj vygenerovaný kód, identifikovat chyby, řešit problémy pomocí uvažování a provádět opravy bez potřeby lidského zásahu.

Model Anthropicu s kódovým označením Neptune podstupuje bezpečnostní testování, přičemž někteří věří, že název naznačuje verzi 3.8 (8. planeta od Slunce). Tato informace se objevila současně se spuštěním nového programu odměn za nalezení chyb (bug bounty), který se zaměřuje na testování principů bezpečnosti Claude.

Mobilní aplikace Claude dokáže nově vyhledávat na webu a v Google Workspace a poskytovat komplexní zprávy s citacemi ze stovek zdrojů - tak, jako webová a desktop aplikace. Aktualizujte

Anthropic rovněž představil nové funkce pro svůj nástroj Claude Code, včetně multipaste pro vkládání více velkých bloků kódu do jedné výzvy, podpory OpenTelemetry pro sledování využití a realtime řízení, které umožňuje uživatelům poskytovat zpětnou vazbu AI během práce bez čekání na dokončení úkolu.

Novinky v Claude Code

  • Funkce multipaste: Uživatelé nyní mohou vkládat více velkých bloků obsahu (text i obrázky) do jedné výzvy
  • Podpora OpenTelemetry: Umožňuje sledování detailních metrik z Claude Code, včetně:
    • Aktivních uživatelů
    • Relací na uživatele
    • Počtu řádků kódu
    • Commitů
    • Pull requestů
  • Všechny metriky zůstávají plně v rámci vaší infrastruktury
  • Real-time steering (řízení v reálném čase): Možnost posílat zpětnou vazbu Claude Code během jeho práce bez čekání na dokončení
    • Claude okamžitě zapracovává vaše vstupy
    • Upravuje svůj přístup na základě nových požadavků nebo upřesnění
  • Všechny tři funkce jsou dostupné v nejnovější aktualizaci
  • Claude Code je nyní k dispozici s předplatnými Claude Max na claude.ai/code

Společnost dále zpřístupnila ve svém API možnosti vyhledávání na webu, což vývojářům umožňuje vytvářet aplikace schopné vyhledávat aktuální informace na internetu a poskytovat podložené odpovědi s relevantními citacemi.

Meta posouvá schopnosti AI pěti revolučními projekty

Meta prostřednictvím svého týmu FAIR (Facebook AI Research) představila pět průlomových projektů v oblasti umělé inteligence, které mají za cíl posunout schopnosti AI k více lidskému chápání a interakci:

Doplněný text s charakteristikami jednotlivých projektů:

  1. Perception Encoder - působí jako “oči” AI systémů, umožňující jim dekódovat a pochopit složité vizuální informace s bezprecedentní přesností. Tento model funguje jako vizuální front-end pro AI, který zpracovává a interpretuje obrazová data podobně jako lidský zrakový systém, což umožňuje pokročilou klasifikaci obrazů, rozpoznávání objektů a porozumění vizuálnímu kontextu.

  2. Perception Language Model (PLM) - průlomový krok v dostupnosti AI modelů díky open-source architektuře, který zlepšuje synergii mezi viděním a jazykem. Tento open-source model pro vizuální úkoly dokáže extrahovat detaily o jednání subjektu v daném čase. PLM propojuje vizuální a textové porozumění, což umožňuje AI odpovídat na otázky o obrázcích, popisovat viděné scény a analyzovat vztahy mezi objekty na obrazových vstupech bez potřeby proprietárních dat.

  3. Meta Locate 3D - vylepšuje schopnosti robotů interpretovat příkazy v přirozeném jazyce a prostorové náznaky k přesnému identifikování objektů v trojrozměrném prostředí. Cílem je pomoci robotům lépe rozumět a interagovat s okolím. Tento systém překlenuje propast mezi lidskými slovními popisy (“najdi červené jablko na kuchyňské lince”) a přesným prostorovým umístěním objektů, což je klíčové pro praktické nasazení robotů v domácnostech a průmyslu.

  4. Dynamic Byte Latent Transformer - představuje posun v jazykovém modelování díky zpracování na úrovni bajtů, což zvyšuje efektivitu a odolnost při řešení různých jazykových výzev. Na rozdíl od běžných tokenizačních přístupů tento model pracuje přímo s bajty, což mu umožňuje lépe zvládat překlepy, nová slova, různé jazyky a škodlivé vstupy, přičemž poskytuje konzistentnější výkon napříč různými jazykovými strukturami a formáty.

  5. Collaborative Reasoner - zaměřuje se na spolupráci mezi AI a lidmi i jinými AI systémy, což otevírá cestu pro složitější sociální chování AI s empatií a nuancovaným pochopením lidských mentálních stavů. Systém je navržen pro práci v týmech, kde dokáže předvídat potřeby lidských spolupracovníků, chápat jejich záměry a efektivně komunikovat v rámci řešení společných úkolů, čímž transformuje AI z pouhého nástroje na aktivního partnera při rozhodování a řešení problémů.

Všechny tyto projekty jsou krokem k dosažení Advanced Machine Intelligence (AMI) a zapadají do strategických cílů Meta pro integraci AI napříč jejími platformami.

Microsoft vylepšuje Copilot a adoptuje Google A2A framework

Microsoft aktualizoval svůj nástroj Copilot pomocí funkce “Pages”, která se podobá Canvas z ChatGPT. Tato funkce umožňuje uživatelům spolupracovat s Copilotem, žádat asistenta o úpravy, rozšíření nebo vylepšení jeho odpovědí. Na rozdíl od Canvas však zřejmě nemá schopnosti pro kódování.

Společnost také oznámila, že přijímá Google Agent2Agent (A2A) framework, který brzy spustí na platformách Azure AI Foundry a Copilot Studio. Tento krok umožní podnikům vyvíjet AI agenty, kteří budou již v návrhu schopni vzájemně interagovat napříč platformami.

Sakana AI učí modely přemýšlet v čase

Japonská společnost Sakana AI představila Continuous Thought Machines (CTMs), nový typ modelu, který činí AI více podobnou lidskému mozku tím, že jí umožňuje “přemýšlet” krok za krokem v průběhu času namísto okamžitého rozhodování, jak to dělají současné AI systémy.

Na rozdíl od většiny AI, které zpracovávají informace statickým, jednorázovým způsobem, CTM bere v úvahu, jak se její vnitřní aktivita rozvíjí v čase, podobně jako to dělá náš mozek. Technologie čerpá inspiraci ze skutečných mozků, kde je načasování aktivace neuronů klíčové pro inteligenci.

Sakana předvedla CTM řešící složité bludiště, kde model viditelně sledoval možné cesty bludištěm při svém přemýšlení. Další příklad se zabýval rozpoznáváním obrazů, kde CTM prohlížela různé části obrazu a trávila více času v závislosti na obtížnosti úkolu.

(Tady si vzpomínám, jak jsem do GPT-4o nahrál mapu bludiště, chtěl jsem vyznačit nejkratší trasu od vchodu k východu a ono to vzalo kolem bludiště, vůbec ne skrze bludiště… co na to říct, zadání splnil…)

AI dokáže předpovídat zdravotní výsledky jen z fotografií obličeje

Vědci z Mass General Brigham představili FaceAge, AI nástroj, který dokáže odhadnout biologický věk člověka a zlepšit předpovědi výsledků léčby rakoviny pouhou analýzou fotografie obličeje.

FaceAge využívá systém trénovaný na desítkách tisíc fotografií obličejů k překladu jemných obličejových charakteristik do odhadu biologického věku. Studie zjistila, že pacienti s rakovinou vypadali v průměru o 5 let starší, přičemž vyšší FaceAge koreloval s horší mírou přežití.

Při testování s lékaři se výrazně zlepšila přesnost při předpovídání šestiměsíčního přežití, když byly k klinickým datům přidány rizikové skóre FaceAge. Předpovědi AI korelovaly s genem spojeným se stárnutím buněk, což naznačuje, že FaceAge zachytil procesy, které nejsou detekovatelné chronologickým věkem.

(Takže možná vypadáte staře proto, že máte raka… smysl to dává, využití zajímavý, preventivní medicína tohoto typu by hodně pomohla, když to bude mít výsledky…)

Alibaba inovuje technologie vyhledávání a videa

Alibaba představila ZeroSearch, techniku, která učí AI systémy vyhledávat informace bez použití skutečných vyhledávačů, čímž snižuje náklady na trénink o 88 % při zachování nebo překonání výkonu modelů trénovaných se skutečnými API vyhledávačů. ZeroSearch odstraňuje potřebu drahých volání API vyhledávačů během tréninku tím, že používá LLM k simulaci výsledků vyhledávání.

Společnost dále uvedla HunyuanCustom, nový open-source AI systém, který generuje přizpůsobená videa z textu, obrázků, audia a video vstupů s konzistentními subjekty. Tento multi-modální video framework zajišťuje konzistenci identity subjektu napříč různými vstupními formáty pomocí LLaVA-based textově-obrazové fúze, tempovému vylepšení ID, AudioNet a video injekci založené na patchify.

Mistral AI uvádí nové konkurenční modely

Mistral AI vydal dva významné produkty:

  • Medium 3, multimodální AI, která se vyrovná nebo předčí modely Claude 3.7 Sonnet, GPT-4o a Llama 4 Maverick při 8x nižších nákladech
  • Le Chat Enterprise, agentní AI asistent pro firmy s nástroji jako Google Drive a nástrojemi pro vytváření vlastních agentů

(Ještě jsem nevyzkoušel, chystám se na Mistral nahodit pár pokusů, ale zatím jsem neměl odvahu rozhasit si věci, kde mi něco běží, takže zatím jsem ho úspěšně použil jen pro systém určování polohy z fotek, který jde hodně mimo tyhle výhody…)

FutureHouse a robotické inovace

Společnost FutureHouse, podporovaná bývalým CEO Googlu Ericem Schmidtem, představila pět “AI Scientist” agentů:

  • Crow pro obecný výzkum
  • Falcon pro hloubkové literární rešerše
  • Owl pro identifikaci předchozího výzkumu
  • Phoenix pro chemické workflow
  • Finch pro objevy v biologii

V oblasti robotiky představila společnost Unitree ve spolupráci se sanfranciskou firmou Reborn vývoj pokročilé AI, která má učinit její roboty chytřejšími, adaptabilnějšími a schopnými komplexních úkolů. Spolupráce využije více nástrojů Reborn, včetně jejich simulátoru Roboverse, datasetů pohybu a vývojářských nástrojů.

Výzkumníci ze Stanfordské univerzity mezitím představili Teleoperated Whole-Body Imitation System (TWIST), který umožňuje koordinované, všestranné pohyby celého těla humanoidních robotů pomocí jediné neuronové sítě. Tento systém umožní funkční univerzální roboty v různých doménách.

UC Berkeley představila VideoMimic, real-to-sim-to-real pipeline, který trénuje roboty pomocí mobilních videí. Systém těží videa, rekonstruuje lidi a prostředí a vytváří strategie pro humanoidy, umožňující dovednosti jako chůze po schodech. Tato univerzita také uvedla PyRoki, modulární, rozšiřitelný, a multiplatformní toolkit pro kinematickou optimalizaci, který řeší inverzní kinematiku, optimalizaci trajektorie a převádění pohybu pro širokou škálu robotů včetně humanoidů.

Holandští vědci z výzkumného institutu AMOLF vytvořili “měkkého” robota, který se pohybuje, adaptuje a dokonce plave, a to vše poháněno pouze vzduchem, bez jakéhokoli mozku, elektroniky nebo jediného řádku kódu. Robot je vyroben z měkkých, pružných elastomerových trubic, které slouží jako struktura i ovladač, umožňující jemný, adaptivní pohyb. Nepřetržitý proud vzduchu způsobuje nafukování a oscilování trubic, což eliminuje potřebu motorů nebo elektroniky pro pohyb.

Hugging Face uvolňuje alternativu k OpenAI Operatoru

Hugging Face vydal Open Computer Agent, open-source AI agenta pro automatizaci webových úkolů, který je podobný nástroji Operator od OpenAI. Je zdarma použitelný přes webové prohlížeče, ale je údajně pomalý a schopný zvládnout pouze základní vícekrokové úkoly.

Cursor - revoluční AI editor kódu představuje verzi 0.50 s novými funkcemi

Cursor, pokročilý AI editor kódu, představil verzi 0.50 s významnými vylepšeními. Mezi klíčové novinky patří podpora background agentů, která umožňuje spouštět více verzí Cursor agenta současně, možnost vkládat celé složky do kontextu, podpora více kořenových workspace s vlastními .cursor/rules složkami a vylepšené vyhledávání a nahrazování pro rychlejší úpravy souborů.

Uživatelé nyní mohou také exportovat jakýkoli chat do markdown formátu nebo jej duplikovat do nového chatovacího okna. Inline editace získala vylepšené uživatelské rozhraní s rychlou editací celého souboru (⌘⇧⏎) a funkcí “send to agent” (⌘L). Cenová struktura byla zjednodušena na 500 požadavků na všechny modely a režim max využívá cenovou strukturu založenou na tokenech, přičemž je dostupný pro všechny top modely.

Trumpova administrativa ruší Bidenova pravidla pro vývoz AI čipů

Trumpova administrativa zrušila pravidlo z Bidenovy éry, které by zavedlo celosvětové kontroly vývozu polovodičů. Namísto toho se rozhodla vyvinout přístup zaměřený na dohody specifické pro jednotlivé země, přičemž zachovala omezení pro Čínu.

Ministerstvo obchodu oznámilo zrušení pravidla jen několik dní před tím, než mělo vstoupit v platnost, s odůvodněním, že by poškodilo inovace a diplomatické vztahy. Nové pokyny také výslovně uvádějí, že používání AI čipů Huawei Ascend kdekoli na světě je nyní považováno za porušení amerických exportních kontrol.

Tento krok přichází krátce poté, co se CEO Nvidie Jensen Huang objevil po boku amerického prezidenta Donalda Trumpa v Saúdské Arábii, kde prosazovali mezinárodní investice do amerických AI společností. Nvidia, která drží přibližně 90 % trhu s AI čipy, by byla významně poškozena, kdyby pravidlo vstoupilo v platnost, zejména proto, že mohlo ovlivnit i prodej čipů spřáteleným národům.

Napětí mezi OpenAI a Microsoftem

OpenAI a Microsoft údajně vedou “vysoce důležitá” jednání o přepracování podmínek svého partnerství. OpenAI se snaží snížit podíl Microsoftu na příjmech z 20 % na 10 % do roku 2030, kdy společnost předpovídá příjmy ve výši 174 miliard dolarů, zatímco Microsoft usiluje o zaručený přístup k technologiím OpenAI i po roce 2030, kdy vyprší současná smlouva.

Vztah mezi oběma společnostmi údajně ochladl, neboť OpenAI navazuje dohody s konkurenty Microsoftu pro svůj projekt Stargate, zatímco také cílí na stejné podnikové zákazníky. Existuje také napětí ohledně duševního vlastnictví, přičemž Microsoft hledá garantovaný přístup k technologiím OpenAI i po vypršení současné smlouvy.

Microsoft také zůstává klíčovým držitelem akcií, který brání plánům na konverzi obchodní části OpenAI na veřejně prospěšnou společnost (PBC).

Ohodnoťte tento článek:

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃

Zkopírováno do schránky!