Souhrn
Startupy Runway AI a DeepSeek vydaly nové verze svých základních modelů umělé inteligence, které tvrdí, že překonávají výkony algoritmů od gigantů jako OpenAI nebo Google. Model Gen-4.5 od Runway zlepšuje generování videa z textového popisu a nastavuje nový rekord v benchmarku Artificial Analysis Text to Video. DeepSeek V3.2 se zaměřuje na lepší výkon v programování a matematických úlohách oproti předchozí verzi.
Klíčové body
- Runway Gen-4.5 dosáhl nejlepšího skóre v benchmarku pro text-to-video generátory díky lepšímu následování pokynů a realistickému zpracování fyziky.
- DeepSeek V3.2 překonává předchůdce v kódování a matematice; firma je čínský startup specializující se na modely uvažování.
- Runway, založený v roce 2018, má financování přes 300 milionů dolarů od investorů včetně Nvidia a SoftBank, valuaci 3 miliardy dolarů.
- Gen-4.5 bude dostupný v Runway nástrojích do konce týdne za stejnou rychlost a cenu jako Gen-4, běží na Nvidia Blackwell a Hopper čipech.
- Omezení Gen-4.5 zahrnují předčasné efekty a selhání při vykreslování některých objektů.
Podrobnosti
Runway AI, firma zaměřená na nástroje pro generování videa pomocí umělé inteligence, vydala model Gen-4.5, který slouží k vytváření videoklipů z textového popisu. Tento základní model umožňuje uživatelům specifikovat detaily jako úhel kamery, osvětlení nebo další parametry, což zlepšuje přesnost oproti předchozí verzi Gen-4. Podle společnosti dosáhl Gen-4.5 nejvyššího skóre v benchmarku Artificial Analysis Text to Video, který měří výkon AI generatorů videa na základě kvality, souladu s pokyny a realismu. Optimalizace modelu zlepšují zpracování fyzikálních efektů, jako je pohyb objektů nebo kolize, což vede k přirozenějším animacím. Například uživatel může zadat popis scény s padající míčkou a model správně simuluje dráhu a odraz.
Přesto model má limity: někdy generuje efekty předčasně nebo selže při vykreslení specifických objektů zadaných v promptu. Runway poskytuje přístup k modelu přes API pro vývojáře a cloudové designové nástroje, které slouží tvůrcům obsahu, filmářům nebo marketérům k rychlé produkci videí. Nasazení Gen-4.5 probíhá na AI clusterech s Nvidia Blackwell a Hopper GPU, stejnými čipy použitými pro trénink. Model zachovává stejnou rychlost generování a cenovou strukturu jako Gen-4, což usnadňuje přechod pro stávající uživatele.
DeepSeek, čínský startup, aktualizoval svůj model uvažování V3.2, který je určen pro složité úlohy jako psaní kódu nebo řešení matematických problémů. Tato verze překonává předchozí model v těchto oblastech díky vylepšeným algoritmům, což umožňuje přesnější generování kódu v jazycích jako Python nebo řešení rovnic. DeepSeek se zaměřuje na open-source modely, které jsou dostupné pro výzkumníky a firmy.
Tyto vydání ukazují, jak startupy s velkým financováním dokážou konkurovat etablovaným hráčům. Runway například přitahuje investice od Nvidia, což mu dává přístup k špičkovému hardwaru, zatímco DeepSeek tlačí na hranice čínských AI inovací mimo omezení západních sankcí.
Proč je to důležité
Vydání Gen-4.5 posiluje konkurenci v oblasti text-to-video, kde dříve dominovaly modely jako OpenAI Sora nebo Kling od Kuaishou. Lepší benchmarkové výsledky znamenají pro uživatele přesnější nástroje pro tvorbu obsahu, což může urychlit adopci AI ve filmovém průmyslu nebo reklamě. Stejně tak V3.2 od DeepSeek zlepšuje dostupnost pokročilých modelů pro programátory, kde přesnost v kódování snižuje chyby a zrychluje vývoj.
V širším kontextu tyto modely demonstrují, jak startupy s fundingem nad 100 milionů dolarů a přístupem k Nvidia hardwaru dokážou překonat velké firmy v specifických doménách. To zvyšuje tlak na giganty jako Google nebo Meta, aby urychlily vývoj svých video a reasoning modelů. Pro průmysl to znamená demokratizaci AI nástrojů přes API, ale zároveň zdůrazňuje závislost na Nvidia čipech a potenciální rizika jako halucinace nebo nepřesnosti v limitech modelů. Dlouhodobě to může vést k rychlejšímu pokroku v multimediální AI, avšak s nutností řešit etické otázky jako deepfakes.
Zdroj: 📰 SiliconANGLE News
|