Zrychlení difúzních modelů otevřenou plug-and-play knihovnou

Souhrn

NVIDIA vydala FastGen, open source knihovnu pro akceleraci difúzních modelů, která unifikuje stávající metody destilace a umožňuje převést modely vyžadující desítky až stovky iterativních kroků denoisingu na generátory s jedním nebo několika kroky. Tento nástroj řeší klíčový problém pomalého generování v oblastech jako syntéza obrazů, audia, 3D objektů či molekul, s důrazem na video generaci, kde dosahuje až 100násobného zrychlení.

Klíčové body

Unifikace trajectory-based a distribution-based destilačních přístupů pro kompatibilitu s různými difúzními modely.
Reproducibilní benchmarky prokazující 10x až 100x zrychlení odběru vzorků bez ztráty kvality nebo diverzity výstupů.
Škálovatelnost na velké video modely až s 14 miliardami parametrů, včetně open source NVIDIA Cosmos.
Podpora kauzální destilace pro interaktivní modelování světa v reálném čase.
Plug-and-play design umožňující snadnou integraci do existujících pipelineů.

Podrobnosti

Difúzní modely, které v poslední době transformovaly generativní umělou inteligenci, fungují na principu postupného přidávání a následného odstraňování šumu z náhodného vstupu, což vede k vysoce kvalitním výstupům v úkolech jako generování obrazů z textu, audia, 3D modelů nebo molekul. Problémem však zůstává vysoká latence: standardní modely potřebují 10 až 100 iterací denoisingu, což způsobuje vysoké výpočetní nároky a brání nasazení v interaktivních aplikacích, na okrajových zařízeních nebo ve velkorysých produkčních systémech.

Video generace tento problém zesiluje kvůli časové dimenzi – modely jako open source NVIDIA Cosmos nebo komerční text-to-video systémy trvají na generování jednoho videa minuty až hodiny. FastGen tento bottleneck řeší destilací, kde se pomalý vícekrokový model destiluje do rychlejšího ekvivalentu. Knihovna pokrývá dva hlavní přístupy: trajectory-based destilaci, která aproximuje celou trajektorii denoisingu, a distribution-based, která se zaměřuje na učení přímé mapování z šumu na čistý výstup. FastGen tyto metody sjednocuje do jedné knihovny s reprodukovatelnými benchmarky, což usnadňuje porovnávání a vývoj.

V testech na modelech pro obrazy, audio i video dosáhla knihovna zrychlení 10x až 100x při zachování metrik kvality jako FID nebo CLIP score. Pro velké video modely s 14B parametry, které běžně vyžadují hodiny, umožňuje FastGen generování v sekundách. Kauzální destilace navíc podporuje autoregresivní generování, klíčové pro interaktivní editaci videa nebo trénink agentů v simulovaných světech. NVIDIA, přední výrobce GPU pro AI výpočty, tak poskytuje nástroj, který je volně dostupný a lze ho integrovat do PyTorch pipelineů bez změn v architektuře modelu.

Proč je to důležité

Tento vývoj urychluje přechod difúzních modelů z výzkumných prototypů do praxe, zejména ve video aplikacích, kde real-time generování otevírá dveře k interaktivním nástrojům pro tvorbu obsahu, virtuální realitu nebo autonomní agenty. Pro průmysl znamená snížení nákladů na inference na edge zařízeních a škálovatelnost pro produkci. V kontextu soutěže v generativní AI (jako Stable Diffusion, Sora nebo Veo) posiluje NVIDIA svou pozici, protože FastGen funguje s jakýmkoli difúzním modelem, nejen jejichmi. Dlouhodobě to může zefektivnit trénink a nasazení velkých modelů, přispět k demokratizaci AI nástrojů a omezit závislost na cloudových službách s vysokou latencí.

Číst původní článek

Zdroj: 📰 Nvidia.com