清華聯(lián)手英偉達(dá)打造擴(kuò)散模型新蒸餾范式!視頻生成提速50倍,四步出片不穿模
讓視頻生成提速50倍,不穿模還不糊字。
新蒸餾范式讓W(xué)an2.1 14B僅需4步就生成吃火鍋視頻:

這是清華大學(xué)朱軍教授團(tuán)隊, NVIDIA Deep Imagination研究組聯(lián)合提出的一種全新的大規(guī)模擴(kuò)散模型蒸餾范式——
分?jǐn)?shù)正則化連續(xù)時間一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。

該方法首次將連續(xù)時間一致性蒸餾成功擴(kuò)展至百億參數(shù)級別的文生圖和文生視頻模型,解決了現(xiàn)有方法在真實應(yīng)用場景中的瓶頸。
通過引入前向-反向散度聯(lián)合優(yōu)化框架,rCM在大幅提升推理速度(高達(dá)50倍)的同時,兼顧了生成結(jié)果的高質(zhì)量與高多樣性。

下面具體來看。
連續(xù)時間一致性蒸餾:從學(xué)術(shù)“刷點”到應(yīng)用落地
近年來,以擴(kuò)散模型為代表的生成模型取得了巨大成功,但其迭代采樣的慢推理速度始終是阻礙其廣泛應(yīng)用的核心障礙。
為解決此問題,模型蒸餾技術(shù)應(yīng)運而生,其中,OpenAI近期提出的連續(xù)時間一致性模型 (sCM),因其理論的優(yōu)雅性和在學(xué)術(shù)數(shù)據(jù)集上的良好表現(xiàn)而備受關(guān)注。
今年5月份,何愷明加持的MeanFlow,作為sCM的熱門變體,在學(xué)術(shù)界掀起了研究熱潮。
然而,盡管相關(guān)研究層出不窮,但它們大多局限于在ImageNet等學(xué)術(shù)數(shù)據(jù)集上進(jìn)行“小打小鬧”式的驗證,距離真實世界中動輒數(shù)十億、上百億參數(shù)的大規(guī)模文生圖、文生視頻應(yīng)用場景相去甚遠(yuǎn)。
究其原因,sCM/MeanFlow依賴的雅可比-向量積 (Jacobian-Vector Product, JVP) 計算在現(xiàn)有深度學(xué)習(xí)框架下存在巨大的工程挑戰(zhàn),尤其是在與FlashAttention-2、序列并行等大模型訓(xùn)練“標(biāo)配”技術(shù)結(jié)合時,這使得sCM遲遲未能在大模型時代兌現(xiàn)其潛力。
同時,學(xué)術(shù)界關(guān)心的FID等指標(biāo),往往不能很好的衡量真實應(yīng)用場景下的細(xì)節(jié)生成,如文生圖時對細(xì)小文字的渲染。因此,sCM/MeanFlow在大規(guī)模應(yīng)用中的效果亟待驗證。
rCM:前向-反向散度聯(lián)合優(yōu)化,實現(xiàn)質(zhì)量與多樣性“雙贏”

為了打破這一僵局,團(tuán)隊首先從底層“硬骨頭”啃起。
通過自研FlashAttention-2 JVP CUDA算子并兼容序列并行等分布式訓(xùn)練策略,首次成功將連續(xù)時間一致性蒸餾應(yīng)用到Cosmos和Wan2.1等業(yè)界領(lǐng)先的大模型上。
然而,初步的實驗暴露出單純sCM的深層問題:模型在生成精細(xì)紋理(如文字)和保證視頻的時序穩(wěn)定性方面存在明顯缺陷。
理論分析指出,這是由于sCM所依賴的前向散度(Forward Divergence)優(yōu)化目標(biāo)具有“模式覆蓋(mode-covering)”的傾向,會因誤差累積導(dǎo)致生成樣本質(zhì)量下降。

受此啟發(fā),團(tuán)隊創(chuàng)新性地提出了rCM。
rCM 在sCM的基礎(chǔ)上,引入了基于分?jǐn)?shù)蒸餾的反向散度(Reverse Divergence)作為正則項,構(gòu)建了一個前向-反向聯(lián)合蒸餾框架。
- 前向散度(sCM)訓(xùn)練數(shù)據(jù)為真實數(shù)據(jù)或教師合成的高質(zhì)量數(shù)據(jù),保證模型能覆蓋真實數(shù)據(jù)的全部模式,從而確保生成結(jié)果的高多樣性。
 - 反向散度(Score Distillation)學(xué)生模型只在自己生成的樣本上被監(jiān)督,強制模型聚焦于高密度(高質(zhì)量)數(shù)據(jù)區(qū)域,具有“模式尋求(mode-seeking)”的特性,從而顯著提升生成結(jié)果的高質(zhì)量。
 
這種聯(lián)合優(yōu)化,使得rCM能夠取長補短,在保持sCM高多樣性優(yōu)勢的同時,有效修復(fù)其質(zhì)量短板,最終實現(xiàn)“魚與熊掌兼得”。
實驗:2-4步媲美教師模型,多樣性超越SOTA
rCM在多個大規(guī)模文生圖和文生視頻任務(wù)中展現(xiàn)了卓越的性能,將教師模型上百步的采樣過程壓縮至驚人的1-4步,實現(xiàn)了15-50倍的推理加速。
- 性能媲美甚至超越教師模型在T2I任務(wù)的GenEval評測和T2V任務(wù)的VBench評測中,4步采樣的rCM模型在多個指標(biāo)上追平甚至超越了需要數(shù)百步采樣的教師模型。
 

同時,rCM在細(xì)節(jié)文字渲染等方面表現(xiàn)良好。

- 多樣性顯著優(yōu)勢相較于先前的SOTA蒸餾方法DMD2,rCM生成的視頻內(nèi)容(如怪獸的姿態(tài)、燭光的位置)展現(xiàn)出明顯更高的多樣性,有效避免了“模式坍縮”問題。這證明了聯(lián)合利用前向-反向散度的巨大潛力。
 
△Wan2.1 1.3B使用不同算法蒸餾后的4步生成結(jié)果
- 極致的少步數(shù)生成即便在1-2步的極限采樣設(shè)置下,rCM依然能產(chǎn)出高質(zhì)量、細(xì)節(jié)豐富的圖像和視頻。具體地,對于簡單的圖像提示詞只需1步生成,復(fù)雜的圖像和視頻則需2-4步。
 

rCM不僅提供了一個無需多階段訓(xùn)練與復(fù)雜超參搜索的高效蒸餾方案,還揭示了結(jié)合前向與反向散度是提升生成模型性能的統(tǒng)一范式。
rCM未來將被更廣泛地應(yīng)用在NVIDIA的Cosmos系列世界模型中。
感興趣的朋友可到原文查看更多細(xì)節(jié)~
論文地址:https://arxiv.org/abs/2510.08431
代碼地址:https://github.com/NVlabs/rcm















 
 
 


















 
 
 
 