偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華聯(lián)手英偉達(dá)打造擴(kuò)散模型新蒸餾范式!視頻生成提速50倍,四步出片不穿模

人工智能 新聞
這是清華大學(xué)朱軍教授團(tuán)隊, NVIDIA Deep Imagination研究組聯(lián)合提出的一種全新的大規(guī)模擴(kuò)散模型蒸餾范式。

讓視頻生成提速50倍,不穿模還不糊字。

新蒸餾范式讓W(xué)an2.1 14B僅需4步就生成吃火鍋視頻:

這是清華大學(xué)朱軍教授團(tuán)隊, NVIDIA Deep Imagination研究組聯(lián)合提出的一種全新的大規(guī)模擴(kuò)散模型蒸餾范式——

分?jǐn)?shù)正則化連續(xù)時間一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。

該方法首次將連續(xù)時間一致性蒸餾成功擴(kuò)展至百億參數(shù)級別的文生圖和文生視頻模型,解決了現(xiàn)有方法在真實應(yīng)用場景中的瓶頸。

通過引入前向-反向散度聯(lián)合優(yōu)化框架,rCM在大幅提升推理速度(高達(dá)50倍)的同時,兼顧了生成結(jié)果的高質(zhì)量與高多樣性。

下面具體來看。

連續(xù)時間一致性蒸餾:從學(xué)術(shù)“刷點”到應(yīng)用落地

近年來,以擴(kuò)散模型為代表的生成模型取得了巨大成功,但其迭代采樣的慢推理速度始終是阻礙其廣泛應(yīng)用的核心障礙。

為解決此問題,模型蒸餾技術(shù)應(yīng)運而生,其中,OpenAI近期提出的連續(xù)時間一致性模型 (sCM),因其理論的優(yōu)雅性和在學(xué)術(shù)數(shù)據(jù)集上的良好表現(xiàn)而備受關(guān)注。

今年5月份,何愷明加持的MeanFlow,作為sCM的熱門變體,在學(xué)術(shù)界掀起了研究熱潮。

然而,盡管相關(guān)研究層出不窮,但它們大多局限于在ImageNet等學(xué)術(shù)數(shù)據(jù)集上進(jìn)行“小打小鬧”式的驗證,距離真實世界中動輒數(shù)十億、上百億參數(shù)的大規(guī)模文生圖、文生視頻應(yīng)用場景相去甚遠(yuǎn)。

究其原因,sCM/MeanFlow依賴的雅可比-向量積 (Jacobian-Vector Product, JVP) 計算在現(xiàn)有深度學(xué)習(xí)框架下存在巨大的工程挑戰(zhàn),尤其是在與FlashAttention-2、序列并行等大模型訓(xùn)練“標(biāo)配”技術(shù)結(jié)合時,這使得sCM遲遲未能在大模型時代兌現(xiàn)其潛力。

同時,學(xué)術(shù)界關(guān)心的FID等指標(biāo),往往不能很好的衡量真實應(yīng)用場景下的細(xì)節(jié)生成,如文生圖時對細(xì)小文字的渲染。因此,sCM/MeanFlow在大規(guī)模應(yīng)用中的效果亟待驗證。

rCM:前向-反向散度聯(lián)合優(yōu)化,實現(xiàn)質(zhì)量與多樣性“雙贏”

為了打破這一僵局,團(tuán)隊首先從底層“硬骨頭”啃起。

通過自研FlashAttention-2 JVP CUDA算子并兼容序列并行等分布式訓(xùn)練策略,首次成功將連續(xù)時間一致性蒸餾應(yīng)用到CosmosWan2.1等業(yè)界領(lǐng)先的大模型上。

然而,初步的實驗暴露出單純sCM的深層問題:模型在生成精細(xì)紋理(如文字)和保證視頻的時序穩(wěn)定性方面存在明顯缺陷。

理論分析指出,這是由于sCM所依賴的前向散度(Forward Divergence)優(yōu)化目標(biāo)具有“模式覆蓋(mode-covering)”的傾向,會因誤差累積導(dǎo)致生成樣本質(zhì)量下降。

受此啟發(fā),團(tuán)隊創(chuàng)新性地提出了rCM

rCM 在sCM的基礎(chǔ)上,引入了基于分?jǐn)?shù)蒸餾的反向散度(Reverse Divergence)作為正則項,構(gòu)建了一個前向-反向聯(lián)合蒸餾框架。

  • 前向散度(sCM)訓(xùn)練數(shù)據(jù)為真實數(shù)據(jù)或教師合成的高質(zhì)量數(shù)據(jù),保證模型能覆蓋真實數(shù)據(jù)的全部模式,從而確保生成結(jié)果的高多樣性。
  • 反向散度(Score Distillation)學(xué)生模型只在自己生成的樣本上被監(jiān)督,強制模型聚焦于高密度(高質(zhì)量)數(shù)據(jù)區(qū)域,具有“模式尋求(mode-seeking)”的特性,從而顯著提升生成結(jié)果的高質(zhì)量

這種聯(lián)合優(yōu)化,使得rCM能夠取長補短,在保持sCM高多樣性優(yōu)勢的同時,有效修復(fù)其質(zhì)量短板,最終實現(xiàn)“魚與熊掌兼得”。

實驗:2-4步媲美教師模型,多樣性超越SOTA

rCM在多個大規(guī)模文生圖和文生視頻任務(wù)中展現(xiàn)了卓越的性能,將教師模型上百步的采樣過程壓縮至驚人的1-4步,實現(xiàn)了15-50倍的推理加速。

  • 性能媲美甚至超越教師模型在T2I任務(wù)的GenEval評測和T2V任務(wù)的VBench評測中,4步采樣的rCM模型在多個指標(biāo)上追平甚至超越了需要數(shù)百步采樣的教師模型。

同時,rCM在細(xì)節(jié)文字渲染等方面表現(xiàn)良好。

  • 多樣性顯著優(yōu)勢相較于先前的SOTA蒸餾方法DMD2,rCM生成的視頻內(nèi)容(如怪獸的姿態(tài)、燭光的位置)展現(xiàn)出明顯更高的多樣性,有效避免了“模式坍縮”問題。這證明了聯(lián)合利用前向-反向散度的巨大潛力。
△Wan2.1 1.3B使用不同算法蒸餾后的4步生成結(jié)果
  • 極致的少步數(shù)生成即便在1-2步的極限采樣設(shè)置下,rCM依然能產(chǎn)出高質(zhì)量、細(xì)節(jié)豐富的圖像和視頻。具體地,對于簡單的圖像提示詞只需1步生成,復(fù)雜的圖像和視頻則需2-4步。

rCM不僅提供了一個無需多階段訓(xùn)練與復(fù)雜超參搜索的高效蒸餾方案,還揭示了結(jié)合前向與反向散度是提升生成模型性能的統(tǒng)一范式。

rCM未來將被更廣泛地應(yīng)用在NVIDIA的Cosmos系列世界模型中。

感興趣的朋友可到原文查看更多細(xì)節(jié)~

論文地址:https://arxiv.org/abs/2510.08431

代碼地址:https://github.com/NVlabs/rcm

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-09-10 09:38:56

2025-10-20 08:55:00

2025-07-14 08:51:00

2022-10-20 15:38:02

谷歌模型

2025-03-27 09:24:16

2023-08-09 07:04:17

清華微軟LLM

2025-04-09 13:11:27

2022-12-14 15:14:52

數(shù)據(jù)驅(qū)動體驗度量

2025-10-20 08:58:00

2025-05-16 11:03:48

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2023-10-11 12:32:26

模型訓(xùn)練

2025-07-21 09:03:00

模型AI訓(xùn)練

2025-04-01 05:10:00

2025-02-07 14:01:20

2017-11-10 09:51:23

2024-11-25 08:20:00

2024-12-19 10:20:53

2024-12-20 07:00:00

大模型人工智能AI

2025-04-10 09:26:56

點贊
收藏

51CTO技術(shù)棧公眾號