偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="je9fx"></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

清華聯(lián)手英偉達(dá)打造擴(kuò)散模型新蒸餾范式！視頻生成提速50倍，四步出片不穿模

2025-10-23 09:02:12

人工智能新聞

這是清華大學(xué)朱軍教授團(tuán)隊， NVIDIA Deep Imagination研究組聯(lián)合提出的一種全新的大規(guī)模擴(kuò)散模型蒸餾范式。

讓視頻生成提速50倍，不穿模還不糊字。

新蒸餾范式讓W(xué)an2.1 14B僅需4步就生成吃火鍋視頻：

這是清華大學(xué)朱軍教授團(tuán)隊， NVIDIA Deep Imagination研究組聯(lián)合提出的一種全新的大規(guī)模擴(kuò)散模型蒸餾范式——

分?jǐn)?shù)正則化連續(xù)時間一致性模型 （Score-Regularized Continuous-Time Consistency Model, rCM）。

該方法首次將連續(xù)時間一致性蒸餾成功擴(kuò)展至百億參數(shù)級別的文生圖和文生視頻模型，解決了現(xiàn)有方法在真實應(yīng)用場景中的瓶頸。

通過引入前向-反向散度聯(lián)合優(yōu)化框架，rCM在大幅提升推理速度（高達(dá)50倍）的同時，兼顧了生成結(jié)果的高質(zhì)量與高多樣性。

下面具體來看。

連續(xù)時間一致性蒸餾：從學(xué)術(shù)“刷點”到應(yīng)用落地

近年來，以擴(kuò)散模型為代表的生成模型取得了巨大成功，但其迭代采樣的慢推理速度始終是阻礙其廣泛應(yīng)用的核心障礙。

為解決此問題，模型蒸餾技術(shù)應(yīng)運而生，其中，OpenAI近期提出的連續(xù)時間一致性模型（sCM），因其理論的優(yōu)雅性和在學(xué)術(shù)數(shù)據(jù)集上的良好表現(xiàn)而備受關(guān)注。

今年5月份，何愷明加持的MeanFlow，作為sCM的熱門變體，在學(xué)術(shù)界掀起了研究熱潮。

然而，盡管相關(guān)研究層出不窮，但它們大多局限于在ImageNet等學(xué)術(shù)數(shù)據(jù)集上進(jìn)行“小打小鬧”式的驗證，距離真實世界中動輒數(shù)十億、上百億參數(shù)的大規(guī)模文生圖、文生視頻應(yīng)用場景相去甚遠(yuǎn)。

究其原因，sCM/MeanFlow依賴的雅可比-向量積 (Jacobian-Vector Product, JVP) 計算在現(xiàn)有深度學(xué)習(xí)框架下存在巨大的工程挑戰(zhàn)，尤其是在與FlashAttention-2、序列并行等大模型訓(xùn)練“標(biāo)配”技術(shù)結(jié)合時，這使得sCM遲遲未能在大模型時代兌現(xiàn)其潛力。

同時，學(xué)術(shù)界關(guān)心的FID等指標(biāo)，往往不能很好的衡量真實應(yīng)用場景下的細(xì)節(jié)生成，如文生圖時對細(xì)小文字的渲染。因此，sCM/MeanFlow在大規(guī)模應(yīng)用中的效果亟待驗證。

rCM：前向-反向散度聯(lián)合優(yōu)化，實現(xiàn)質(zhì)量與多樣性“雙贏”

為了打破這一僵局，團(tuán)隊首先從底層“硬骨頭”啃起。

通過自研FlashAttention-2 JVP CUDA算子并兼容序列并行等分布式訓(xùn)練策略，首次成功將連續(xù)時間一致性蒸餾應(yīng)用到Cosmos和Wan2.1等業(yè)界領(lǐng)先的大模型上。

然而，初步的實驗暴露出單純sCM的深層問題：模型在生成精細(xì)紋理（如文字）和保證視頻的時序穩(wěn)定性方面存在明顯缺陷。

理論分析指出，這是由于sCM所依賴的前向散度（Forward Divergence）優(yōu)化目標(biāo)具有“模式覆蓋（mode-covering）”的傾向，會因誤差累積導(dǎo)致生成樣本質(zhì)量下降。

受此啟發(fā)，團(tuán)隊創(chuàng)新性地提出了rCM。

rCM 在sCM的基礎(chǔ)上，引入了基于分?jǐn)?shù)蒸餾的反向散度（Reverse Divergence）作為正則項，構(gòu)建了一個前向-反向聯(lián)合蒸餾框架。

前向散度（sCM）訓(xùn)練數(shù)據(jù)為真實數(shù)據(jù)或教師合成的高質(zhì)量數(shù)據(jù)，保證模型能覆蓋真實數(shù)據(jù)的全部模式，從而確保生成結(jié)果的高多樣性。
反向散度（Score Distillation）學(xué)生模型只在自己生成的樣本上被監(jiān)督，強制模型聚焦于高密度（高質(zhì)量）數(shù)據(jù)區(qū)域，具有“模式尋求（mode-seeking）”的特性，從而顯著提升生成結(jié)果的高質(zhì)量。

這種聯(lián)合優(yōu)化，使得rCM能夠取長補短，在保持sCM高多樣性優(yōu)勢的同時，有效修復(fù)其質(zhì)量短板，最終實現(xiàn)“魚與熊掌兼得”。

實驗：2-4步媲美教師模型，多樣性超越SOTA

rCM在多個大規(guī)模文生圖和文生視頻任務(wù)中展現(xiàn)了卓越的性能，將教師模型上百步的采樣過程壓縮至驚人的1-4步，實現(xiàn)了15-50倍的推理加速。

性能媲美甚至超越教師模型在T2I任務(wù)的GenEval評測和T2V任務(wù)的VBench評測中，4步采樣的rCM模型在多個指標(biāo)上追平甚至超越了需要數(shù)百步采樣的教師模型。

同時，rCM在細(xì)節(jié)文字渲染等方面表現(xiàn)良好。

多樣性顯著優(yōu)勢相較于先前的SOTA蒸餾方法DMD2，rCM生成的視頻內(nèi)容（如怪獸的姿態(tài)、燭光的位置）展現(xiàn)出明顯更高的多樣性，有效避免了“模式坍縮”問題。這證明了聯(lián)合利用前向-反向散度的巨大潛力。

△Wan2.1 1.3B使用不同算法蒸餾后的4步生成結(jié)果

極致的少步數(shù)生成即便在1-2步的極限采樣設(shè)置下，rCM依然能產(chǎn)出高質(zhì)量、細(xì)節(jié)豐富的圖像和視頻。具體地，對于簡單的圖像提示詞只需1步生成，復(fù)雜的圖像和視頻則需2-4步。

rCM不僅提供了一個無需多階段訓(xùn)練與復(fù)雜超參搜索的高效蒸餾方案，還揭示了結(jié)合前向與反向散度是提升生成模型性能的統(tǒng)一范式。

rCM未來將被更廣泛地應(yīng)用在NVIDIA的Cosmos系列世界模型中。

感興趣的朋友可到原文查看更多細(xì)節(jié)～

論文地址：https://arxiv.org/abs/2510.08431

代碼地址：https://github.com/NVlabs/rcm

責(zé)任編輯：張燕妮來源：量子位

AI 模型視頻生成

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<menuitem id="4qe6d"></menuitem>

<tt id="4qe6d"></tt>