清華、NVIDIA、斯坦福提出DiffusionNFT:基于前向過程的擴(kuò)散強(qiáng)化學(xué)習(xí)新范式,訓(xùn)練效率提升25倍
清華大學(xué)朱軍教授團(tuán)隊(duì), NVIDIA Deep Imagination 研究組與斯坦福 Stefano Ermon 團(tuán)隊(duì)聯(lián)合提出了一種全新的擴(kuò)散模型強(qiáng)化學(xué)習(xí)(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。該方法首次突破現(xiàn)有 RL 對擴(kuò)散模型的基本假設(shè),直接在前向加噪過程(forward process)上進(jìn)行優(yōu)化,在徹底擺脫似然估計(jì)與特定采樣器依賴的同時(shí),顯著提升了訓(xùn)練效率與生成質(zhì)量。文章共同一作鄭凱文和陳華玉為清華大學(xué)計(jì)算機(jī)系博士生。

- 論文標(biāo)題:DiffusionNFT: Online Diffusion Reinforcement with Forward Process
- 論文鏈接:https://arxiv.org/abs/2509.16117
- 代碼倉庫:https://github.com/NVlabs/DiffusionNFT
背景 | 擴(kuò)散模型的 RL 困境
近年來,強(qiáng)化學(xué)習(xí)在大語言模型(LLMs)后訓(xùn)練中的巨大成功,催生了人們將類似方法遷移到擴(kuò)散模型的探索。例如,F(xiàn)lowGRPO 等方法通過將擴(kuò)散采樣過程離散化為多步?jīng)Q策問題,從而在反向過程上應(yīng)用策略梯度優(yōu)化。然而,這一思路存在多重根本性局限:
1. 似然估計(jì)困難:自回歸模型的似然可精確計(jì)算,而擴(kuò)散模型的似然只能以高開銷近似,導(dǎo)致 RL 優(yōu)化過程存在系統(tǒng)性偏差。
2. 前向–反向不一致:現(xiàn)有方法僅在反向去噪過程中施加優(yōu)化,沒有對擴(kuò)散模型原生的前向加噪過程的一致性進(jìn)行約束,模型在訓(xùn)練后可能退化為與前向不一致的級聯(lián)高斯。
3. 采樣器受限:需要依賴特定的一階 SDE 采樣器,無法充分發(fā)揮 ODE 或高階求解器在效率與質(zhì)量上的優(yōu)勢。
4.CFG 依賴與復(fù)雜性:現(xiàn)有 RL 方案在集成無分類器引導(dǎo) (CFG) 時(shí)需要在訓(xùn)練中對雙模型進(jìn)行優(yōu)化,效率低下。
因此,如何設(shè)計(jì)一種既能保留擴(kuò)散模型原生訓(xùn)練框架,又能高效融入強(qiáng)化學(xué)習(xí)信號的統(tǒng)一方法,是亟待探索的問題。
方法 | 基于前向過程的負(fù)例感知微調(diào)

DiffusionNFT 提出了一個(gè)全新的思路:把強(qiáng)化學(xué)習(xí)直接作用于擴(kuò)散的前向加噪過程,而非反向去噪軌跡。這一設(shè)計(jì)帶來了范式性的轉(zhuǎn)變。
核心機(jī)制包括:
正負(fù)對比的改進(jìn)方向:在采樣生成中,利用獎勵信號將樣本劃分為正例與負(fù)例,從而定義出一個(gè)隱式的 “改進(jìn)方向”。與只使用正樣本的拒絕采樣微調(diào)(Rejection FineTuning, RFT)不同,DiffusionNFT 顯式利用負(fù)樣本信號,確保模型有效 “避開” 低質(zhì)量區(qū)域。

負(fù)例感知微調(diào) (Negative-aware FineTuning, NFT):通過一種巧妙的隱式參數(shù)化方式,從目標(biāo)模型同時(shí)定義正向策略與負(fù)向策略,將正負(fù)分布對比轉(zhuǎn)化為單一網(wǎng)絡(luò)的訓(xùn)練目標(biāo),不需額外判別器或引導(dǎo)模型。

強(qiáng)化指導(dǎo) (Reinforcement Guidance):在數(shù)學(xué)上,DiffusionNFT 將優(yōu)化目標(biāo)刻畫為對舊策略分布的偏移量 ?,這一過程與 CFG 類似,但不依賴雙模型結(jié)構(gòu),而是內(nèi)生于訓(xùn)練目標(biāo)中。
這樣的設(shè)計(jì)使 DiffusionNFT 同時(shí)滿足以下優(yōu)勢:
1. 前向一致性:訓(xùn)練目標(biāo)嚴(yán)格符合擴(kuò)散的 Fokker–Planck 方程,不破壞與前向過程的一致性,使得訓(xùn)練后的模型仍然是良定義的擴(kuò)散模型。
2. 采樣器自由:訓(xùn)練與采樣徹底解耦,可使用任意黑盒 ODE/SDE 求解器,擺脫對一階 SDE 的依賴;同時(shí)在訓(xùn)練時(shí)只需存儲最終樣本與對應(yīng)獎勵值,無需整條采樣軌跡。
3. 似然無關(guān):不再需要變分下界或反向軌跡似然估計(jì),訓(xùn)練只依賴生成圖像與獎勵。
4.CFG-free 原生優(yōu)化:直接學(xué)習(xí)到獎勵引導(dǎo)的生成能力,避免 CFG 的推理開銷,同時(shí)仍可兼容 CFG 進(jìn)一步提升性能。
實(shí)驗(yàn) | 高效性與生成質(zhì)量
研究團(tuán)隊(duì)在多個(gè)獎勵模型上驗(yàn)證了 DiffusionNFT 的有效性。主要結(jié)果包括:
大幅效率提升:在 GenEval 任務(wù)上,DiffusionNFT 僅需 1k 步 即可將得分從 0.24 → 0.98,而 FlowGRPO 需超過 5k 步才能達(dá)到 0.95。整體上,DiffusionNFT 在不同任務(wù)上表現(xiàn)出 3×~25× 的訓(xùn)練效率優(yōu)勢。

CFG-free 場景下顯著提升:即便完全不依賴 CFG,DiffusionNFT 也能在美感、對齊度等方面顯著優(yōu)于原始模型。
多獎勵聯(lián)合優(yōu)化:在 SD3.5-Medium 上同時(shí)優(yōu)化 GenEval、OCR、PickScore、ClipScore、HPSv2.1 等多種獎勵,最終模型在所有指標(biāo)上均超越原始模型,與只針對單一獎勵進(jìn)行優(yōu)化的 FlowGRPO 持平,并超過更大規(guī)模的 SD3.5-L 與 FLUX.1-Dev 模型。

展望 | 向統(tǒng)一的生成對齊范式邁進(jìn)
DiffusionNFT 的提出,不僅為擴(kuò)散模型的強(qiáng)化學(xué)習(xí)提供了一個(gè)高效、簡潔且理論完備的新框架,也對更廣泛的生成模型對齊研究具有啟發(fā)意義。從語言模型到視覺生成,DiffusionNFT 展示了負(fù)例感知 + 前向一致性普適價(jià)值。它打破了似然估計(jì)與反向軌跡的限制,建立起監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的橋梁。在未來,DiffusionNFT 有望推廣至多模態(tài)生成、視頻生成以及大模型對齊等更復(fù)雜場景,成為統(tǒng)一的生成優(yōu)化范式。




































