偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)

發(fā)布于 2025-9-24 09:43
瀏覽
0收藏

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2509.16117
Git鏈接:https://research.nvidia.com/labs/dir/DiffusionNFT/

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

DiffusionNFT 的性能。(a)在 GenEval 任務(wù)上與 FlowGRPO 的頭對(duì)頭比較。(b)通過采用多種獎(jiǎng)勵(lì)模型,DiffusionNFT顯著提高了SD3.5-Medium 在每個(gè)測(cè)試基準(zhǔn)測(cè)試中的性能,同時(shí)完全無需 CFG

亮點(diǎn)直擊

  • 一種新的在線強(qiáng)化學(xué)習(xí)(RL)范式:擴(kuò)散負(fù)面感知微調(diào)(DiffusionNFT)。DiffusionNFT 并不基于策略梯度框架,而是通過流匹配目標(biāo)直接在前向擴(kuò)散過程中進(jìn)行策略優(yōu)化。
  • 通過在多個(gè)獎(jiǎng)勵(lì)模型上對(duì) SD3.5-Medium進(jìn)行后訓(xùn)練來評(píng)估 DiffusionNFT。整個(gè)訓(xùn)練過程刻意在無 CFG 的環(huán)境中進(jìn)行。盡管這導(dǎo)致初始性能顯著降低,但 DiffusionNFT 在域內(nèi)和域外獎(jiǎng)勵(lì)上顯著提高了性能,迅速超越 CFG 和 GRPO 基線。
  • 在單一獎(jiǎng)勵(lì)設(shè)置中與 FlowGRPO 對(duì)比。四個(gè)任務(wù)中,DiffusionNFT 一直表現(xiàn)出 3 倍到 25 倍的效率,并取得更好的最終得分。

總結(jié)速覽

解決的問題

  • 在線強(qiáng)化學(xué)習(xí)(RL)在擴(kuò)散模型中的應(yīng)用面臨挑戰(zhàn),主要由于難以處理的似然性。
  • 現(xiàn)有方法如離散化反向采樣過程存在求解器限制、前向-反向不一致性,以及與無分類器引導(dǎo)(CFG)的復(fù)雜整合。

提出的方案

  • 引入擴(kuò)散負(fù)面感知微調(diào)(DiffusionNFT),一種新的在線RL范式,通過流匹配直接在前向過程中優(yōu)化擴(kuò)散模型。
  • DiffusionNFT 通過對(duì)比正負(fù)生成來定義隱式的策略改進(jìn)方向,將強(qiáng)化信號(hào)自然融入監(jiān)督學(xué)習(xí)目標(biāo)中。

應(yīng)用的技術(shù)

  • 使用流匹配目標(biāo)進(jìn)行策略優(yōu)化,而非傳統(tǒng)的策略梯度框架。
  • 允許使用任意黑箱求解器進(jìn)行訓(xùn)練,消除對(duì)似然性估計(jì)的需求。
  • 采用隱式參數(shù)化技術(shù),整合強(qiáng)化引導(dǎo)到優(yōu)化策略中。
  • 僅需干凈的圖像用于策略優(yōu)化,而不需存儲(chǔ)整個(gè)采樣軌跡。

達(dá)到的效果

  • DiffusionNFT 的效率比 FlowGRPO 高達(dá) 25 倍,并且無需使用 CFG。
  • 在多個(gè)基準(zhǔn)測(cè)試中顯著提升了 SD3.5-Medium 的性能。
  • 例如,在 1000 步內(nèi)將 GenEval 得分從 0.24 提高到 0.98,而 FlowGRPO 在超過 5000 步和額外的 CFG 使用下僅達(dá)到 0.95。
  • 證明了在無 CFG 環(huán)境中,DiffusionNFT 在域內(nèi)和域外獎(jiǎng)勵(lì)上顯著提高了性能。

擴(kuò)散強(qiáng)化通過負(fù)面感知微調(diào)

問題設(shè)置

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

帶有前向過程的負(fù)面感知擴(kuò)散強(qiáng)化

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

定理 3.2(策略優(yōu)化)??紤]訓(xùn)練目標(biāo):

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

其中

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

在數(shù)據(jù)和模型容量無限的情況下,方程 (5) 的最優(yōu)解滿足

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

1. 前向一致性。 與在反向擴(kuò)散過程中構(gòu)建 RL 的策略梯度方法(例如,F(xiàn)lowGRPO)不同,DiffusionNFT 在前向過程中定義了一個(gè)典型的擴(kuò)散損失。這保留了本文稱之為前向一致性的特性,即擴(kuò)散模型底層概率密度對(duì) Fokker-Planck 方程的遵從性,確保所學(xué)習(xí)的模型對(duì)應(yīng)于一個(gè)有效的前向過程,而不是退化為級(jí)聯(lián)高斯分布。

2. 求解器靈活性。 DiffusionNFT 完全解耦了策略訓(xùn)練和數(shù)據(jù)采樣。這使得在整個(gè)采樣過程中可以充分利用任何黑箱求解器,而不是依賴于一階隨機(jī)微分方程(SDE)采樣器。它還消除了在數(shù)據(jù)收集過程中存儲(chǔ)整個(gè)采樣軌跡的需要,只需要用于訓(xùn)練的干凈圖像及其相關(guān)的獎(jiǎng)勵(lì)。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

4. 無需似然性公式。 以前的擴(kuò)散 RL 方法在本質(zhì)上受到其對(duì)似然性近似的限制。無論是通過變分界限近似邊際數(shù)據(jù)似然并應(yīng)用 Jensen 不等式以降低損失計(jì)算成本,還是離散化反向過程以估計(jì)序列似然,它們不可避免地在擴(kuò)散后訓(xùn)練中引入系統(tǒng)性估計(jì)偏差。相比之下,DiffusionNFT 本質(zhì)上是無需似然性的,避開了這些妥協(xié)。

實(shí)現(xiàn)

本文在算法 1 中提供了 DiffusionNFT 的偽代碼。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

下面,本文詳細(xì)說明關(guān)鍵的設(shè)計(jì)選擇。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

無 CFG 優(yōu)化。 無分類器引導(dǎo)(CFG)是提高推理時(shí)生成質(zhì)量的默認(rèn)技術(shù),但它使得訓(xùn)練后處理復(fù)雜化并降低效率。從概念上講,本文將 CFG 解釋為一種離線形式的強(qiáng)化引導(dǎo)(公式 (4)),其中條件和無條件模型對(duì)應(yīng)于正負(fù)信號(hào)。在這種理解下,本文在算法設(shè)計(jì)中舍棄了 CFG。策略僅由條件模型初始化。盡管這種初始化看似不佳,本文觀察到性能激增并迅速超越 CFG 基線(下圖 1)。這表明 CFG 的功能可以通過訓(xùn)練后強(qiáng)化學(xué)習(xí)有效地學(xué)習(xí)或替代,呼應(yīng)了最近的研究,這些研究在訓(xùn)練后不使用 CFG 也能取得強(qiáng)勁的性能。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

實(shí)驗(yàn)

本文從三個(gè)角度展示 DiffusionNFT 的潛力:(1)多獎(jiǎng)勵(lì)聯(lián)合訓(xùn)練以實(shí)現(xiàn)強(qiáng)大的無 CFG 性能,(2)與 FlowGRPO 在單一獎(jiǎng)勵(lì)上的正面對(duì)比,以及(3)關(guān)鍵設(shè)計(jì)選擇的消融研究。

實(shí)驗(yàn)設(shè)置

本文的實(shí)驗(yàn)基于 SD3.5-Medium,分辨率為 512×512,大多數(shù)設(shè)置與 FlowGRPO 一致。


獎(jiǎng)勵(lì)模型。 (1)基于規(guī)則的獎(jiǎng)勵(lì),包括用于組合圖像生成的 GenEval  和用于視覺文本渲染的 OCR,其中部分獎(jiǎng)勵(lì)分配策略遵循 FlowGRPO。(2)基于模型的獎(jiǎng)勵(lì),包括 PickScore  、ClipScore、HPSv2.1 、Aesthetics、ImageReward   和 UnifiedReward,用于衡量圖像質(zhì)量、圖像-文本對(duì)齊和人類偏好。

?

提示數(shù)據(jù)集。 對(duì)于 GenEval 和 OCR,本文使用 FlowGRPO 的相應(yīng)訓(xùn)練和測(cè)試集。對(duì)于其他獎(jiǎng)勵(lì),本文在 Pick-a-Pic 上訓(xùn)練,并在 DrawBench 上評(píng)估。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

多獎(jiǎng)勵(lì)聯(lián)合訓(xùn)練

本文首先評(píng)估 DiffusionNFT 在全面增強(qiáng)基礎(chǔ)模型方面的有效性。從無 CFG 的 SD3.5-M(25 億參數(shù))開始,本文聯(lián)合優(yōu)化五個(gè)獎(jiǎng)勵(lì):GenEval、OCR、PickScore、ClipScore 和 HPSv2.1。由于獎(jiǎng)勵(lì)基于不同的提示,本文首先在 Pick-a-Pic 上使用基于模型的獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練,以增強(qiáng)對(duì)齊和人類偏好,然后是基于規(guī)則的獎(jiǎng)勵(lì)(GenEval,OCR)。在域外評(píng)估中,本文使用 Aesthetics、ImageReward 和 UnifiedReward。

如下表 1 所示,本文最終的無 CFG 模型不僅在域內(nèi)和域外指標(biāo)上超越了 CFG,并且匹配僅適用于單一獎(jiǎng)勵(lì)的 FlowGRPO,還優(yōu)于基于 CFG 的更大模型,如 SD3.5-L(80 億參數(shù))和 FLUX.1-Dev(120 億參數(shù))。下圖 5 中的定性比較展示了本文方法的卓越視覺質(zhì)量。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

正面對(duì)比

本文與 FlowGRPO 在單一訓(xùn)練獎(jiǎng)勵(lì)上進(jìn)行正面對(duì)比。如上圖 1(a) 和下圖 6 所示,本文方法在掛鐘時(shí)間方面效率提高了 3 到 25 倍,僅需約 1000 次迭代即可實(shí)現(xiàn) GenEval 得分 0.98。這表明在本文的框架下,無 CFG 模型可以快速適應(yīng)特定的獎(jiǎng)勵(lì)環(huán)境。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

消融實(shí)驗(yàn)

本文分析了核心設(shè)計(jì)選擇的影響:

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

擴(kuò)散采樣器。 DiffusionNFT 中的在線樣本既用于獎(jiǎng)勵(lì)評(píng)估,也用作訓(xùn)練數(shù)據(jù),因此質(zhì)量至關(guān)重要。下圖 7 顯示 ODE 采樣器優(yōu)于 SDE 采樣器,尤其是在對(duì)噪聲敏感的 PickScore 上。二階 ODE 在 GenEval 上略優(yōu)于一階 ODE,而在 PickScore 上表現(xiàn)相當(dāng)。

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實(shí)現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)-AI.x社區(qū)

結(jié)論

Diffusion Negative-aware FineTuning(DiffusionNFT),這是一種用于擴(kuò)散模型在線強(qiáng)化學(xué)習(xí)的新范式,直接作用于前向過程。通過將策略改進(jìn)表述為正負(fù)生成之間的對(duì)比,DiffusionNFT 無縫地將強(qiáng)化信號(hào)整合到標(biāo)準(zhǔn)擴(kuò)散目標(biāo)中,消除了對(duì)似然估計(jì)和基于 SDE 的反向過程的依賴。實(shí)證上,DiffusionNFT 展示了強(qiáng)大且高效的獎(jiǎng)勵(lì)優(yōu)化,效率比 FlowGRPO 高達(dá) 25 倍,同時(shí)生成單一的全能模型,在各種域內(nèi)和域外獎(jiǎng)勵(lì)上超過 CFG 基線。相信這項(xiàng)工作代表了在擴(kuò)散中統(tǒng)一監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的一步,并突出了前向過程作為可擴(kuò)展、高效且理論上有原則的擴(kuò)散 RL 的有前途的基礎(chǔ)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/j2ZMLT3JoB2VWAOsBfHmgg??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄