偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

圖像生成里的“思維鏈”對(duì)決:DPO與GRPO誰(shuí)主沉?。扛壑形?amp;北大等首發(fā)系統(tǒng)化對(duì)比研究

發(fā)布于 2025-6-9 10:12
瀏覽
0收藏

圖像生成里的“思維鏈”對(duì)決:DPO與GRPO誰(shuí)主沉?。扛壑形?北大等首發(fā)系統(tǒng)化對(duì)比研究-AI.x社區(qū)

近年來(lái),強(qiáng)化學(xué)習(xí)(Reinforcement Learning)在提升大型語(yǔ)言模型(LLM)推理能力上的應(yīng)用持續(xù)升溫,尤其在“思維鏈”(Chain of Thought,簡(jiǎn)稱 CoT)推理方面顯示出強(qiáng)大潛力。如今,這一趨勢(shì)正從文本領(lǐng)域延伸至圖像生成。

當(dāng)圖像生成也被抽象為一種逐步?jīng)Q策的推理過(guò)程時(shí),我們不禁要問(wèn):經(jīng)典的 DPO(直接偏好優(yōu)化)和 GRPO(組相對(duì)策略優(yōu)化)在圖像生成場(chǎng)景中表現(xiàn)如何?誰(shuí)在這個(gè)新戰(zhàn)場(chǎng)更勝一籌?

近日,一項(xiàng)由香港中文大學(xué)、北京大學(xué)和上海人工智能實(shí)驗(yàn)室合作完成的研究給出了答案。他們發(fā)表了首個(gè)系統(tǒng)性對(duì)比 DPO 與 GRPO 在自回歸圖像生成任務(wù)中的工作,全面評(píng)估了兩種 RL 策略在不同場(chǎng)景下的優(yōu)劣,填補(bǔ)了相關(guān)領(lǐng)域的研究空白。

論文鏈接: https://arxiv.org/abs/2505.17017 
代碼開源: https://github.com/ZiyuGuo99/Image-Generation-CoT

圖像生成里的“思維鏈”對(duì)決:DPO與GRPO誰(shuí)主沉???港中文&北大等首發(fā)系統(tǒng)化對(duì)比研究-AI.x社區(qū)

圖1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內(nèi)域外性能對(duì)比、不同獎(jiǎng)勵(lì)模型的影響以及擴(kuò)展策略的效果。

圖像生成中的 CoT:從語(yǔ)言模型走向多模態(tài)智能

過(guò)去幾年中,Chain of Thought 被證明在語(yǔ)言模型推理中具有顯著價(jià)值。通過(guò)引導(dǎo)模型逐步思考,它能有效提升復(fù)雜問(wèn)題的解決能力。而圖像生成,尤其是基于自回歸模型的生成流程,天然也具備一種“序列化推理”的結(jié)構(gòu)。例如,將圖像離散化為 token,再按順序生成的過(guò)程,實(shí)際上就可以看作是 CoT 推理在視覺(jué)領(lǐng)域的映射。

因此,將 DPO 與 GRPO 這類原本服務(wù)于語(yǔ)言模型的 RL 策略遷移至圖像生成,是一個(gè)順理成章的探索方向。但這一過(guò)程中,也暴露出許多圖像特有的挑戰(zhàn),例如:

  • 文本與圖像的一致性難以評(píng)估
  • 圖像質(zhì)量難以用規(guī)則明確定義
  • 獎(jiǎng)勵(lì)信號(hào)不再單一、線性,涉及主觀審美、多模態(tài)對(duì)齊等維度

DPO vs. GRPO:研究設(shè)置與對(duì)比框架

研究團(tuán)隊(duì)基于目前先進(jìn)的Janus-Pro 自回歸圖像生成模型,構(gòu)建了完整的實(shí)驗(yàn)體系,并在兩個(gè)具有代表性的數(shù)據(jù)集上進(jìn)行了細(xì)致的實(shí)證分析:

  • T2I-CompBench:面向復(fù)雜、長(zhǎng)文本描述的圖文生成任務(wù)(屬于域內(nèi)任務(wù))
  • GenEval:包含短文本、模板化描述,測(cè)試模型的跨場(chǎng)景泛化能力(域外任務(wù))

為了確保對(duì)比的公平性,實(shí)驗(yàn)在兩個(gè)維度上嚴(yán)格控制:

1.DPO 與 GRPO 使用相同的獎(jiǎng)勵(lì)模型;2.對(duì)每個(gè)提示(prompt)生成的圖像數(shù)量、組大小等參數(shù)保持一致,確保計(jì)算資源一致可比。

研究核心發(fā)現(xiàn)

圖像生成里的“思維鏈”對(duì)決:DPO與GRPO誰(shuí)主沉浮?港中文&北大等首發(fā)系統(tǒng)化對(duì)比研究-AI.x社區(qū)

1.域內(nèi)表現(xiàn):DPO 更勝一籌

在面對(duì)訓(xùn)練數(shù)據(jù)分布一致的“域內(nèi)”場(chǎng)景時(shí),DPO 展現(xiàn)出強(qiáng)勁優(yōu)勢(shì)。研究顯示:

  • 在 T2I-CompBench 上,DPO 的平均生成質(zhì)量超過(guò) GRPO 約 11.5%;
  • 使用官方評(píng)分標(biāo)準(zhǔn)作為獎(jiǎng)勵(lì)時(shí),DPO 的峰值提升甚至高達(dá) 7.8%。

這是因?yàn)?DPO 能高效利用預(yù)收集的靜態(tài)偏好數(shù)據(jù),對(duì)已有數(shù)據(jù)集的擬合能力更強(qiáng),適合深度優(yōu)化。

2.泛化能力:GRPO 更穩(wěn)定

但在需要遷移泛化的“域外”場(chǎng)景(GenEval)中,GRPO 的表現(xiàn)更優(yōu):

  • 在使用 HPS 獎(jiǎng)勵(lì)模型時(shí),GRPO 的結(jié)果比 DPO 高出約 2.4%;
  • GRPO 由于是 on-policy 策略,更擅長(zhǎng)動(dòng)態(tài)適應(yīng)新數(shù)據(jù)分布,提升跨任務(wù)遷移能力。

圖像生成里的“思維鏈”對(duì)決:DPO與GRPO誰(shuí)主沉???港中文&北大等首發(fā)系統(tǒng)化對(duì)比研究-AI.x社區(qū)

圖2: 域內(nèi)與域外性能對(duì)比的可視化結(jié)果。

3.獎(jiǎng)勵(lì)模型選擇:影響巨大

兩者都對(duì)獎(jiǎng)勵(lì)模型的選擇敏感,尤其是 DPO:

  • DPO 在不同獎(jiǎng)勵(lì)模型下的泛化能力差異更大,標(biāo)準(zhǔn)差達(dá) 0.9547;
  • GRPO 表現(xiàn)更穩(wěn)定,標(biāo)準(zhǔn)差約為 0.5486。

此外,一個(gè)重要發(fā)現(xiàn)是:獎(jiǎng)勵(lì)模型本身的泛化能力,幾乎決定了最終模型的泛化能力。 在 GenEval 上進(jìn)行 best-of-N 評(píng)估后發(fā)現(xiàn),無(wú)論使用哪種 RL 策略,最終的性能排序與獎(jiǎng)勵(lì)模型本身的打分能力高度一致:

??> UnifiedReward > ImageReward > HPSReward??

這說(shuō)明,選擇或訓(xùn)練一個(gè)高質(zhì)量獎(jiǎng)勵(lì)模型,是強(qiáng)化學(xué)習(xí)有效性的關(guān)鍵前提。

圖像生成里的“思維鏈”對(duì)決:DPO與GRPO誰(shuí)主沉?。扛壑形?北大等首發(fā)系統(tǒng)化對(duì)比研究-AI.x社區(qū)

圖3: 不同獎(jiǎng)勵(lì)模型影響的可視化結(jié)果。

三種擴(kuò)展訓(xùn)練策略效果分析

圖像生成里的“思維鏈”對(duì)決:DPO與GRPO誰(shuí)主沉?。扛壑形?北大等首發(fā)系統(tǒng)化對(duì)比研究-AI.x社區(qū)

圖4: 擴(kuò)展策略影響的可視化結(jié)果。

研究還對(duì)以下三種訓(xùn)練策略進(jìn)行系統(tǒng)探討,以進(jìn)一步優(yōu)化模型表現(xiàn):

1.增加采樣圖像數(shù)量(Sampling Size) 2.擴(kuò)展訓(xùn)練數(shù)據(jù)規(guī)模與多樣性(Data Size)  3.迭代訓(xùn)練(DPO-Iter / GRPO-Iter)

對(duì)于 GRPO:

  • 增加每輪采樣數(shù)量是提升性能的最有效手段;
  • 適度擴(kuò)大訓(xùn)練集規(guī)模有助于提升泛化;
  • 但過(guò)度擴(kuò)展會(huì)引起過(guò)擬合現(xiàn)象。

對(duì)于 DPO:

  • 多輪迭代訓(xùn)練可強(qiáng)化域內(nèi)性能,但存在泛化性能下降的風(fēng)險(xiǎn);
  • 增加樣本多樣性與數(shù)量,有助于突破偏好范圍限制;
  • 小規(guī)模采樣利于偏好對(duì)比,提升表現(xiàn);過(guò)度采樣則可能引入噪聲或偏差。

理論分析與方法機(jī)制

DPO 與 GRPO 的差異并不只是訓(xùn)練流程不同,它們?cè)诓呗越Y(jié)構(gòu)與損失構(gòu)造上也存在本質(zhì)區(qū)別:

  • DPO 是一種基于離策略訓(xùn)練的偏好學(xué)習(xí)方式,依賴靜態(tài)的正負(fù)樣本對(duì),通過(guò)優(yōu)化偏好傾向函數(shù)來(lái)提升生成質(zhì)量;
  • GRPO 更強(qiáng)調(diào)“組間對(duì)比”,通過(guò)在線采樣、策略更新進(jìn)行逐步優(yōu)化,策略靈活但成本更高。

研究還特別指出,兩者的訓(xùn)練損失在計(jì)算開銷上可以做精細(xì)對(duì)齊,從而保證評(píng)估結(jié)果更具可比性。

總結(jié)與展望

這項(xiàng)開創(chuàng)性研究為圖像生成領(lǐng)域引入 RL 思維鏈機(jī)制提供了系統(tǒng)的理論與實(shí)證支撐。DPO 與 GRPO 并非簡(jiǎn)單的“優(yōu)劣之分”,而是更適合于不同場(chǎng)景:

  • DPO 適合在已有高質(zhì)量數(shù)據(jù)基礎(chǔ)上深度優(yōu)化,追求精細(xì)化輸出
  • GRPO 則適合泛化需求高、任務(wù)分布多樣的實(shí)際應(yīng)用環(huán)境

與此同時(shí),研究也強(qiáng)調(diào)了獎(jiǎng)勵(lì)模型作為“訓(xùn)練導(dǎo)航儀”的重要性,未來(lái)在獎(jiǎng)勵(lì)模型的泛化性設(shè)計(jì)上仍有很大提升空間。此外,該研究不僅明確了 DPO 與 GRPO 在不同場(chǎng)景下的適用性,也提供了可復(fù)用的實(shí)驗(yàn)框架與擴(kuò)展策略建議,為圖像生成引入 RL 方法奠定了實(shí)踐基礎(chǔ)。


隨著多模態(tài)任務(wù)復(fù)雜度提升,如何在泛化能力、生成質(zhì)量與訓(xùn)練效率之間找到平衡,將成為關(guān)鍵議題。這項(xiàng)工作為后續(xù)設(shè)計(jì)更魯棒、更智能的圖像生成 RL 框架提供了有力啟示,未來(lái)值得期待。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/wgyFWkCXvd89kK0aLeQX6g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦