偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DPO與GRPO誰(shuí)更勝一籌?港中文、北大等聯(lián)合發(fā)布首個(gè)系統(tǒng)性對(duì)比研究

人工智能 新聞
近日,一篇來(lái)自香港中文大學(xué)、北京大學(xué)及上海人工智能實(shí)驗(yàn)室的最新研究首次對(duì) GRPO 和 DPO 算法在自回歸圖像生成中的應(yīng)用進(jìn)行了全面深入的比較,不僅評(píng)估了它們?cè)谟騼?nèi)(in-domain)和域外(out-of-domain)的性能,還細(xì)致探究了不同獎(jiǎng)勵(lì)模型及擴(kuò)展策略對(duì)其能力的影響。

近年來(lái),強(qiáng)化學(xué)習(xí) (RL) 在提升大型語(yǔ)言模型 (LLM) 的鏈?zhǔn)剿伎?(CoT) 推理能力方面展現(xiàn)出巨大潛力,其中直接偏好優(yōu)化 (DPO) 和組相對(duì)策略優(yōu)化 (GRPO) 是兩大主流算法。

如今,這股 RL 的浪潮也涌向了圖像生成領(lǐng)域。當(dāng)我們將自回歸圖像生成也視為一種序列化的 CoT 推理過(guò)程時(shí),一個(gè)核心問(wèn)題浮出水面:DPO 和 GRPO 在這個(gè)新戰(zhàn)場(chǎng)上表現(xiàn)如何?它們各自的優(yōu)勢(shì)、挑戰(zhàn)以及最佳實(shí)踐又是什么?

近日,一篇來(lái)自香港中文大學(xué)、北京大學(xué)及上海人工智能實(shí)驗(yàn)室的最新研究給出了答案。該研究首次對(duì) GRPO 和 DPO 算法在自回歸圖像生成中的應(yīng)用進(jìn)行了全面深入的比較,不僅評(píng)估了它們?cè)谟騼?nèi)(in-domain)和域外(out-of-domain)的性能,還細(xì)致探究了不同獎(jiǎng)勵(lì)模型及擴(kuò)展策略對(duì)其能力的影響。

圖片

  • 論文標(biāo)題:Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
  • 論文鏈接:https://arxiv.org/abs/2505.17017
  • 代碼鏈接:https://github.com/ZiyuGuo99/Image-Generation-CoT

與 LLM 的 CoT 推理不同,圖像生成的 CoT 面臨著獨(dú)特的挑戰(zhàn),例如確保文本 - 圖像一致性、提升圖像美學(xué)質(zhì)量以及設(shè)計(jì)復(fù)雜的獎(jiǎng)勵(lì)模型(而非簡(jiǎn)單的基于規(guī)則的獎(jiǎng)勵(lì))?,F(xiàn)有工作雖然已將 RL 引入該領(lǐng)域,但往往缺乏對(duì)這些領(lǐng)域特定挑戰(zhàn)以及不同 RL 策略特性的深入分析。

該團(tuán)隊(duì)的這項(xiàng)新研究填補(bǔ)了這一空白,為我們揭示了 DPO 和 GRPO 在圖像生成領(lǐng)域的「相愛(ài)相殺」和「各自為王」。

圖片

圖 1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內(nèi)域外性能對(duì)比、不同獎(jiǎng)勵(lì)模型的影響以及擴(kuò)展策略的效果。

研究核心發(fā)現(xiàn)概覽

研究團(tuán)隊(duì)以最新的自回歸圖像生成模型 Janus-Pro 為基線,在 T2I-CompBench (域內(nèi)、長(zhǎng)文本復(fù)雜場(chǎng)景) 和 GenEval (域外、短文本模板化) 數(shù)據(jù)集上進(jìn)行了細(xì)致評(píng)估。核心發(fā)現(xiàn)可歸納為三大方面:

1. 域內(nèi)性能 vs. 域外泛化:DPO 與 GRPO 各擅勝場(chǎng)

  • DPO 稱雄域內(nèi): 實(shí)驗(yàn)結(jié)果顯示,離策略 (off-policy) 的 DPO 方法在域內(nèi)任務(wù)上表現(xiàn)優(yōu)于 GRPO。在 T2I-CompBench 數(shù)據(jù)集上,DPO 的平均性能比 GRPO 高出約 11.53%;在使用官方評(píng)估工具作為獎(jiǎng)勵(lì)信號(hào)時(shí),DPO 甚至能達(dá)到 7.8% 的峰值提升。這突顯了 DPO 在域內(nèi)任務(wù)上的有效性和魯棒性。
  • GRPO 泛化更強(qiáng): 與之相反,在策略 (on-policy) 的 GRPO 在域外泛化能力上表現(xiàn)更出色。在 GenEval 數(shù)據(jù)集上,GRPO 始終展現(xiàn)出比 DPO 更好的泛化性能;在使用 HPS 獎(jiǎng)勵(lì)模型時(shí),GRPO 的峰值提升甚至比 DPO 高出 2.42%。

2. 獎(jiǎng)勵(lì)模型的影響:DPO 更敏感,優(yōu)質(zhì)獎(jiǎng)勵(lì)模型提升 RL 泛化

  • DPO 對(duì)獎(jiǎng)勵(lì)模型選擇更敏感: 研究發(fā)現(xiàn),DPO 的泛化性能對(duì)獎(jiǎng)勵(lì)模型的選擇比 GRPO 更為敏感,表現(xiàn)為更大的域外性能波動(dòng)。GRPO 在 GenEval 上的性能方差為 0.5486,顯著低于 DPO 的 0.9547。
  • 獎(jiǎng)勵(lì)模型的內(nèi)在泛化能力至關(guān)重要: 一個(gè)具有更強(qiáng)內(nèi)在泛化能力的獎(jiǎng)勵(lì)模型,能夠潛在地提升 RL 算法的整體泛化性能。研究中,不同獎(jiǎng)勵(lì)模型(如 HPS、ImageReward、Unified Reward 等)在 GenEval 上的表現(xiàn)排序,與它們通過(guò) GRPO 或 DPO 優(yōu)化后的 RL 模型表現(xiàn)排序高度一致。

3. 有效擴(kuò)展策略的探索:因材施教,DPO 與 GRPO 策略迥異

研究團(tuán)隊(duì)系統(tǒng)探索了三種主流擴(kuò)展策略:擴(kuò)展每個(gè)提示生成的樣本圖像數(shù)量、擴(kuò)展域內(nèi)訓(xùn)練數(shù)據(jù)的多樣性和體量,以及采用迭代訓(xùn)練方法。

對(duì)于 GRPO:

  • 擴(kuò)展采樣圖像數(shù)量能帶來(lái)更高效的域內(nèi)性能提升。
  • 適度擴(kuò)展采樣規(guī)模和域內(nèi)數(shù)據(jù)有助于改善泛化能力,但過(guò)度擴(kuò)展可能導(dǎo)致過(guò)擬合。

對(duì)于 DPO:

  • 迭代訓(xùn)練傾向于最大化域內(nèi)性能,但在多輪迭代后可能損害泛化能力。
  • 適度采樣能銳化偏好對(duì)比,優(yōu)化域內(nèi)和域外性能;但過(guò)度采樣會(huì)引入偏差。
  • 擴(kuò)展域內(nèi)數(shù)據(jù)通過(guò)緩解小數(shù)據(jù)集帶來(lái)的偏好范圍局限,能同時(shí)提升域內(nèi)和域外性能。

研究細(xì)節(jié)與洞察

研究團(tuán)隊(duì)首先明確了任務(wù)設(shè)定:自回歸圖像生成模型(如 LlamaGen、Show-o、Janus-Pro)通過(guò)將圖像轉(zhuǎn)換為離散 token 序列進(jìn)行預(yù)測(cè),其過(guò)程與 LLM 的文本生成類(lèi)似,因此可以無(wú)縫集成 DPO 和 GRPO 的損失機(jī)制。

在 DPO 與 GRPO 的對(duì)比中,研究者確保了兩者在計(jì)算成本上的可比性。例如,DPO 中每個(gè) prompt 生成的圖像數(shù)量與 GRPO 中的組大小對(duì)齊,并使用相同的獎(jiǎng)勵(lì)模型。

結(jié)果清晰地顯示,DPO 憑借其對(duì)預(yù)收集靜態(tài)數(shù)據(jù)的有效利用,在域內(nèi)場(chǎng)景(如 T2I-CompBench 的復(fù)雜長(zhǎng)描述)中表現(xiàn)更佳。而 GRPO 通過(guò)迭代優(yōu)化策略和在線采樣,更能適應(yīng)復(fù)雜任務(wù)分布,從而在域外場(chǎng)景(如 GenEval 的模板化短描述)中展現(xiàn)出更強(qiáng)的泛化性。

圖片

圖 2: 域內(nèi)與域外性能對(duì)比的可視化結(jié)果。

在獎(jiǎng)勵(lì)模型影響的分析中,研究團(tuán)隊(duì)考察了三類(lèi)獎(jiǎng)勵(lì)模型:基于人類(lèi)偏好的模型 (HPS, ImageReward)、視覺(jué)問(wèn)答模型 (UnifiedReward, Ft. ORM) 和基于度量的獎(jiǎng)勵(lì)模型。

一個(gè)有趣的發(fā)現(xiàn)是,獎(jiǎng)勵(lì)模型自身的泛化能力(通過(guò) best-of-N 策略在 GenEval 上評(píng)估得到)與通過(guò) RL 算法(DPO 或 GRPO)訓(xùn)練后模型的泛化能力排序高度吻合(Unified Reward > Image Reward > HPS Reward)。這表明,提升獎(jiǎng)勵(lì)模型本身的泛化性是提升 RL 泛化性的一個(gè)關(guān)鍵途徑。

圖片

圖 3: 不同獎(jiǎng)勵(lì)模型影響的可視化結(jié)果。

在擴(kuò)展策略的探索上,研究團(tuán)隊(duì)針對(duì) GRPO 和 DPO 的特性提出了不同的優(yōu)化路徑。例如,對(duì)于 GRPO,增加每輪采樣的圖像數(shù)量(group size)比增加訓(xùn)練數(shù)據(jù)量或迭代次數(shù),能更經(jīng)濟(jì)地提升域內(nèi)性能。

而對(duì)于 DPO,迭代訓(xùn)練(如 DPO-Iter)雖然能顯著提升域內(nèi)分?jǐn)?shù),但過(guò)早地在泛化能力上達(dá)到瓶頸甚至衰退,這可能源于對(duì)訓(xùn)練偏好數(shù)據(jù)的過(guò)擬合。另一方面,擴(kuò)展域內(nèi)訓(xùn)練數(shù)據(jù)的多樣性和數(shù)量,則能幫助 DPO 克服小規(guī)模偏好數(shù)據(jù)集帶來(lái)的局限性,從而同時(shí)提升域內(nèi)和域外表現(xiàn)。

圖片

圖 4: 擴(kuò)展策略影響的可視化結(jié)果。

總結(jié)與展望

這項(xiàng)研究為我們提供了一幅關(guān)于 DPO 和 GRPO 在自回歸圖像生成領(lǐng)域應(yīng)用的清晰圖景。它不僅揭示了 DPO 在域內(nèi)任務(wù)上的優(yōu)勢(shì)和 GRPO 在域外泛化上的長(zhǎng)處,還強(qiáng)調(diào)了高質(zhì)量、高泛化性獎(jiǎng)勵(lì)模型的重要性,并為兩種 RL 范式提供了針對(duì)性的擴(kuò)展策略建議。

這些發(fā)現(xiàn)為未來(lái)開(kāi)發(fā)更高效的 RL 算法,以在自回歸圖像生成領(lǐng)域?qū)崿F(xiàn)更魯棒的 CoT 推理,鋪平了新的道路。研究者希望這項(xiàng)工作能啟發(fā)更多后續(xù)研究,共同推動(dòng) AI 在視覺(jué)創(chuàng)造力上的邊界。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2020-03-06 09:21:28

PWA原生應(yīng)用Web

2024-07-31 09:39:33

2025-08-05 08:13:19

2010-05-28 11:21:17

2017-01-11 14:38:39

編程語(yǔ)言Java

2014-03-06 15:07:41

青橙小米

2022-07-20 08:16:54

Lombokjava工具

2018-06-12 10:09:41

編程語(yǔ)言PythonJava

2010-05-21 16:36:09

GoogleCode

2020-02-02 15:42:22

PythonC++編程語(yǔ)言

2017-11-13 15:38:03

VMwareOpenStack混合云

2019-01-04 09:59:14

KafkaRabbitMQMQ

2020-01-18 14:55:03

架構(gòu)運(yùn)維技術(shù)

2018-08-15 08:33:33

編程Go語(yǔ)言開(kāi)發(fā)

2023-08-09 18:08:35

ChatGPTStackOverflow

2018-10-12 13:54:26

2025-01-03 09:27:14

2017-06-08 15:38:41

2010-07-27 14:36:31

Flex Array

2013-02-19 13:13:33

SurfaceiPad
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)