偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="5f35h"><p id="5f35h"></p></pre>

<sub id="5f35h"><p id="5f35h"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DanceGRPO：首個(gè)統(tǒng)一視覺生成的強(qiáng)化學(xué)習(xí)框架

2025-05-15 09:04:00

人工智能新聞

R1 橫空出世，帶火了 GRPO 算法，RL 也隨之成為 2025 年的熱門技術(shù)探索方向，近期，字節(jié) Seed 團(tuán)隊(duì)就在圖像生成方向進(jìn)行了相關(guān)探索。

本文由字節(jié)跳動(dòng) Seed 和香港大學(xué)聯(lián)合完成。第一作者薛澤岳為香港大學(xué) MMLab@HKU 在讀博士生，在 CVPR、NeurIPS 等國(guó)際頂級(jí)會(huì)議上發(fā)表多篇研究成果。項(xiàng)目通訊作者為黃偉林博士和羅平教授。

R1 橫空出世，帶火了 GRPO 算法，RL 也隨之成為 2025 年的熱門技術(shù)探索方向，近期，字節(jié) Seed 團(tuán)隊(duì)就在圖像生成方向進(jìn)行了相關(guān)探索。

現(xiàn)在，我們推出名為 DanceGRPO 的創(chuàng)新框架，這是首個(gè)旨在統(tǒng)一視覺生成強(qiáng)化學(xué)習(xí)的解決方案，實(shí)現(xiàn)了單一強(qiáng)化學(xué)習(xí)算法在兩大生成范式（diffusion/rectified flow）、三項(xiàng)任務(wù)（文本到圖像、文本到視頻、圖像到視頻）、四種基礎(chǔ)模型（SD、HunyuanVideo、FLUX、SkyReels-I2V）以及五類獎(jiǎng)勵(lì)模型（圖像 / 視頻美學(xué)、圖文對(duì)齊、視頻動(dòng)態(tài)質(zhì)量、二元獎(jiǎng)勵(lì)）中的全面覆蓋。

論文標(biāo)題：DanceGRPO: Unleashing GRPO on Visual Generation
arXiv 鏈接：https://arxiv.org/pdf/2505.07818

動(dòng)機(jī)

在生成式 AI 快速發(fā)展的這三年，RLHF 逐漸的走進(jìn)了大家的視野，首先是 GPT-3.5/o1 等一系列工作讓大家明白了 RLHF 在 LLM 中的意義，LLM 領(lǐng)域的 RLHF 方案百花齊放，發(fā)展的相對(duì)成熟一些，今年更催生了 R1 這一類的大爆款工作。同時(shí)，大家也發(fā)現(xiàn)，對(duì)于視覺生成任務(wù)，RLHF 對(duì)美感等指標(biāo)幾乎有著決定性影響，但相較 LLM 的成熟度，生成領(lǐng)域的 RLHF 方案顯然沒(méi)那么成熟，目前的主流方案大概分為兩類：

1. Diffusion/Flow-DPO：這一類方法是也是直接來(lái)自于 LLM 的 DPO 的影響，在實(shí)際操作中，大體分為兩種方案，第一種是離線 DPO，即讓模型去生成一批數(shù)據(jù)，然后人工標(biāo)注，然后讓好和壞的數(shù)據(jù)組成 pairs 送回模型去優(yōu)化，第二種是在線 DPO，即在線生成數(shù)據(jù)，然后讓 reward model 實(shí)時(shí)打分，然后拿回去訓(xùn)練，這兩種思路大同小異。在實(shí)際操作中，我們發(fā)現(xiàn) DPO 對(duì)模型的效果比較微弱，比如 DPO 前后的生成結(jié)果區(qū)別并不是很大，原因也很好理解，DPO 并沒(méi)有拿 reward 作為信號(hào)去 reinforce 模型的學(xué)習(xí)，而是用一種類似 SFT 的方案去做，這種情況下對(duì)模型的作用并不是很大。

2. ReFL：這一類方案是 diffusion/rectified flow 所專有的，思路非常簡(jiǎn)單直接，就是直接在 z_t 步下直接預(yù)測(cè) z_0 的結(jié)果，然后 vae 去 decode 直接送進(jìn) reward model 去直接反向傳播進(jìn)行優(yōu)化。這一類方案在圖像上效果很明顯，但是因?yàn)橐獙?duì) reward model 和 decode 后的 features 進(jìn)行反向傳播，在面對(duì) 100 幀以上的視頻生成的時(shí)候顯存壓力很大。而且，目前 LLM 和 diffusion 聯(lián)合訓(xùn)練已成為大勢(shì)所驅(qū)，ReFL 這種通過(guò)建模 z_t 和 z_0 的關(guān)系，并且直接反向傳播的方式，似乎和這一類模型的建模策略有著很大的 gap。

于是，利用強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行優(yōu)化的思路也就呼之欲出了，之前社區(qū)也對(duì)強(qiáng)化學(xué)習(xí)優(yōu)化生成模型有過(guò)一些探索，例如 DDPO 和 DPOK，但是他們都有很強(qiáng)的局限性：

1. 嘗試的數(shù)據(jù)集非常小，一般小于 100 個(gè) prompts，

2. 只針對(duì)文生圖 diffusion model 進(jìn)行了測(cè)試，并沒(méi)有涉及到目前流行的 rectified flow 和視頻生成模型

實(shí)現(xiàn)目標(biāo)

于是，我們的目標(biāo)也呼之欲出，我們的強(qiáng)化學(xué)習(xí)算法需要滿足以下特征：

1. 提升明顯，reward 上漲的足夠多

2. 在 video 上實(shí)現(xiàn)的時(shí)候顯存壓力不能大，即，不能直接反向傳播 reward model 和 vae

3. 能在大型 prompt 數(shù)據(jù)集上訓(xùn)練

4. 能遷移到 rectified flow 和視頻生成模型

DanceGRPO

核心貢獻(xiàn)

我們是第一個(gè)視覺生成 + 強(qiáng)化學(xué)習(xí)的大一統(tǒng)框架，一個(gè) DanceGRPO，可以應(yīng)用在 diffusion 和 rectified flow，可以應(yīng)用在文生圖，文生視頻，圖生視頻三類任務(wù)，我們?cè)谒膫€(gè) foundation model 上進(jìn)行了測(cè)試，包括了 Stable Diffusion，F(xiàn)LUX，HunyuanVideo，SkyReel-I2V，我們還在五個(gè) reward model 上進(jìn)行了測(cè)試。

方案設(shè)計(jì)

受最近在 LLM 大火的 GRPO 影響，我們開始嘗試 GRPO 這一類方案是否能在 diffusion model 或者 rectified flow 上穩(wěn)定訓(xùn)練，首先我們要 claim 的點(diǎn)是，diffusion model 和 rectified flow 的出發(fā)點(diǎn)雖然不同，即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情況，在這種 case 下，他們的采樣方程都可以用 SDE 實(shí)現(xiàn)，具體的公式推導(dǎo)參見原文即可。

接下來(lái)，我們就開始實(shí)現(xiàn)啦，核心的思路還是 follow 了 DeepSeek 的 GRPO 策略，即，用一個(gè) prompt，生成一批數(shù)據(jù)，然后用 GRPO 的目標(biāo)函數(shù)進(jìn)行優(yōu)化，但我們并沒(méi)有加入 KL 散度的正則項(xiàng)，因?yàn)榘l(fā)現(xiàn)這一項(xiàng)實(shí)際上作用不大，以下是我們實(shí)驗(yàn)過(guò)程中的一些核心發(fā)現(xiàn)：

1. 同一個(gè) prompt 的初始化噪聲最好相同，不然容易 reward hacking

2. 我們可以采樣一個(gè)子集的 timesteps 來(lái)加速訓(xùn)練，同時(shí)讓模型見過(guò)更多的 prompts

3. 實(shí)現(xiàn)中可以使用多個(gè) reward model 疊加，而且實(shí)現(xiàn)的時(shí)候最好是多個(gè) advantage 來(lái)疊加

4. DanceGRPO 可以學(xué)會(huì) best-of-n inference scaling 的軌跡

5. 強(qiáng)化學(xué)習(xí)會(huì)削弱生成的多樣性

6. 訓(xùn)練盡量不要打開 cfg，如果非要打開的話，一批 prompt 只能更新一次梯度

算法流程如下：

接下來(lái)是關(guān)于 reward model 的討論，我們一共使用了五類 reward model：

(1) 圖像美感

(2) 視頻美感

(3) 圖文匹配

(4) 視頻動(dòng)態(tài)質(zhì)量

(5) 我們提出了一種新的 reward model，即把美感 & 圖文匹配 reward model 的結(jié)果給二值化，意思是大于某個(gè)閾值就是 1，小于這個(gè)閾值就是 0

我們?cè)谖纳鷪D，文生視頻和圖生視頻上進(jìn)行了測(cè)試。

實(shí)驗(yàn)結(jié)果

我們使用了 HPS-v2.1 和 Clip score 去優(yōu)化模型，結(jié)果如下所示：

我們利用 VideoAlign 在 HunyuanVideo 上進(jìn)行訓(xùn)練：

以下是一些 reward 曲線：

ps：i2v 任務(wù)有一些區(qū)別，我們拿視覺美感 reward model 訓(xùn)練的時(shí)候很容易發(fā)散，個(gè)人認(rèn)為是因?yàn)?i2v 的美感更多取決于首幀，這個(gè)任務(wù)本身只有 motion quality 可言，所以我們只選擇了使用 motion quality reward 去進(jìn)行訓(xùn)練。

這是一個(gè)隨著 FLUX 訓(xùn)練迭代次數(shù)的增加，可視化的變化，我們?cè)谟?xùn)練過(guò)程中引入隨機(jī)性，但是可視化是不會(huì)引入的，就是正常的 ODE solver。

更多的結(jié)果歡迎看原文～

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 視覺生成強(qiáng)化學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="pf6n3"><track id="pf6n3"></track></legend>