訓練時間減半,性能不降反升!騰訊混元開源圖像生成高效強化方案MixGRPO
圖像生成不光要好看,更要高效。
混元基礎模型團隊提出全新框架MixGRPO,該框架通過結合隨機微分方程(SDE)和常微分方程(ODE),利用混合采樣策略的靈活性,簡化了MDP中的優(yōu)化流程,從而提升了效率的同時還增強了性能。

基于MixGRPO,研究人員提出了一個更快的變體MixGRPO-Flash,在保持相近性能的同時進一步提升了訓練效率。
MixGRPO在人類偏好對齊的多個維度上均表現(xiàn)出顯著提升,效果和效率均優(yōu)于DanceGRPO,訓練時間降低近50%。值得注意的是,MixGRPO-Flash可將訓練時間進一步降低71%。

開源代碼請參考文末鏈接。
MixGRPO模型解析
GRPO中的ODE-SDE混合采樣
近年來,文本到圖像(Text-to-Image,T2I)任務的最新進展表明,通過在后訓練階段引入基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)策略以最大化獎勵,流匹配模型的性能得到了顯著提升。
具體而言,基于組相對策略優(yōu)化(Group Relative Policy Optimization,GRPO)的方法近期被提出,能夠實現(xiàn)與人類偏好的最佳對齊。
當前概率流模型中的GRPO方法,如Flow-GRPO和DanceGRPO,在每個去噪步驟中利用隨機微分方程(Stochastic Differential Equations,SDE)采樣引入圖像生成的隨機性,以解決RLHF中對隨機探索的依賴。
它們將去噪過程建模為隨機環(huán)境下的馬爾可夫決策過程(MDP),并使用GRPO優(yōu)化整個狀態(tài)-動作序列。
然而,由于去噪迭代過程帶來的巨大開銷,這顯著降低了訓練速度。
具體來說,為了計算后驗概率的比值,必須分別使用舊策略模型
和新策略模型
獨立完成全步驟采樣。
雖然DanceGRPO提出了隨機選擇部分去噪步驟進行優(yōu)化的方法,但研究團隊在圖1中的實證分析表明,隨著所選子集規(guī)模的縮小,性能會出現(xiàn)顯著下降。
△圖1.不同優(yōu)化去噪步驟數(shù)量下的性能對比
根據(jù)Flow-GRPO,流匹配中的SDE采樣可以被構建為一個隨機環(huán)境下的馬爾可夫決策過程(MDP)
。
在采樣過程中,智能體生成一條軌跡,定義為
,并獲得獎勵
。
在MixGRPO中,研究團隊提出了一種結合SDE與ODE的混合采樣方法。MixGRPO定義了一個區(qū)間
,它是去噪時間范圍
的子區(qū)間,滿足
。
在去噪過程中,他們在區(qū)間
內采用SDE采樣,區(qū)間外采用ODE采樣,且區(qū)間
會隨著訓練過程從
逐步移動到0(見圖2)。
△圖2.不同采樣策略下采樣圖像的t-SNE可視化
MixGRPO將智能體的隨機探索空間限制在區(qū)間
內,將MDP的序列長度縮短為子集
,并僅對該子集進行強化學習(RL)優(yōu)化:

MDP中的其他設置保持不變。MixGRPO不僅降低了計算開銷,同時也減輕了優(yōu)化難度。接下來,研究團隊推導MixGRPO的具體采樣形式和優(yōu)化目標。
對于確定性的概率流ODE,其形式如下:

其中,
是稱為漂移系數(shù)的向量值函數(shù),
是稱為擴散系數(shù)的標量函數(shù)。
是時刻
的得分函數(shù)。
根據(jù)Fokker-Planck方程(risken1996fokker),song2020score證明了式(2)具有以下等價的概率流SDE,該SDE在每個時間點
保持相同的邊際分布:

在MixGRPO中,研究團隊將ODE和SDE混合用于采樣,具體形式如下:

具體來說,對于Flow Matching(FM),尤其是Rectified Flow(RF),采樣過程可以看作是一個確定性的ODE:

式(5)實際上是式(2)的一個特例,其中速度場
。因此,他們可以推導出RF的ODE-SDE混合采樣形式如下:

在RF框架中,模型用于預測確定性ODE的速度場,表示為
。根據(jù)liu2025flow,score函數(shù)表示為
。噪聲的標準差表示為
。
根據(jù)標準維納過程的定義,他們使用
對SDE采用Euler-Maruyama離散化,對ODE采用Euler離散化,設
為包含從
到
之間所有時間步的集合,他們構建了MixGRPO中的最終去噪過程如下:

MixGRPO中的訓練過程與Flow-GRPO和DanceGRPO類似,但他們僅需對區(qū)間
內采樣的時間步進行優(yōu)化。最終的訓練目標表示為:

其中,
稱為策略比率(policy ratio),
為優(yōu)勢函數(shù)(advantage score)。研究團隊設定
,

其中,
由獎勵模型提供。
需要注意的是,研究團隊省略了KL Loss。
盡管KL Loss在一定程度上可以緩解reward hacking問題,但受flow_grpo_issue7的啟發(fā),他們在測試階段采用混合模型采樣(mixed model sampling),這能夠顯著解決獎勵劫持問題(詳見附錄A)。
與對所有時間步進行優(yōu)化相比,MixGRPO降低了策略
的函數(shù)評估次數(shù)(NFE,Number of Function Evaluations)。
然而,策略
的NFE并未減少,因為需要完整推理以獲得用于獎勵計算的最終圖像。
對于舊策略模型的采樣加速,研究團隊將在后面通過引入高階求解器進行優(yōu)化。
綜上所述,混合ODE-SDE采樣在顯著降低計算開銷的同時,保證了采樣過程不會偏離單獨ODE或SDE采樣在每個時間步的邊際分布,這得益于概率流(probability flow)的等價性。
作為優(yōu)化調度器的滑動窗口
實際上,區(qū)間
在訓練過程中可以是非固定的。沿著離散的去噪時間步序列
,MixGRPO 定義了一個滑動窗口
,并且僅在該窗口內的時間步上進行優(yōu)化。

其中,
是滑動窗口的左邊界,
是表示窗口大小的超參數(shù)?;瑒哟翱诘淖筮吔?img src="https://s2.51cto.com/oss/202508/03/a389b08867b0ddff9c35499e870f1e527f0f32.webp" alt="圖片" title="圖片" style="visibility: visible; width: 56px;" data-type="inline">會隨著訓練的進行而移動。
在實驗中,研究團隊發(fā)現(xiàn)窗口大小
、移動間隔
以及窗口步長
都是關鍵的超參數(shù)。
通過消融研究(詳見實驗4.4.1),他們確定了最優(yōu)的參數(shù)設置。當總采樣步數(shù)
時,最佳性能對應的參數(shù)為
、
和
。詳細的滑動窗口策略及MixGRPO算法可參見算法1。
△算法1.MixGRPO的訓練過程
限制在滑動窗口內使用SDE采樣,不僅保證了生成圖像的多樣性,還使模型能夠集中精力優(yōu)化該窗口內的流動。沿著去噪方向的移動反映了概率流從強到弱的隨機性,如圖2所示。
這本質上是一種貪心策略,類似于強化學習中為處理獎勵而分配折扣因子的做法,即在早期過程給予來自更大搜索空間的獎勵更高的權重。
研究團隊發(fā)現(xiàn),即使滑動窗口保持不動(Frozen),僅優(yōu)化較早的時間步,MixGRPO依然能夠取得良好效果,尤其是在ImageReward和UnifiedReward指標上表現(xiàn)突出。
基于此直覺,他們還提出了如下的指數(shù)衰減策略,使得
隨去噪步數(shù)的增加而減小,從而使模型能夠更專注于在更大搜索空間內進行優(yōu)化。

其中,
是初始移動間隔,
是衰減因子,
是控制衰減開始時機的閾值。指數(shù)函數(shù)
計算的是
,而修正線性單元
定義為
。
開銷與性能之間的權衡
MixGRPO在滑動窗口內采用SDE采樣,窗口外則采用ODE采樣,從而允許使用高階ODE求解器加速GRPO訓練時的采樣過程。
利用ODE采樣的時間步被劃分為滑動窗口之前和之后兩部分。
滑動窗口之后的時間步僅影響獎勵計算,而窗口之前的時間步既影響獎勵,也會對策略比率計算中的累積誤差產生貢獻。
因此,研究團隊重點關注滑動窗口之后時間步的加速。
gao2025diffusionmeetsflow已證明流匹配模型(FM)的ODE采樣與DDIM等價,且上述過程也表明擴散概率模型(DPM)與FM在去噪過程中共享相同的ODE形式。
因此,專為DPM采樣加速設計的高階ODE求解器,如DPM-Solver系列、UniPC,同樣適用于FM。
研究團隊已將DPM-Solver++重新形式化,以便在FM框架中應用于 ODE 采樣加速,詳細推導見附錄B。
通過應用高階求解器,他們實現(xiàn)了GRPO訓練過程中對
采樣的加速,這本質上是在計算開銷與性能之間的權衡。
過度加速會導致時間步數(shù)減少,必然引起圖像生成質量下降,進而在獎勵計算中積累誤差。
實踐中研究團隊發(fā)現(xiàn),二階DPM-Solver++足以顯著加速,同時保證生成圖像與人類偏好高度一致。
最終,他們采用了漸進式和凍結式滑動窗口策略,提出了MixGRPO-Flash和MixGRPO-Flash*。算法的詳細描述見附錄C。這些方法相比MixGRPO實現(xiàn)了更大程度的加速,同時在性能上也優(yōu)于DanceGRPO。
MixGRPO多方面表現(xiàn)最佳
實驗設置
數(shù)據(jù)集
研究團隊使用HPDv2 數(shù)據(jù)集中提供的提示詞進行實驗,該數(shù)據(jù)集是 HPS-v2 基準的官方數(shù)據(jù)集。
訓練集包含103,700條提示詞;實際上,MixGRPO 在僅使用9,600條提示詞訓練一個epoch后,就已取得良好的人類偏好對齊效果。
測試集包含400條提示詞。提示詞風格多樣,涵蓋四種類型:“動畫”(Animation)、“概念藝術”(Concept Art)、“繪畫”(Painting)和“照片”(Photo)。
模型
繼承自DanceGRPO,研究團隊采用基于流匹配的先進文本生成圖像模型 FLUX.1 Dev作為基礎模型。
開銷評估
在評估計算開銷時,研究團隊采用了兩個指標:函數(shù)調用次數(shù)(NFE)和訓練過程中每次迭代的時間消耗。
NFE分為
和
兩部分。
表示用于計算策略比率和生成圖像的參考模型的前向傳播次數(shù);
則是僅用于計算策略比率的策略模型的前向傳播次數(shù)。
此外,GRPO每次迭代的平均訓練時間能夠更準確地反映加速效果。
表現(xiàn)評估
研究團隊使用四個獎勵模型作為訓練中的獎勵指導及性能評估指標,分別是HPS-v2.1、Pick Score、ImageReward和Unified Reward。
這些指標均基于人類偏好,但側重點不同,例如ImageReward強調圖文對齊和圖像保真度,而Unified Reward更關注語義層面。
DanceGRPO也證明了多獎勵模型的使用能帶來更優(yōu)效果。為驗證MixGRPO的魯棒性,研究團隊同樣遵循DanceGRPO,進行了僅使用HPS-v2.1單一獎勵以及結合HPS-v2.1與CLIP Score的多獎勵對比實驗。
在訓練時采樣方面,首先對均勻分布的時間步
進行變換,計算
,然后定義
。
其中,
作為縮放參數(shù),采樣總步數(shù)設為
。
在GRPO訓練中,模型針對每個提示詞生成12張圖像,并將優(yōu)勢函數(shù)裁剪到區(qū)間
內。需要特別說明的是,研究團隊采用了3步梯度累積,這意味著在一次訓練迭代中實際進行了
次梯度更新。
對于滑動窗口的指數(shù)衰減策略(見公式11),他們經驗性地設置參數(shù)為
和
。此外,當多個獎勵模型聯(lián)合訓練時,各獎勵模型的權重均等分配。
在訓練設置上,所有實驗均在32塊Nvidia GPU上進行,批量大小為1,最大訓練迭代次數(shù)為300次。
優(yōu)化器采用AdamW(loshchilov2017decoupled),學習率設為1e-5,權重衰減系數(shù)為0.0001。訓練過程中使用混合精度,采用bfloat16(bf16)格式,而主權重參數(shù)保持全精度(fp32)。
主實驗
在主實驗中,四個基于人類偏好的獎勵模型按照優(yōu)勢函數(shù)(advantages)進行了加權聚合,具體算法見算法1。
研究啊團隊對MixGRPO與DanceGRPO的開銷和性能進行了對比評估,結果匯總于表1。

△表1.計算開銷與性能的對比結果顯示
官方DanceGRPO采用的函數(shù)調用次數(shù)為
,為保證公平性,他們同時測試了
的DanceGRPO。
對于MixGRPO-Flash,他們評估了漸進式(progressive)和凍結式(frozen)兩種策略,并且為了公平起見,也對DanceGRPO采用了凍結式策略。
研究團隊選取了多個場景提示語,對FLUX.1 Dev、官方配置的DanceGRPO以及MixGRPO的生成結果進行了可視化展示,見圖3。

△圖3.定性比較
結果表明,MixGRPO在語義表達、美學效果及文本-圖像對齊度方面均取得了最佳表現(xiàn)。
圖4展示了在
條件下,DanceGRPO、MixGRPO及MixGRPO-Flash的對比結果。
可以觀察到,在相同開銷下,MixGRPO的表現(xiàn)優(yōu)于DanceGRPO;同時MixGRPO-Flash通過加速采樣
,在降低開銷的同時,生成圖像的質量依然與人類偏好保持高度一致。
△圖4.不同訓練時采樣步數(shù)的定性比較
沿用DanceGRPO的實驗設計,研究團隊還在HPDv2數(shù)據(jù)集上,分別使用單一獎勵模型和雙獎勵模型進行了訓練與評估。
結果(見表2)顯示,無論是單獎勵還是多獎勵,MixGRPO 在域內和域外獎勵指標上均取得了最佳性能。更多可視化結果詳見附錄D。
△表2.域內與域外獎勵指標的比較結果
消融實驗
滑動窗口超參數(shù)
如上述所講,滑動窗口的重要參數(shù)包括移動策略、移動間隔
、窗口大小
以及窗口步長
。
研究團隊對這些參數(shù)分別進行了消融實驗。針對移動策略,他們比較了三種方法:frozen(窗口保持靜止)、random(每次迭代隨機選擇窗口位置)以及progressive(滑動窗口隨去噪步驟逐步移動)。
對于progressive策略,他們測試了不同的調度方式,其中間隔
初始設為25,隨后隨訓練迭代發(fā)生變化。
正如表3所示,結果表明在progressive策略下,指數(shù)衰減和恒定調度均為最優(yōu)選擇。

△表3.移動策略的對比
對于移動間隔
,25是最佳設置(詳見表4)。

△表4.移動間隔的對比
隨著窗口大小
的增大,
的推理次數(shù)也隨之增加,導致時間開銷加大。
研究團隊比較了不同的
設置,結果如表5所示。

△表5.窗口大小對比
最終,研究團隊選擇
作為開銷與性能之間的平衡點。對于窗口步長
,實驗結果表明
是最優(yōu)選擇,詳見表6。

△表6.窗口步長對比
高階ODE求解器
MixGRPO通過結合隨機微分方程(SDE)和常微分方程(ODE)的采樣方法,實現(xiàn)了利用高階ODE求解器加速ODE采樣的可能性。
研究團隊首先針對求解器的階數(shù)進行了消融實驗,使用DPM-Solver++作為高階求解器,并采用progressive策略。結果如表7所示,表明二階中點法是最優(yōu)設置。
△表7.不同階數(shù)求解器的性能比較
隨后,研究團隊比較了兩種加速方案:一種是采用progressive窗口移動策略的MixGRPO-Flash,另一種是采用frozen移動策略的MixGRPO-Flash*。
兩者均通過減少窗口后端的ODE采樣步數(shù),在開銷與性能之間取得了平衡。
然而,實際應用中,MixGRPO-Flash需要窗口在整個訓練過程中持續(xù)移動,導致被加速的ODE部分較短。
因此,平均來看,MixGRPO-Flash的加速效果不及MixGRPO-Flash*明顯。

△表8.MixGRPO-Flash中progressive和frozen策略的比較
總結與展望
由于現(xiàn)有基于流匹配的GRPO面臨采樣效率低和訓練緩慢等挑戰(zhàn),研究團隊提出了MixGRPO,一種結合了SDE和ODE采樣的新型訓練框架。
該混合方法使得優(yōu)化能夠聚焦于SDE采樣流部分,降低了復雜度的同時保證了獎勵計算的準確性。
受強化學習中衰減因子的啟發(fā),研究團隊引入了滑動窗口策略來調度優(yōu)化的去噪步驟。實驗結果驗證了所提方法在單獎勵和多獎勵設置下的有效性。
此外,MixGRPO解耦了去噪階段的優(yōu)化與獎勵計算,使得后者能夠通過高階求解器實現(xiàn)加速。
基于MixGRPO,研究團隊進一步提出了MixGRPO-Flash,在開銷與性能之間實現(xiàn)了平衡。
最后,他們希望MixGRPO能夠激發(fā)圖像生成后訓練領域的深入研究,進一步推動通用人工智能的發(fā)展。
項目主頁:https://tulvgengenr.github.io/MixGRPO-Project-Page/
論文鏈接:https://arxiv.org/abs/2507.21802
代碼鏈接:https://github.com/Tencent-Hunyuan/MixGRPO















 
 
 












 
 
 
 