偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<samp id="cl3zw"><mark id="cl3zw"></mark></samp>

<pre id="cl3zw"></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

訓練時間減半，性能不降反升！騰訊混元開源圖像生成高效強化方案MixGRPO

2025-08-04 08:43:00

人工智能新聞

MixGRPO在人類偏好對齊的多個維度上均表現(xiàn)出顯著提升，效果和效率均優(yōu)于DanceGRPO，訓練時間降低近50%。值得注意的是，MixGRPO-Flash可將訓練時間進一步降低71%。

圖像生成不光要好看，更要高效。

混元基礎模型團隊提出全新框架MixGRPO，該框架通過結合隨機微分方程（SDE）和常微分方程（ODE），利用混合采樣策略的靈活性，簡化了MDP中的優(yōu)化流程，從而提升了效率的同時還增強了性能。

基于MixGRPO，研究人員提出了一個更快的變體MixGRPO-Flash，在保持相近性能的同時進一步提升了訓練效率。

MixGRPO在人類偏好對齊的多個維度上均表現(xiàn)出顯著提升，效果和效率均優(yōu)于DanceGRPO，訓練時間降低近50%。值得注意的是，MixGRPO-Flash可將訓練時間進一步降低71%。

開源代碼請參考文末鏈接。

MixGRPO模型解析

GRPO中的ODE-SDE混合采樣

近年來，文本到圖像（Text-to-Image，T2I）任務的最新進展表明，通過在后訓練階段引入基于人類反饋的強化學習（Reinforcement Learning from Human Feedback，RLHF）策略以最大化獎勵，流匹配模型的性能得到了顯著提升。

具體而言，基于組相對策略優(yōu)化（Group Relative Policy Optimization，GRPO）的方法近期被提出，能夠實現(xiàn)與人類偏好的最佳對齊。

當前概率流模型中的GRPO方法，如Flow-GRPO和DanceGRPO，在每個去噪步驟中利用隨機微分方程（Stochastic Differential Equations，SDE）采樣引入圖像生成的隨機性，以解決RLHF中對隨機探索的依賴。

它們將去噪過程建模為隨機環(huán)境下的馬爾可夫決策過程（MDP），并使用GRPO優(yōu)化整個狀態(tài)-動作序列。

然而，由于去噪迭代過程帶來的巨大開銷，這顯著降低了訓練速度。

具體來說，為了計算后驗概率的比值，必須分別使用舊策略模型和新策略模型獨立完成全步驟采樣。

雖然DanceGRPO提出了隨機選擇部分去噪步驟進行優(yōu)化的方法，但研究團隊在圖1中的實證分析表明，隨著所選子集規(guī)模的縮小，性能會出現(xiàn)顯著下降。

△圖1.不同優(yōu)化去噪步驟數(shù)量下的性能對比

根據(jù)Flow-GRPO，流匹配中的SDE采樣可以被構建為一個隨機環(huán)境下的馬爾可夫決策過程（MDP）。

在采樣過程中，智能體生成一條軌跡，定義為，并獲得獎勵。

在MixGRPO中，研究團隊提出了一種結合SDE與ODE的混合采樣方法。MixGRPO定義了一個區(qū)間，它是去噪時間范圍的子區(qū)間，滿足。

在去噪過程中，他們在區(qū)間內采用SDE采樣，區(qū)間外采用ODE采樣，且區(qū)間會隨著訓練過程從逐步移動到0（見圖2）。

△圖2.不同采樣策略下采樣圖像的t-SNE可視化

MixGRPO將智能體的隨機探索空間限制在區(qū)間內，將MDP的序列長度縮短為子集，并僅對該子集進行強化學習（RL）優(yōu)化：

MDP中的其他設置保持不變。MixGRPO不僅降低了計算開銷，同時也減輕了優(yōu)化難度。接下來，研究團隊推導MixGRPO的具體采樣形式和優(yōu)化目標。

對于確定性的概率流ODE，其形式如下：

其中，是稱為漂移系數(shù)的向量值函數(shù)，是稱為擴散系數(shù)的標量函數(shù)。是時刻的得分函數(shù)。

根據(jù)Fokker-Planck方程(risken1996fokker)，song2020score證明了式（2）具有以下等價的概率流SDE，該SDE在每個時間點保持相同的邊際分布：

在MixGRPO中，研究團隊將ODE和SDE混合用于采樣，具體形式如下：

具體來說，對于Flow Matching（FM），尤其是Rectified Flow（RF），采樣過程可以看作是一個確定性的ODE：

式（5）實際上是式（2）的一個特例，其中速度場。因此，他們可以推導出RF的ODE-SDE混合采樣形式如下：

在RF框架中，模型用于預測確定性ODE的速度場，表示為。根據(jù)liu2025flow，score函數(shù)表示為。噪聲的標準差表示為。

根據(jù)標準維納過程的定義，他們使用對SDE采用Euler-Maruyama離散化，對ODE采用Euler離散化，設為包含從到之間所有時間步的集合，他們構建了MixGRPO中的最終去噪過程如下：

MixGRPO中的訓練過程與Flow-GRPO和DanceGRPO類似，但他們僅需對區(qū)間內采樣的時間步進行優(yōu)化。最終的訓練目標表示為：

其中，稱為策略比率（policy ratio），為優(yōu)勢函數(shù)（advantage score）。研究團隊設定，

其中，由獎勵模型提供。

需要注意的是，研究團隊省略了KL Loss。

盡管KL Loss在一定程度上可以緩解reward hacking問題，但受flow_grpo_issue7的啟發(fā)，他們在測試階段采用混合模型采樣（mixed model sampling），這能夠顯著解決獎勵劫持問題（詳見附錄A）。

與對所有時間步進行優(yōu)化相比，MixGRPO降低了策略的函數(shù)評估次數(shù)（NFE，Number of Function Evaluations）。

然而，策略的NFE并未減少，因為需要完整推理以獲得用于獎勵計算的最終圖像。

對于舊策略模型的采樣加速，研究團隊將在后面通過引入高階求解器進行優(yōu)化。

綜上所述，混合ODE-SDE采樣在顯著降低計算開銷的同時，保證了采樣過程不會偏離單獨ODE或SDE采樣在每個時間步的邊際分布，這得益于概率流（probability flow）的等價性。

作為優(yōu)化調度器的滑動窗口

實際上，區(qū)間在訓練過程中可以是非固定的。沿著離散的去噪時間步序列，MixGRPO 定義了一個滑動窗口，并且僅在該窗口內的時間步上進行優(yōu)化。

其中，是滑動窗口的左邊界，是表示窗口大小的超參數(shù)?；瑒哟翱诘淖筮吔?img src="https://s2.51cto.com/oss/202508/03/a389b08867b0ddff9c35499e870f1e527f0f32.webp" alt="圖片" title="圖片" style="visibility: visible; width: 56px;" data-type="inline">會隨著訓練的進行而移動。

在實驗中，研究團隊發(fā)現(xiàn)窗口大小、移動間隔以及窗口步長都是關鍵的超參數(shù)。

通過消融研究（詳見實驗4.4.1），他們確定了最優(yōu)的參數(shù)設置。當總采樣步數(shù)時，最佳性能對應的參數(shù)為、和。詳細的滑動窗口策略及MixGRPO算法可參見算法1。

△算法1.MixGRPO的訓練過程

限制在滑動窗口內使用SDE采樣，不僅保證了生成圖像的多樣性，還使模型能夠集中精力優(yōu)化該窗口內的流動。沿著去噪方向的移動反映了概率流從強到弱的隨機性，如圖2所示。

這本質上是一種貪心策略，類似于強化學習中為處理獎勵而分配折扣因子的做法，即在早期過程給予來自更大搜索空間的獎勵更高的權重。

研究團隊發(fā)現(xiàn)，即使滑動窗口保持不動（Frozen），僅優(yōu)化較早的時間步，MixGRPO依然能夠取得良好效果，尤其是在ImageReward和UnifiedReward指標上表現(xiàn)突出。

基于此直覺，他們還提出了如下的指數(shù)衰減策略，使得隨去噪步數(shù)的增加而減小，從而使模型能夠更專注于在更大搜索空間內進行優(yōu)化。

其中，是初始移動間隔，是衰減因子，是控制衰減開始時機的閾值。指數(shù)函數(shù)計算的是，而修正線性單元定義為。

開銷與性能之間的權衡

MixGRPO在滑動窗口內采用SDE采樣，窗口外則采用ODE采樣，從而允許使用高階ODE求解器加速GRPO訓練時的采樣過程。

利用ODE采樣的時間步被劃分為滑動窗口之前和之后兩部分。

滑動窗口之后的時間步僅影響獎勵計算，而窗口之前的時間步既影響獎勵，也會對策略比率計算中的累積誤差產生貢獻。

因此，研究團隊重點關注滑動窗口之后時間步的加速。

gao2025diffusionmeetsflow已證明流匹配模型（FM）的ODE采樣與DDIM等價，且上述過程也表明擴散概率模型（DPM）與FM在去噪過程中共享相同的ODE形式。

因此，專為DPM采樣加速設計的高階ODE求解器，如DPM-Solver系列、UniPC，同樣適用于FM。

研究團隊已將DPM-Solver++重新形式化，以便在FM框架中應用于 ODE 采樣加速，詳細推導見附錄B。

通過應用高階求解器，他們實現(xiàn)了GRPO訓練過程中對采樣的加速，這本質上是在計算開銷與性能之間的權衡。

過度加速會導致時間步數(shù)減少，必然引起圖像生成質量下降，進而在獎勵計算中積累誤差。

實踐中研究團隊發(fā)現(xiàn)，二階DPM-Solver++足以顯著加速，同時保證生成圖像與人類偏好高度一致。

最終，他們采用了漸進式和凍結式滑動窗口策略，提出了MixGRPO-Flash和MixGRPO-Flash*。算法的詳細描述見附錄C。這些方法相比MixGRPO實現(xiàn)了更大程度的加速，同時在性能上也優(yōu)于DanceGRPO。

MixGRPO多方面表現(xiàn)最佳

實驗設置

數(shù)據(jù)集

研究團隊使用HPDv2 數(shù)據(jù)集中提供的提示詞進行實驗，該數(shù)據(jù)集是 HPS-v2 基準的官方數(shù)據(jù)集。

訓練集包含103,700條提示詞；實際上，MixGRPO 在僅使用9,600條提示詞訓練一個epoch后，就已取得良好的人類偏好對齊效果。

測試集包含400條提示詞。提示詞風格多樣，涵蓋四種類型：“動畫”（Animation）、“概念藝術”（Concept Art）、“繪畫”（Painting）和“照片”（Photo）。

模型

繼承自DanceGRPO，研究團隊采用基于流匹配的先進文本生成圖像模型 FLUX.1 Dev作為基礎模型。

開銷評估

在評估計算開銷時，研究團隊采用了兩個指標：函數(shù)調用次數(shù)（NFE）和訓練過程中每次迭代的時間消耗。

NFE分為和兩部分。表示用于計算策略比率和生成圖像的參考模型的前向傳播次數(shù)；則是僅用于計算策略比率的策略模型的前向傳播次數(shù)。

此外，GRPO每次迭代的平均訓練時間能夠更準確地反映加速效果。

表現(xiàn)評估

研究團隊使用四個獎勵模型作為訓練中的獎勵指導及性能評估指標，分別是HPS-v2.1、Pick Score、ImageReward和Unified Reward。

這些指標均基于人類偏好，但側重點不同，例如ImageReward強調圖文對齊和圖像保真度，而Unified Reward更關注語義層面。

DanceGRPO也證明了多獎勵模型的使用能帶來更優(yōu)效果。為驗證MixGRPO的魯棒性，研究團隊同樣遵循DanceGRPO，進行了僅使用HPS-v2.1單一獎勵以及結合HPS-v2.1與CLIP Score的多獎勵對比實驗。

在訓練時采樣方面，首先對均勻分布的時間步進行變換，計算，然后定義。

其中，作為縮放參數(shù)，采樣總步數(shù)設為。

在GRPO訓練中，模型針對每個提示詞生成12張圖像，并將優(yōu)勢函數(shù)裁剪到區(qū)間內。需要特別說明的是，研究團隊采用了3步梯度累積，這意味著在一次訓練迭代中實際進行了次梯度更新。

對于滑動窗口的指數(shù)衰減策略（見公式11），他們經驗性地設置參數(shù)為和。此外，當多個獎勵模型聯(lián)合訓練時，各獎勵模型的權重均等分配。

在訓練設置上，所有實驗均在32塊Nvidia GPU上進行，批量大小為1，最大訓練迭代次數(shù)為300次。

優(yōu)化器采用AdamW(loshchilov2017decoupled)，學習率設為1e-5，權重衰減系數(shù)為0.0001。訓練過程中使用混合精度，采用bfloat16（bf16）格式，而主權重參數(shù)保持全精度（fp32）。

主實驗

在主實驗中，四個基于人類偏好的獎勵模型按照優(yōu)勢函數(shù)（advantages）進行了加權聚合，具體算法見算法1。

研究啊團隊對MixGRPO與DanceGRPO的開銷和性能進行了對比評估，結果匯總于表1。

△表1.計算開銷與性能的對比結果顯示

官方DanceGRPO采用的函數(shù)調用次數(shù)為，為保證公平性，他們同時測試了的DanceGRPO。

對于MixGRPO-Flash，他們評估了漸進式（progressive）和凍結式（frozen）兩種策略，并且為了公平起見，也對DanceGRPO采用了凍結式策略。

研究團隊選取了多個場景提示語，對FLUX.1 Dev、官方配置的DanceGRPO以及MixGRPO的生成結果進行了可視化展示，見圖3。

△圖3.定性比較

結果表明，MixGRPO在語義表達、美學效果及文本-圖像對齊度方面均取得了最佳表現(xiàn)。

圖4展示了在條件下，DanceGRPO、MixGRPO及MixGRPO-Flash的對比結果。

可以觀察到，在相同開銷下，MixGRPO的表現(xiàn)優(yōu)于DanceGRPO；同時MixGRPO-Flash通過加速采樣，在降低開銷的同時，生成圖像的質量依然與人類偏好保持高度一致。

△圖4.不同訓練時采樣步數(shù)的定性比較

沿用DanceGRPO的實驗設計，研究團隊還在HPDv2數(shù)據(jù)集上，分別使用單一獎勵模型和雙獎勵模型進行了訓練與評估。

結果（見表2）顯示，無論是單獎勵還是多獎勵，MixGRPO 在域內和域外獎勵指標上均取得了最佳性能。更多可視化結果詳見附錄D。

△表2.域內與域外獎勵指標的比較結果

消融實驗

滑動窗口超參數(shù)

如上述所講，滑動窗口的重要參數(shù)包括移動策略、移動間隔、窗口大小以及窗口步長。

研究團隊對這些參數(shù)分別進行了消融實驗。針對移動策略，他們比較了三種方法：frozen（窗口保持靜止）、random（每次迭代隨機選擇窗口位置）以及progressive（滑動窗口隨去噪步驟逐步移動）。

對于progressive策略，他們測試了不同的調度方式，其中間隔初始設為25，隨后隨訓練迭代發(fā)生變化。

正如表3所示，結果表明在progressive策略下，指數(shù)衰減和恒定調度均為最優(yōu)選擇。

△表3.移動策略的對比

對于移動間隔，25是最佳設置（詳見表4）。

△表4.移動間隔的對比

隨著窗口大小的增大，的推理次數(shù)也隨之增加，導致時間開銷加大。

研究團隊比較了不同的設置，結果如表5所示。

△表5.窗口大小對比

最終，研究團隊選擇作為開銷與性能之間的平衡點。對于窗口步長，實驗結果表明是最優(yōu)選擇，詳見表6。

△表6.窗口步長對比

高階ODE求解器

MixGRPO通過結合隨機微分方程（SDE）和常微分方程（ODE）的采樣方法，實現(xiàn)了利用高階ODE求解器加速ODE采樣的可能性。

研究團隊首先針對求解器的階數(shù)進行了消融實驗，使用DPM-Solver++作為高階求解器，并采用progressive策略。結果如表7所示，表明二階中點法是最優(yōu)設置。

△表7.不同階數(shù)求解器的性能比較

隨后，研究團隊比較了兩種加速方案：一種是采用progressive窗口移動策略的MixGRPO-Flash，另一種是采用frozen移動策略的MixGRPO-Flash*。

兩者均通過減少窗口后端的ODE采樣步數(shù)，在開銷與性能之間取得了平衡。

然而，實際應用中，MixGRPO-Flash需要窗口在整個訓練過程中持續(xù)移動，導致被加速的ODE部分較短。

因此，平均來看，MixGRPO-Flash的加速效果不及MixGRPO-Flash*明顯。

△表8.MixGRPO-Flash中progressive和frozen策略的比較

總結與展望

由于現(xiàn)有基于流匹配的GRPO面臨采樣效率低和訓練緩慢等挑戰(zhàn)，研究團隊提出了MixGRPO，一種結合了SDE和ODE采樣的新型訓練框架。

該混合方法使得優(yōu)化能夠聚焦于SDE采樣流部分，降低了復雜度的同時保證了獎勵計算的準確性。

受強化學習中衰減因子的啟發(fā)，研究團隊引入了滑動窗口策略來調度優(yōu)化的去噪步驟。實驗結果驗證了所提方法在單獎勵和多獎勵設置下的有效性。

此外，MixGRPO解耦了去噪階段的優(yōu)化與獎勵計算，使得后者能夠通過高階求解器實現(xiàn)加速。

基于MixGRPO，研究團隊進一步提出了MixGRPO-Flash，在開銷與性能之間實現(xiàn)了平衡。

最后，他們希望MixGRPO能夠激發(fā)圖像生成后訓練領域的深入研究，進一步推動通用人工智能的發(fā)展。

項目主頁：https://tulvgengenr.github.io/MixGRPO-Project-Page/

論文鏈接：https://arxiv.org/abs/2507.21802

代碼鏈接：https://github.com/Tencent-Hunyuan/MixGRPO

責任編輯：張燕妮來源：量子位

模型訓練數(shù)據(jù)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<kbd id="nn71c"></kbd>

<mark id="nn71c"></mark><ruby id="nn71c"></ruby>