d1:通過GRPO在擴散LLM中縮放推理
加州大學洛杉磯分校與Meta AI的研究團隊聯(lián)合發(fā)布了革命性的強化學習框架d1【文獻1】。
該框架顯著提升了基于擴散原理的LLM(dLLM)的推理性能——在某些場景下將響應時間從超過30秒縮短至僅需3秒。
當AI界普遍聚焦于GPT這類逐詞生成結果的自回歸模型時,dLLM另辟蹊徑,其設計靈感源自DALL·E 2和Stable Diffusion等圖像生成模型。
這類模型并非順序構建答案,而是通過多輪迭代優(yōu)化被遮蔽的文本版本,在每一階段都能實現(xiàn)更快速的并行化處理及完整上下文感知。
顛覆傳統(tǒng)的AI架構
與GPT-4o或LLaMA等根據(jù)上文預測下一個詞的傳統(tǒng)LLM不同,擴散LLM從含噪聲的遮蔽輸入中逆向推導出連貫文本。
這就像從模糊的句子出發(fā),通過逐步修正使其變得清晰。雖然該方法在速度和并行處理上潛力巨大,但其推理能力始終是短板。
d1框架的誕生正是為了攻克這一瓶頸。
據(jù)論文合著者、UCLA計算機科學助理教授Aditya Grover介紹,當前能執(zhí)行復雜推理的頂尖自回歸LLM普遍存在嚴重延遲問題,單個響應耗時常超30秒。而Mercury等前沿dLLM的響應速度可達前者的10倍。
d1秘訣:微調(diào)+智能訓練
d1的核心在于兩階段訓練法:
1.監(jiān)督微調(diào)(SFT):使用s1k數(shù)據(jù)集,通過分步解題的高質(zhì)量示例訓練模型。
這些案例包含詳細推理、修正與回溯過程,幫助模型建立基礎推理能力。
2.基于diffu-GRPO的強化學習:研究團隊將自回歸模型采用的組相對策略優(yōu)化(GRPO)技術適配于dLLM的非連續(xù)特性。
diffu-GRPO方法能以極低計算成本有效評估輸出可能性,其核心是隨機提示遮蔽技術——通過每次訓練時微調(diào)輸入內(nèi)容來提升模型泛化能力。
diffu-GRPO 的 loss function
diffu-GRPO中的對數(shù)概率估計方法
首先通過完整擴散去噪過程從提示q生成完整輸出o(左圖),隨后針對每種遮蔽模式執(zhí)行單次前向傳播計算詞元級對數(shù)概率(中圖),并以單步解遮蔽的對數(shù)概率作為最終估計值。
在進行策略梯度更新時,我們對提示施加隨機遮蔽模式生成q′,同時保持輸出文本完全遮蔽狀態(tài)(右圖)。圖中詞元對數(shù)概率的顏色漸變表明:每種獨特的遮蔽模式都會產(chǎn)生不同的詞元級對數(shù)概率估計。
這種機制形成了策略優(yōu)化的正則化手段——既能實現(xiàn)單批次內(nèi)更多梯度更新,又可減少強化學習訓練所需的在線生成次數(shù)。
實證效果
研究團隊在開源模型LLaDA-8B-Instruct上應用d1框架,并在數(shù)學基準測試(GSM8K、MATH500)及4×4數(shù)獨、倒計時數(shù)字游戲等邏輯任務中進行驗證。
結果顯示:完整訓練的d1-LLaDA全面超越僅用SFT或diffu-GRPO的版本,新RL技術單獨使用也成效顯著。
在四項數(shù)學與邏輯推理任務中,經(jīng)過監(jiān)督微調(diào)(SFT)和diffu-GRPO強化學習訓練的d1-LLaDA模型,其表現(xiàn)始終優(yōu)于基礎LLaDA-8B-Instruct模型。采用了各任務和模型對應的最佳生成序列長度進行結果統(tǒng)計。
?與同類規(guī)模頂尖dLLM及自回歸LLM的對比, d1-LLaDA在GSM8K測試中奪得最高分, MATH500 測評位列第二。
LLaDA數(shù)據(jù)來自我們采用相同的零樣本(0-shot)評估協(xié)議所得結果,其他模型分數(shù)引自Ye等人(2025a)的Dream研究(GSM8K使用8樣本提示,MATH采用4樣本提示)。
需特別說明,d1-LLaDA針對每個基準測試都進行了任務專屬的強化學習訓練。?
除分數(shù)提升外,模型更展現(xiàn)出深度理解跡象。在長文本輸出中,它會像人類解題者那樣突然頓悟,主動修正錯誤并回溯推理路徑。
企業(yè)級應用前景
Grover認為這是企業(yè)AI應用的轉折點:"d1這類增強推理的dLLM能驅(qū)動多種智能體",從即時響應編程助手到戰(zhàn)略咨詢實時研究代理皆可勝任。
該技術兼具性能與靈活性:對受成本或延遲限制的企業(yè),d1賦能后的dLLM即插即用,在保持傳統(tǒng)非推理模型速度的同時輸出更優(yōu)質(zhì)結果;對算力充裕者,d1能生成更詳盡的推理軌跡以追求極致質(zhì)量。
用Grover的話說:"d1類dLLM實現(xiàn)了對自回歸LLM的帕累托超越——同時提供更優(yōu)質(zhì)量、更快速度和更低成本。"
隨著企業(yè)對響應敏捷、智能高效的AI需求增長,d1這類創(chuàng)新有潛力顛覆自回歸模型的主導地位,或?qū)㈤_啟基于擴散原理的新一代智能推理引擎時代。
文獻1,https://arxiv.org/pdf/2504.12216,d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
本文轉載自???????清熙???,作者:王慶法
