偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

蘋果出手！改進(jìn)GRPO，讓dLLM也能高效強(qiáng)化學(xué)習(xí)

2025-06-27 15:44:35

人工智能新聞

蘋果的一個研究團(tuán)隊表示：「代碼生成與 dLLM 范式非常契合，因為編寫代碼通常涉及非順序的反復(fù)來回優(yōu)化?！故聦嵣?，此前的 Mercury Coder 和 Gemini Diffusion 已經(jīng)表明：基于擴(kuò)散的代碼生成器可以與頂尖自回歸代碼模型相媲美。

最近，擴(kuò)散語言模型（dLLM）有點火。現(xiàn)在，蘋果也加入這片新興的戰(zhàn)場了。

不同于基于 Transformer 的自回歸式語言模型，dLLM 基于掩碼式擴(kuò)散模型（masked diffusion model / MDM），此前我們已經(jīng)報道過 LLaDA 和 Dream 等一些代表案例，最近首款實現(xiàn)商業(yè)化的 dLLM 聊天機(jī)器人 Mercury 也已經(jīng)正式上線（此前已有 Mercury Coder）。

感興趣的讀者可在這里嘗試 https://poe.com/Inception-Mercury

相較于自回歸語言模型，dLLM 的一大主要特點是：快。而且 dLLM 不是從左到右地生成，而是并行迭代地優(yōu)化整個序列，從而實現(xiàn)內(nèi)容的全局規(guī)劃。

Mercury 聊天應(yīng)用 demo，https://x.com/InceptionAILabs/status/1938370499459092873

蘋果的一個研究團(tuán)隊表示：「代碼生成與 dLLM 范式非常契合，因為編寫代碼通常涉及非順序的反復(fù)來回優(yōu)化?！故聦嵣?，此前的 Mercury Coder 和 Gemini Diffusion 已經(jīng)表明：基于擴(kuò)散的代碼生成器可以與頂尖自回歸代碼模型相媲美。

然而，由于開源 dLLM 的訓(xùn)練和推理機(jī)制尚未被完全闡明，因此其在編碼任務(wù)中的表現(xiàn)尚不明確?，F(xiàn)有的針對 dLLM 的后訓(xùn)練研究，例如采用 DPO 訓(xùn)練的 LLaDA1.5 以及采用 GRPO 訓(xùn)練的 d1 和 MMaDA，要么收效甚微，要么嚴(yán)重依賴半自回歸解碼（使用相對較小的塊大小進(jìn)行塊解碼）。

言及此，今天我們介紹的這項來自蘋果的研究就希望填補這一空白。他們首先研究了 dLLM 的解碼行為，然后建立了一種用于擴(kuò)散 LLM 的原生強(qiáng)化學(xué)習(xí) (RL) 方法。

論文標(biāo)題：DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
論文地址：https://arxiv.org/pdf/2506.20639
項目地址：https://github.com/apple/ml-diffucoder

該研究基于對 DiffuCoder 的分析。這是一個 7B 級的針對代碼生成的 MDM，蘋果使用了 1300 億個有效 token（arXiv:2411.04905）來訓(xùn)練它。該模型的性能可比肩同規(guī)模的自回歸編碼器，為理解 dLLM 的行為以及開發(fā)擴(kuò)散原生的后訓(xùn)練方法提供了強(qiáng)大的測試平臺。

基于得到的分析結(jié)果，蘋果還針對性地對 GRPO 進(jìn)行了定制優(yōu)化，提出了一種采用全新耦合采樣方案的新算法：coupled-GRPO。

效果相當(dāng)不錯

DiffuCoder

首先，蘋果是怎么訓(xùn)練出 DiffuCoder 的呢？

基本方法很常規(guī)：用大規(guī)模語料庫。下圖展示了其多個訓(xùn)練階段。

他們首先進(jìn)行了類似于 Dream 的適應(yīng)性預(yù)訓(xùn)練（adaptation pre-training）。中訓(xùn)練（mid-training）介于預(yù)訓(xùn)練和后訓(xùn)練之間，類似于 OpenCoder 中的退火階段 —— 事實證明這是有效的。接下來是指令微調(diào)階段，作用是增強(qiáng)模型遵循指令的能力。最后，在后訓(xùn)練階段，他們采用了一種全新的 coupled-GRPO 方法（將在后文介紹）來進(jìn)一步增強(qiáng)模型的 pass@1 編程能力。

更詳細(xì)的訓(xùn)練配置請訪問原論文。

他們在 HumanEval、MBPP、EvalPlus 和 BigCodeBench 基準(zhǔn)上對 DiffuCoder 進(jìn)行了評估并與其它一些模型進(jìn)行了比較，結(jié)果見下表。

可以看到，DiffuCoder 在使用 130B 代碼 token（第 1 階段和第 2 階段）進(jìn)行持續(xù)訓(xùn)練后，達(dá)到了與 Qwen2.5-Coder 和 OpenCoder 相當(dāng)?shù)男阅?。然而，所?dLLM 在指令調(diào)整后都僅比其基礎(chǔ)模型略有改進(jìn)，尤其是與 Qwen2.5-Coder+SFT 相比時，而后者在相同數(shù)據(jù)上進(jìn)行指令微調(diào)后進(jìn)步非常明顯。

基于 DiffuCoder 理解掩碼式擴(kuò)散模型

LLaDA 和 Dream 等當(dāng)前 dLLM 依賴于低置信度的重掩碼解碼策略，而 LLaDA 使用半自回歸解碼方法（即塊擴(kuò)散解碼）可在某些任務(wù)上實現(xiàn)性能提升。dLLM 的另一種常見做法是將擴(kuò)散時間步長設(shè)置為等于序列長度，從而有效地利用逐個 token 的生成來提升性能。鑒于此，他們引入了局部和全局自回歸性 (AR-ness) 指標(biāo)，以系統(tǒng)地研究 dLLM 的解碼順序。

具體而言，他們的分析旨在揭示：

dLLM 的解碼模式與自回歸模型的解碼模式有何不同；
數(shù)據(jù)模態(tài)（例如代碼或數(shù)學(xué)）如何影響模型行為；
AR-ness 如何在不同的訓(xùn)練階段演變。

生成中的自回歸性

在標(biāo)準(zhǔn)的自回歸解碼中，模型嚴(yán)格按照從左到右的順序生成 token，以確保強(qiáng)大的序列一致性。然而，基于擴(kuò)散的解碼可能會選擇無序地恢復(fù) [MASK]。因此，他們引入了兩個指標(biāo)來量化擴(kuò)散模型的非掩碼式調(diào)度與自回歸模式的相似程度，其中包括下一個 token 模式和左優(yōu)先模式。

1、局部：連續(xù)下一個 token 預(yù)測

局部 AR-ness@k 是通過預(yù)測序列與范圍 k 內(nèi)下一個 token 預(yù)測模式匹配的比例來計算的。如果 k 長度范圍內(nèi)的所有 token 都是前一個生成 token 的直接后繼，則就隨意考慮此范圍。局部 AR-ness 會隨著 k 的增加而衰減，因為維持更長的連續(xù)范圍會變得越來越困難。

2、全局：最早掩碼選擇

在步驟 t 中，如果預(yù)測 token 位于前 k 個被掩碼的位置，則對全局 AR-ness 進(jìn)行評分。全局 AR-ness @k 是每個 t 的平均比例，它衡量的是始終揭示最早剩余 token 的趨勢，從而捕捉從左到右的填充策略。該比例隨 k 的增長而增長，因為隨著被允許的早期位置越多，該標(biāo)準(zhǔn)就越容易滿足。對于這兩個指標(biāo)，值越高表示生成的自回歸性越強(qiáng)。

解碼分析

他們在條件生成過程中對以下對象進(jìn)行自回歸性比較：

不同的 dLLM，包括從零開始訓(xùn)練的 LLaDA 以及改編自自回歸 LLM 的 Dream 或 DiffuCoder；
不同的數(shù)據(jù)模態(tài)，包括數(shù)學(xué)和代碼；
DiffuCoder 的不同訓(xùn)練階段。

1、dLLM 的解碼與自回歸模型有何不同？

對于自回歸解碼，局部和全局 AR-ness 均等于 1（即 100% 自回歸）。相反，如圖 3 所示，dLLM 并不總是以純自回歸方式解碼。

在 dLLM 解碼中，很大一部分 token 既不是從最左邊的掩碼 token 中恢復(fù)出來的，也不是從下一個 token 中恢復(fù)出來的。這一觀察結(jié)果表明，與常規(guī)自回歸模型相比，dLLM 采用了更靈活的解碼順序。然而，局部和全局自回歸值都更接近于 1 而不是 0，這表明文本數(shù)據(jù)本身就具有某種自回歸結(jié)構(gòu)，而基于擴(kuò)散的語言模型無論是從零開始訓(xùn)練還是從自回歸模型適應(yīng)而來，都能自然地捕捉到這些結(jié)構(gòu)。

實驗結(jié)果表明，適應(yīng)得到的 dLLM 往往比從零開始訓(xùn)練的 dLLM 表現(xiàn)出更強(qiáng)的自回歸值。這是因為它們會從原始自回歸訓(xùn)練中繼承從左到右的 token 依賴關(guān)系。較低的自回歸值會打破這種依賴關(guān)系，從而為并行生成提供更多機(jī)會。較高的自回歸值也可能帶來好處；例如，LLaDA 通常需要采用半 AR（塊解碼）生成來實現(xiàn)更高的整體性能。在這種情況下，塊解碼器會明確地將因果偏差重新引入生成過程。在 DiffuCoder 中，蘋果該團(tuán)隊認(rèn)為模型可以自行決定生成過程中的因果關(guān)系。

2、不同的數(shù)據(jù)模態(tài)會如何影響解碼范式？

根據(jù)圖 3，盡管數(shù)學(xué)和代碼解碼表現(xiàn)出了不同程度的局部自回歸值，但他們得到了一個相當(dāng)一致的發(fā)現(xiàn)：代碼生成的全局自回歸值均值較低，方差較高。

這表明，在生成代碼時，模型傾向于先生成較晚的 token，而一些較早被掩蔽的 token 直到很晚才被恢復(fù)。原因可能是數(shù)學(xué)文本本質(zhì)上是順序的，通常需要從左到右的計算，而代碼具有內(nèi)在的結(jié)構(gòu)。因此，模型通常會更全局地規(guī)劃 token 生成，就像程序員在代碼中來回跳轉(zhuǎn)以改進(jìn)代碼實現(xiàn)一樣。

3、自回歸值 AR-ness 在不同的訓(xùn)練階段如何變化？

從圖 4（第 1 階段）可以看的，在使用 650 億個 token 進(jìn)行訓(xùn)練后，他們已經(jīng)觀察到相對較低的自回歸值。然而，當(dāng)他們將訓(xùn)練擴(kuò)展到 7000 億個 token 時，AR-ness 會提升，但整體性能會下降。

于是蘋果猜想，預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量限制了性能。因此，他們選擇階段 1 的 6500 億個 token 作為階段 2 的起點。在中訓(xùn)練（階段 2）和指令調(diào)整（階段 3）期間，在第一個高質(zhì)量數(shù)據(jù)周期（epoch）中，該模型學(xué)習(xí)到了較高的因果偏差。然而，隨著 token 數(shù)量的增加，任務(wù)性能會提升，而測量到的 AR-ness 會開始下降。這種模式表明，在第一個周期之后，dLLM 就會開始捕獲超越純自回歸順序的依賴關(guān)系。在 GRPO 訓(xùn)練之后，模型的全局 AR-ness 也會下降，同時，在解碼步驟減少一半的情況下，性能下降幅度會減小。

4、熵沉（Entropy Sink）

當(dāng) dLLM 執(zhí)行條件生成時，第一步擴(kuò)散步驟從給定前綴提示的完全掩碼補全開始，并嘗試恢復(fù)補全序列。在此步驟中，他們將每個恢復(fù)的 token 的置信度得分記錄在圖 3 (a) 中。

可以看到，LLaDA 和 Dream 的默認(rèn)解碼算法會選擇置信度最高的 token，同時重新掩蔽其余 token。LLaDA 使用對數(shù)概率，而 Dream 使用負(fù)熵來衡量置信度，值越大表示模型對該 token 高度自信。

值得注意的是，由此產(chǎn)生的分布呈現(xiàn)出特征性的 L 形模式。蘋果將這種現(xiàn)象稱為熵沉（Entropy Sink）。他們假設(shè)熵沉的出現(xiàn)是因為文本的內(nèi)在特性使模型偏向于位于給定前綴右側(cè)的 token：這些位置接收更強(qiáng)的位置信號和更接近的上下文，導(dǎo)致模型賦予它們不成比例的高置信度。這種現(xiàn)象可能與注意力下沉（attention sink）的原因有關(guān)，但其根本原因尚需進(jìn)一步分析和驗證。這種對局部相鄰 token 的熵偏差可以解釋為何 dLLM 仍然保持著非平凡的自回歸性。

生成多樣性

自回歸大語言模型的訓(xùn)練后研究表明，強(qiáng)化學(xué)習(xí)模型的推理路徑會受基礎(chǔ)模型的 pass@k 采樣能力限制。因此蘋果在動態(tài)大語言模型中結(jié)合 pass@k 準(zhǔn)確率來研究生成多樣性。

如圖 5（右）和圖 6 所示，對于 DiffuCoder 的基礎(chǔ)版和指令微調(diào)版模型，低溫設(shè)置下單次采樣正確率（pass@1）很高，但前 k 次采樣的整體正確率（pass@k）提升不明顯，說明生成的樣本缺乏多樣性。當(dāng)把溫度調(diào)高到合適范圍（比如 1.0 到 1.2），pass@k 指標(biāo)顯著提升，這說明模型其實隱藏著更強(qiáng)的能力。

在很多強(qiáng)化學(xué)習(xí)場景中，模型需要先在推理過程中生成多樣的回答，強(qiáng)化學(xué)習(xí)才能進(jìn)一步提升單次回答的準(zhǔn)確率。DiffuCoder 的 pass@k 曲線顯示它還有很大的優(yōu)化空間，這也正是蘋果設(shè)計 coupled-GRPO 算法的原因。

另外，如圖 5（左）和圖 1（a）所示，更高的溫度還會降低模型的自回歸性，意味著模型生成 token 的順序更隨機(jī) —— 這和傳統(tǒng)自回歸模型不同：傳統(tǒng)模型中溫度只影響選哪個 token，而動態(tài)大語言模型中溫度既影響選詞又影響生成順序。

coupled-GRPO

RL 就像「試錯學(xué)習(xí)」，比如玩游戲時通過不斷嘗試找到最優(yōu)策略；GRPO 是一種改進(jìn)的 RL 方法，能讓語言模型學(xué)得更快更好。以前的研究證明它們對自回歸模型很有效，但在擴(kuò)散語言模型（dLLM）中用得還不多。

而將掩碼擴(kuò)散過程表述為馬爾可夫決策過程，可以實現(xiàn)類似于 PPO 的策略優(yōu)化方法。為了便于與 GRPO 集成，需要在擴(kuò)散模型中對 token 概率進(jìn)行近似。當(dāng)前的掩碼擴(kuò)散模型依賴于蒙特卡洛抽樣進(jìn)行對數(shù)概率估計。然而，蒙特卡洛采樣在 GRPO 的訓(xùn)練過程中會帶來顯著的開銷。

打個比方，現(xiàn)在的模型計算「猜詞概率」時，依賴多次隨機(jī)嘗試（蒙特卡洛采樣），這會導(dǎo)致訓(xùn)練 GRPO 時速度很慢、開銷很大。比如，原本可能只需要算 1 次概率，現(xiàn)在要算 100 次，電腦算力消耗劇增，這就是當(dāng)前需要解決的關(guān)鍵問題。

在原始 GRPO 的損失計算中，僅對涉及掩碼 token 的位置計算損失，導(dǎo)致在采樣次數(shù)有限時出現(xiàn)效率低下和高方差問題。為提升概率估計的準(zhǔn)確性同時覆蓋所有 token，蘋果提出了耦合采樣方案（Coupled-Sampling Scheme），其核心思想是通過兩次互補的掩碼操作，確保每個 token 在擴(kuò)散過程中至少被解掩一次，并在更真實的上下文中評估其概率。

coupled-GRPO 的實際實現(xiàn)

在實際應(yīng)用中，本研究選擇 λ=1，以平衡計算成本與估計精度。為進(jìn)行公平比較，本研究引入一個「去耦基線（de-coupled baseline）」：該基線使用相同數(shù)量的樣本，但不強(qiáng)制掩碼之間的互補性（即兩次獨立采樣）。

此外，在優(yōu)勢分?jǐn)?shù)計算中，本研究采用留一法（Leave-One-Out, LOO）策略確定基線得分，這樣可以得到一個無偏估計。耦合采樣方案可以看作是應(yīng)用了 Antithetic Variates 的方差縮減技術(shù)，并且本文還列出了用于驗證獎勵的詳細(xì)設(shè)計，包括代碼格式獎勵以及測試用例執(zhí)行通過率作為正確性獎勵。詳見原論文。

coupled-GRPO 通過互補掩碼、LOO 優(yōu)勢估計和溫度優(yōu)化，在擴(kuò)散語言模型的訓(xùn)練中實現(xiàn)了更穩(wěn)定的獎勵學(xué)習(xí)與更低的 AR-ness，顯著提升了生成質(zhì)量與并行效率。其實驗結(jié)果不僅驗證了強(qiáng)化學(xué)習(xí)與擴(kuò)散模型結(jié)合的潛力，也為 dLLM 的實際應(yīng)用（如代碼生成、高速推理）提供了可行路徑。

未來研究可進(jìn)一步探索其在多模態(tài)生成和大模型蒸餾中的應(yīng)用。

責(zé)任編輯：張燕妮來源：機(jī)器之心

蘋果 AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營