偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果出手!改進(jìn)GRPO,讓dLLM也能高效強(qiáng)化學(xué)習(xí)

人工智能 新聞
蘋果的一個(gè)研究團(tuán)隊(duì)表示:「代碼生成與 dLLM 范式非常契合,因?yàn)榫帉懘a通常涉及非順序的反復(fù)來(lái)回優(yōu)化。」事實(shí)上,此前的 Mercury Coder 和 Gemini Diffusion 已經(jīng)表明:基于擴(kuò)散的代碼生成器可以與頂尖自回歸代碼模型相媲美。

最近,擴(kuò)散語(yǔ)言模型(dLLM)有點(diǎn)火。現(xiàn)在,蘋果也加入這片新興的戰(zhàn)場(chǎng)了。

不同于基于 Transformer 的自回歸式語(yǔ)言模型,dLLM 基于掩碼式擴(kuò)散模型(masked diffusion model / MDM),此前我們已經(jīng)報(bào)道過(guò) LLaDA 和 Dream 等一些代表案例,最近首款實(shí)現(xiàn)商業(yè)化的 dLLM 聊天機(jī)器人 Mercury 也已經(jīng)正式上線(此前已有 Mercury Coder)。

圖片

感興趣的讀者可在這里嘗試 https://poe.com/Inception-Mercury 

相較于自回歸語(yǔ)言模型,dLLM 的一大主要特點(diǎn)是:快。而且 dLLM 不是從左到右地生成,而是并行迭代地優(yōu)化整個(gè)序列,從而實(shí)現(xiàn)內(nèi)容的全局規(guī)劃。

Mercury 聊天應(yīng)用 demo,https://x.com/InceptionAILabs/status/1938370499459092873

蘋果的一個(gè)研究團(tuán)隊(duì)表示:「代碼生成與 dLLM 范式非常契合,因?yàn)榫帉懘a通常涉及非順序的反復(fù)來(lái)回優(yōu)化?!故聦?shí)上,此前的 Mercury Coder 和 Gemini Diffusion 已經(jīng)表明:基于擴(kuò)散的代碼生成器可以與頂尖自回歸代碼模型相媲美。

然而,由于開源 dLLM 的訓(xùn)練和推理機(jī)制尚未被完全闡明,因此其在編碼任務(wù)中的表現(xiàn)尚不明確?,F(xiàn)有的針對(duì) dLLM 的后訓(xùn)練研究,例如采用 DPO 訓(xùn)練的 LLaDA1.5 以及采用 GRPO 訓(xùn)練的 d1 和 MMaDA,要么收效甚微,要么嚴(yán)重依賴半自回歸解碼(使用相對(duì)較小的塊大小進(jìn)行塊解碼)。

言及此,今天我們介紹的這項(xiàng)來(lái)自蘋果的研究就希望填補(bǔ)這一空白。他們首先研究了 dLLM 的解碼行為,然后建立了一種用于擴(kuò)散 LLM 的原生強(qiáng)化學(xué)習(xí) (RL) 方法。

圖片

  • 論文標(biāo)題:DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
  • 論文地址:https://arxiv.org/pdf/2506.20639
  • 項(xiàng)目地址:https://github.com/apple/ml-diffucoder

該研究基于對(duì) DiffuCoder 的分析。這是一個(gè) 7B 級(jí)的針對(duì)代碼生成的 MDM,蘋果使用了 1300 億個(gè)有效 token(arXiv:2411.04905)來(lái)訓(xùn)練它。該模型的性能可比肩同規(guī)模的自回歸編碼器,為理解 dLLM 的行為以及開發(fā)擴(kuò)散原生的后訓(xùn)練方法提供了強(qiáng)大的測(cè)試平臺(tái)。

基于得到的分析結(jié)果,蘋果還針對(duì)性地對(duì) GRPO 進(jìn)行了定制優(yōu)化,提出了一種采用全新耦合采樣方案的新算法:coupled-GRPO。

圖片

效果相當(dāng)不錯(cuò)

DiffuCoder

首先,蘋果是怎么訓(xùn)練出 DiffuCoder 的呢?

基本方法很常規(guī):用大規(guī)模語(yǔ)料庫(kù)。下圖展示了其多個(gè)訓(xùn)練階段。

圖片

他們首先進(jìn)行了類似于 Dream 的適應(yīng)性預(yù)訓(xùn)練(adaptation pre-training)。中訓(xùn)練(mid-training)介于預(yù)訓(xùn)練和后訓(xùn)練之間,類似于 OpenCoder 中的退火階段 —— 事實(shí)證明這是有效的。接下來(lái)是指令微調(diào)階段,作用是增強(qiáng)模型遵循指令的能力。最后,在后訓(xùn)練階段,他們采用了一種全新的 coupled-GRPO 方法(將在后文介紹)來(lái)進(jìn)一步增強(qiáng)模型的 pass@1 編程能力。

更詳細(xì)的訓(xùn)練配置請(qǐng)?jiān)L問原論文。

他們?cè)?HumanEval、MBPP、EvalPlus 和 BigCodeBench 基準(zhǔn)上對(duì) DiffuCoder 進(jìn)行了評(píng)估并與其它一些模型進(jìn)行了比較,結(jié)果見下表。

圖片

可以看到,DiffuCoder 在使用 130B 代碼 token(第 1 階段和第 2 階段)進(jìn)行持續(xù)訓(xùn)練后,達(dá)到了與 Qwen2.5-Coder 和 OpenCoder 相當(dāng)?shù)男阅?。然而,所?dLLM 在指令調(diào)整后都僅比其基礎(chǔ)模型略有改進(jìn),尤其是與 Qwen2.5-Coder+SFT 相比時(shí),而后者在相同數(shù)據(jù)上進(jìn)行指令微調(diào)后進(jìn)步非常明顯。

基于 DiffuCoder 理解掩碼式擴(kuò)散模型

LLaDA 和 Dream 等當(dāng)前 dLLM 依賴于低置信度的重掩碼解碼策略,而 LLaDA 使用半自回歸解碼方法(即塊擴(kuò)散解碼)可在某些任務(wù)上實(shí)現(xiàn)性能提升。dLLM 的另一種常見做法是將擴(kuò)散時(shí)間步長(zhǎng)設(shè)置為等于序列長(zhǎng)度,從而有效地利用逐個(gè) token 的生成來(lái)提升性能。鑒于此,他們引入了局部和全局自回歸性 (AR-ness) 指標(biāo),以系統(tǒng)地研究 dLLM 的解碼順序。

具體而言,他們的分析旨在揭示:

  • dLLM 的解碼模式與自回歸模型的解碼模式有何不同;
  • 數(shù)據(jù)模態(tài)(例如代碼或數(shù)學(xué))如何影響模型行為;
  • AR-ness 如何在不同的訓(xùn)練階段演變。

生成中的自回歸性

在標(biāo)準(zhǔn)的自回歸解碼中,模型嚴(yán)格按照從左到右的順序生成 token,以確保強(qiáng)大的序列一致性。然而,基于擴(kuò)散的解碼可能會(huì)選擇無(wú)序地恢復(fù) [MASK]。因此,他們引入了兩個(gè)指標(biāo)來(lái)量化擴(kuò)散模型的非掩碼式調(diào)度與自回歸模式的相似程度,其中包括下一個(gè) token 模式和左優(yōu)先模式。

1、局部:連續(xù)下一個(gè) token 預(yù)測(cè)

局部 AR-ness@k 是通過(guò)預(yù)測(cè)序列與范圍 k 內(nèi)下一個(gè) token 預(yù)測(cè)模式匹配的比例來(lái)計(jì)算的。如果 k 長(zhǎng)度范圍內(nèi)的所有 token 都是前一個(gè)生成 token 的直接后繼,則就隨意考慮此范圍。局部 AR-ness 會(huì)隨著 k 的增加而衰減,因?yàn)榫S持更長(zhǎng)的連續(xù)范圍會(huì)變得越來(lái)越困難。

2、全局:最早掩碼選擇

在步驟 t 中,如果預(yù)測(cè) token 位于前 k 個(gè)被掩碼的位置,則對(duì)全局 AR-ness 進(jìn)行評(píng)分。全局 AR-ness @k 是每個(gè) t 的平均比例,它衡量的是始終揭示最早剩余 token 的趨勢(shì),從而捕捉從左到右的填充策略。該比例隨 k 的增長(zhǎng)而增長(zhǎng),因?yàn)殡S著被允許的早期位置越多,該標(biāo)準(zhǔn)就越容易滿足。對(duì)于這兩個(gè)指標(biāo),值越高表示生成的自回歸性越強(qiáng)。

解碼分析

他們?cè)跅l件生成過(guò)程中對(duì)以下對(duì)象進(jìn)行自回歸性比較:

  • 不同的 dLLM,包括從零開始訓(xùn)練的 LLaDA 以及改編自自回歸 LLM 的 Dream 或 DiffuCoder;
  • 不同的數(shù)據(jù)模態(tài),包括數(shù)學(xué)和代碼;
  • DiffuCoder 的不同訓(xùn)練階段。

1、dLLM 的解碼與自回歸模型有何不同?

對(duì)于自回歸解碼,局部和全局 AR-ness 均等于 1(即 100% 自回歸)。相反,如圖 3 所示,dLLM 并不總是以純自回歸方式解碼。

圖片

在 dLLM 解碼中,很大一部分 token 既不是從最左邊的掩碼 token 中恢復(fù)出來(lái)的,也不是從下一個(gè) token 中恢復(fù)出來(lái)的。這一觀察結(jié)果表明,與常規(guī)自回歸模型相比,dLLM 采用了更靈活的解碼順序。然而,局部和全局自回歸值都更接近于 1 而不是 0,這表明文本數(shù)據(jù)本身就具有某種自回歸結(jié)構(gòu),而基于擴(kuò)散的語(yǔ)言模型無(wú)論是從零開始訓(xùn)練還是從自回歸模型適應(yīng)而來(lái),都能自然地捕捉到這些結(jié)構(gòu)。

實(shí)驗(yàn)結(jié)果表明,適應(yīng)得到的 dLLM 往往比從零開始訓(xùn)練的 dLLM 表現(xiàn)出更強(qiáng)的自回歸值。這是因?yàn)樗鼈儠?huì)從原始自回歸訓(xùn)練中繼承從左到右的 token 依賴關(guān)系。較低的自回歸值會(huì)打破這種依賴關(guān)系,從而為并行生成提供更多機(jī)會(huì)。較高的自回歸值也可能帶來(lái)好處;例如,LLaDA 通常需要采用半 AR(塊解碼)生成來(lái)實(shí)現(xiàn)更高的整體性能。在這種情況下,塊解碼器會(huì)明確地將因果偏差重新引入生成過(guò)程。在 DiffuCoder 中,蘋果該團(tuán)隊(duì)認(rèn)為模型可以自行決定生成過(guò)程中的因果關(guān)系。

2、不同的數(shù)據(jù)模態(tài)會(huì)如何影響解碼范式?

根據(jù)圖 3,盡管數(shù)學(xué)和代碼解碼表現(xiàn)出了不同程度的局部自回歸值,但他們得到了一個(gè)相當(dāng)一致的發(fā)現(xiàn):代碼生成的全局自回歸值均值較低,方差較高。

這表明,在生成代碼時(shí),模型傾向于先生成較晚的 token,而一些較早被掩蔽的 token 直到很晚才被恢復(fù)。原因可能是數(shù)學(xué)文本本質(zhì)上是順序的,通常需要從左到右的計(jì)算,而代碼具有內(nèi)在的結(jié)構(gòu)。因此,模型通常會(huì)更全局地規(guī)劃 token 生成,就像程序員在代碼中來(lái)回跳轉(zhuǎn)以改進(jìn)代碼實(shí)現(xiàn)一樣。

3、自回歸值 AR-ness 在不同的訓(xùn)練階段如何變化?

從圖 4(第 1 階段)可以看的,在使用 650 億個(gè) token 進(jìn)行訓(xùn)練后,他們已經(jīng)觀察到相對(duì)較低的自回歸值。然而,當(dāng)他們將訓(xùn)練擴(kuò)展到 7000 億個(gè) token 時(shí),AR-ness 會(huì)提升,但整體性能會(huì)下降。

圖片

于是蘋果猜想,預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量限制了性能。因此,他們選擇階段 1 的 6500 億個(gè) token 作為階段 2 的起點(diǎn)。在中訓(xùn)練(階段 2)和指令調(diào)整(階段 3)期間,在第一個(gè)高質(zhì)量數(shù)據(jù)周期(epoch)中,該模型學(xué)習(xí)到了較高的因果偏差。然而,隨著 token 數(shù)量的增加,任務(wù)性能會(huì)提升,而測(cè)量到的 AR-ness 會(huì)開始下降。這種模式表明,在第一個(gè)周期之后,dLLM 就會(huì)開始捕獲超越純自回歸順序的依賴關(guān)系。在 GRPO 訓(xùn)練之后,模型的全局 AR-ness 也會(huì)下降,同時(shí),在解碼步驟減少一半的情況下,性能下降幅度會(huì)減小。

4、熵沉(Entropy Sink)

當(dāng) dLLM 執(zhí)行條件生成時(shí),第一步擴(kuò)散步驟從給定前綴提示的完全掩碼補(bǔ)全開始,并嘗試恢復(fù)補(bǔ)全序列。在此步驟中,他們將每個(gè)恢復(fù)的 token 的置信度得分記錄在圖 3 (a) 中。

可以看到,LLaDA 和 Dream 的默認(rèn)解碼算法會(huì)選擇置信度最高的 token,同時(shí)重新掩蔽其余 token。LLaDA 使用對(duì)數(shù)概率,而 Dream 使用負(fù)熵來(lái)衡量置信度,值越大表示模型對(duì)該 token 高度自信。

值得注意的是,由此產(chǎn)生的分布呈現(xiàn)出特征性的 L 形模式。蘋果將這種現(xiàn)象稱為熵沉(Entropy Sink)。他們假設(shè)熵沉的出現(xiàn)是因?yàn)槲谋镜膬?nèi)在特性使模型偏向于位于給定前綴右側(cè)的 token:這些位置接收更強(qiáng)的位置信號(hào)和更接近的上下文,導(dǎo)致模型賦予它們不成比例的高置信度。這種現(xiàn)象可能與注意力下沉(attention sink)的原因有關(guān),但其根本原因尚需進(jìn)一步分析和驗(yàn)證。這種對(duì)局部相鄰 token 的熵偏差可以解釋為何 dLLM 仍然保持著非平凡的自回歸性。

生成多樣性

自回歸大語(yǔ)言模型的訓(xùn)練后研究表明,強(qiáng)化學(xué)習(xí)模型的推理路徑會(huì)受基礎(chǔ)模型的 pass@k 采樣能力限制。因此蘋果在動(dòng)態(tài)大語(yǔ)言模型中結(jié)合 pass@k 準(zhǔn)確率來(lái)研究生成多樣性。

如圖 5(右)和圖 6 所示,對(duì)于 DiffuCoder 的基礎(chǔ)版和指令微調(diào)版模型,低溫設(shè)置下單次采樣正確率(pass@1)很高,但前 k 次采樣的整體正確率(pass@k)提升不明顯,說(shuō)明生成的樣本缺乏多樣性。當(dāng)把溫度調(diào)高到合適范圍(比如 1.0 到 1.2),pass@k 指標(biāo)顯著提升,這說(shuō)明模型其實(shí)隱藏著更強(qiáng)的能力。

圖片

圖片

在很多強(qiáng)化學(xué)習(xí)場(chǎng)景中,模型需要先在推理過(guò)程中生成多樣的回答,強(qiáng)化學(xué)習(xí)才能進(jìn)一步提升單次回答的準(zhǔn)確率。DiffuCoder 的 pass@k 曲線顯示它還有很大的優(yōu)化空間,這也正是蘋果設(shè)計(jì) coupled-GRPO 算法的原因。

另外,如圖 5(左)和圖 1(a)所示,更高的溫度還會(huì)降低模型的自回歸性,意味著模型生成 token 的順序更隨機(jī) —— 這和傳統(tǒng)自回歸模型不同:傳統(tǒng)模型中溫度只影響選哪個(gè) token,而動(dòng)態(tài)大語(yǔ)言模型中溫度既影響選詞又影響生成順序。

coupled-GRPO

RL 就像「試錯(cuò)學(xué)習(xí)」,比如玩游戲時(shí)通過(guò)不斷嘗試找到最優(yōu)策略;GRPO 是一種改進(jìn)的 RL 方法,能讓語(yǔ)言模型學(xué)得更快更好。以前的研究證明它們對(duì)自回歸模型很有效,但在擴(kuò)散語(yǔ)言模型(dLLM)中用得還不多。

而將掩碼擴(kuò)散過(guò)程表述為馬爾可夫決策過(guò)程,可以實(shí)現(xiàn)類似于 PPO 的策略優(yōu)化方法。為了便于與 GRPO 集成,需要在擴(kuò)散模型中對(duì) token 概率進(jìn)行近似。當(dāng)前的掩碼擴(kuò)散模型依賴于蒙特卡洛抽樣進(jìn)行對(duì)數(shù)概率估計(jì)。然而,蒙特卡洛采樣在 GRPO 的訓(xùn)練過(guò)程中會(huì)帶來(lái)顯著的開銷。

打個(gè)比方,現(xiàn)在的模型計(jì)算「猜詞概率」時(shí),依賴多次隨機(jī)嘗試(蒙特卡洛采樣),這會(huì)導(dǎo)致訓(xùn)練 GRPO 時(shí)速度很慢、開銷很大。比如,原本可能只需要算 1 次概率,現(xiàn)在要算 100 次,電腦算力消耗劇增,這就是當(dāng)前需要解決的關(guān)鍵問題。 

在原始 GRPO 的損失計(jì)算中,僅對(duì)涉及掩碼 token 的位置計(jì)算損失,導(dǎo)致在采樣次數(shù)有限時(shí)出現(xiàn)效率低下和高方差問題。為提升概率估計(jì)的準(zhǔn)確性同時(shí)覆蓋所有 token,蘋果提出了耦合采樣方案(Coupled-Sampling Scheme),其核心思想是通過(guò)兩次互補(bǔ)的掩碼操作,確保每個(gè) token 在擴(kuò)散過(guò)程中至少被解掩一次,并在更真實(shí)的上下文中評(píng)估其概率。

圖片

coupled-GRPO 的實(shí)際實(shí)現(xiàn)

在實(shí)際應(yīng)用中,本研究選擇 λ=1,以平衡計(jì)算成本與估計(jì)精度。為進(jìn)行公平比較,本研究引入一個(gè)「去耦基線(de-coupled baseline)」:該基線使用相同數(shù)量的樣本,但不強(qiáng)制掩碼之間的互補(bǔ)性(即兩次獨(dú)立采樣)。

此外,在優(yōu)勢(shì)分?jǐn)?shù)計(jì)算中,本研究采用留一法(Leave-One-Out, LOO)策略確定基線得分,這樣可以得到一個(gè)無(wú)偏估計(jì)。耦合采樣方案可以看作是應(yīng)用了 Antithetic Variates 的方差縮減技術(shù),并且本文還列出了用于驗(yàn)證獎(jiǎng)勵(lì)的詳細(xì)設(shè)計(jì),包括代碼格式獎(jiǎng)勵(lì)以及測(cè)試用例執(zhí)行通過(guò)率作為正確性獎(jiǎng)勵(lì)。詳見原論文。

圖片

coupled-GRPO 通過(guò)互補(bǔ)掩碼、LOO 優(yōu)勢(shì)估計(jì)和溫度優(yōu)化,在擴(kuò)散語(yǔ)言模型的訓(xùn)練中實(shí)現(xiàn)了更穩(wěn)定的獎(jiǎng)勵(lì)學(xué)習(xí)與更低的 AR-ness,顯著提升了生成質(zhì)量與并行效率。其實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了強(qiáng)化學(xué)習(xí)與擴(kuò)散模型結(jié)合的潛力,也為 dLLM 的實(shí)際應(yīng)用(如代碼生成、高速推理)提供了可行路徑。

圖片

未來(lái)研究可進(jìn)一步探索其在多模態(tài)生成和大模型蒸餾中的應(yīng)用。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-10-23 09:05:50

2025-03-11 01:00:00

GRPO算法模型

2025-02-17 10:40:20

2021-11-29 10:09:50

AI 強(qiáng)化學(xué)習(xí)人工智能

2025-05-30 04:00:00

IBMRLVRGRPO

2025-03-11 13:07:58

2025-04-02 09:30:00

2025-06-30 09:08:00

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-05-28 02:25:00

2025-05-26 09:16:00

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2025-06-23 09:07:00

2017-02-24 13:27:37

阿里開源

2025-06-30 02:25:00

2025-07-09 01:22:00

AI強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)

2025-05-26 04:00:00

2025-10-10 08:33:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)