DPad:擴(kuò)散大語言模型的中庸之道,杜克大學(xué)陳怡然團(tuán)隊(duì)免訓(xùn)推理加速61倍
論文作者團(tuán)隊(duì):來自杜克大學(xué) CEI Center,由實(shí)習(xí)生陳欣驊、黃思韜及郭聰博士共同完成,指導(dǎo)教師為李海教授、陳怡然教授。
擴(kuò)散大語言模型(dLLMs)憑借并行解碼與獨(dú)特的全局規(guī)劃能力,有望解決自回歸(AR)大模型的效率瓶瓶頸和規(guī)劃能力缺陷。但其「全局規(guī)劃」能力依賴于其雙向注意力對(duì)所有后文的關(guān)注,這帶來了嚴(yán)重的計(jì)算冗余,從而導(dǎo)致現(xiàn)有開源模型的潛力遠(yuǎn)遠(yuǎn)未被釋放。
當(dāng)前的 dLLM 存在「路線之爭(zhēng)」:一是保留全局規(guī)劃能力但推理效率極低的「全局雙向注意」(如 LLaDA),二是追求速度卻犧牲規(guī)劃能力的「塊內(nèi)雙向注意」(如 Block Diffusion)。如何在這兩條路線之間調(diào)和折中,讓模型既能「著眼全局」,又能加速推理,已成為學(xué)界日益關(guān)注的問題。
針對(duì)以上問題,杜克大學(xué)陳怡然團(tuán)隊(duì)另辟蹊徑,揭示了 dLLM 中實(shí)現(xiàn)全局規(guī)劃的「草稿紙機(jī)制」,并發(fā)現(xiàn)其存在高度冗余。據(jù)此,他們提出免訓(xùn)練方法 DPad(Diffusion Scratchpad),通過先驗(yàn)地丟棄大量無效后綴 token,既極大地降低了計(jì)算量,又保留了核心規(guī)劃能力,嘗試在兩條路線中走出一條「中間路線」。該方法與現(xiàn)有優(yōu)化技術(shù)結(jié)合后,在幾乎無損的模型精度下,可實(shí)現(xiàn)高達(dá) 61.4 倍的推理加速。

- 論文標(biāo)題:DPad: Efcient Difusion Language Models with Sufx Dropout
- 論文地址:https://arxiv.org/abs/2508.14148
- 代碼地址:https://github.com/Crys-Chen/DPad
dLLM 獨(dú)特的「草稿紙」機(jī)制:實(shí)時(shí)記錄語義信息
不同于自回歸模型,dLLM 采用雙向注意力機(jī)制,在解碼時(shí)既能回顧前文,也能「展望」后文?;谶@一點(diǎn),文本序列可被清晰地劃分為三部分:
- 前綴 token (Prefix Tokens):已完全解碼的文本,語義和位置信息完整。
- 當(dāng)前塊 token (Current Block):正在解碼的文本,擁有部分語義和完整的位置信息。
- 后綴 token (Suffix Tokens):使用 Mask 初始化的未來文本,僅有位置信息,初始沒有語義信息??稍诿繉?Transformer block 執(zhí)行的過程中,逐步記錄語義信息,對(duì)未來的文本進(jìn)行規(guī)劃。
研究團(tuán)隊(duì)通過分析雙向注意力機(jī)制后發(fā)現(xiàn):dLLM 中的后綴 token 是一種獨(dú)特的「草稿紙」。模型在解碼「當(dāng)前塊」時(shí),會(huì)巧妙將這些后綴 token 作為臨時(shí)存儲(chǔ)空間,用于在每一層 Transformer block 中記錄自己對(duì)后文的構(gòu)思。這種方法能夠?qū)崿F(xiàn)對(duì)整個(gè)文本的規(guī)劃,使輸出的前后文更一致,提高語言模型的整體性能。

草稿紙機(jī)制示意圖。左圖顯示在淺層(Layer 0),信息從 Prefix 和 Current「寫入」(DPad Writing)到 Suffix 區(qū)域。右圖顯示在深層(Layer 1),信息被 Current Block 從 Suffix 區(qū)域「讀取」(DPad Reading)回來,輔助解碼。
如上圖所示,前綴、當(dāng)前和后綴三種類型將注意力分?jǐn)?shù)分為了 9 個(gè)區(qū)域,使得模型的前向過程存在一個(gè)「寫—讀」的工作流:
- 寫入 (Write):在第 0 層 Transformer block,后綴 token 通過注意力機(jī)制,從前綴(⑦)和當(dāng)前(⑧)塊中捕獲信息。這個(gè)過程相當(dāng)于模型對(duì)后文的構(gòu)思作為「草稿」記錄下來。
- 讀取 (Read):在第 1 層 Transformer block,當(dāng)前塊反過來從后綴 token 讀取信息(⑥)。此時(shí)的后綴 token 已不再是「白板」,而是承載了上一層寫入的「草稿」。所以從后文讀取的信息可以用于輔助當(dāng)前塊的解碼。
研究團(tuán)隊(duì)認(rèn)為,這種「寫—讀」的行為就像一本「草稿紙」,將模型在淺層對(duì)后文的構(gòu)思傳遞到深層——這正是 dLLM 具備強(qiáng)大全局規(guī)劃能力的關(guān)鍵。它讓模型在生成當(dāng)前內(nèi)容的同時(shí),能初步構(gòu)思和約束未來的生成方向,實(shí)現(xiàn)了前后文的協(xié)同共進(jìn)。
符合直覺的發(fā)現(xiàn):「草稿紙」也要詳略得當(dāng)
DPad 的核心思想,源于一個(gè)非常符合直覺的類比。想象一下您在創(chuàng)作一部鴻篇巨制:
- 對(duì)于當(dāng)前章節(jié),你會(huì)反復(fù)修改,精雕細(xì)琢。
- 對(duì)于臨近幾章,你會(huì)先列好提綱,構(gòu)思重點(diǎn)情節(jié),確保情節(jié)自然銜接。
- 對(duì)于后續(xù)章節(jié),或許只是隨手記下幾個(gè)天馬行空的靈感,寥寥幾筆。
DPad 正是基于這一思想,避免讓作者(dLLM)在創(chuàng)作每個(gè)章節(jié)(當(dāng)前塊 Token)時(shí),對(duì)所有未來的「草稿紙」(后綴 Token)進(jìn)行強(qiáng)行填充,從而,才能集中注意力并節(jié)省資源(降低算力和存儲(chǔ))。其核心思想便是聚焦當(dāng)下,展望未來,留白長(zhǎng)遠(yuǎn),讓模型的每一次「下筆」都更加高效。
通過對(duì) dLLM 注意力機(jī)制的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了支撐這種核心思想的關(guān)鍵性數(shù)據(jù):
- 「草稿紙」大量冗余:離當(dāng)前塊較遠(yuǎn)的后綴 token 往往被寫入了極其相似的「草稿」,其中大部分成了無效計(jì)算。
- 注意力隨距離衰減:對(duì)當(dāng)前解碼起關(guān)鍵作用的,主要是附近少數(shù)幾頁「草稿紙」,遠(yuǎn)處的「草稿」重要性顯著降低。

預(yù)先解碼出來的后綴 token 存在大量重復(fù)。

當(dāng)前塊對(duì)后綴 token 的注意力分?jǐn)?shù)圖。可以看到,注意力(綠線)在進(jìn)入 Suffix 區(qū)域后迅速衰減,表明遠(yuǎn)處 token 的影響力逐漸減小。
那么,是否可以更大膽一些呢?如下圖所示,研究人員進(jìn)行了一個(gè)反直覺的實(shí)驗(yàn):強(qiáng)行刪除那些注意力分?jǐn)?shù)最高的遠(yuǎn)端 token。出人意料的是,準(zhǔn)確率幾乎沒有任何損失!dLLM 似乎有「自愈能力」,會(huì)將注意力自動(dòng)轉(zhuǎn)移到鄰近 token 上,補(bǔ)償丟失的信息。
這個(gè)「注意力遷移」現(xiàn)象有力地證明:比起某一張?zhí)囟ㄎ恢玫摹覆莞寮垺?,dLLM 其實(shí)僅要求在未來某個(gè)位置區(qū)間內(nèi)存在可用的「草稿紙」即可。因此,與其空耗算力確定重要 token 的位置,不如直接先驗(yàn)丟棄。

左圖展示了 dLLM 中當(dāng)前塊 token 對(duì)后綴 token 的注意力分布:整體隨距離衰減,遠(yuǎn)端 token 偶爾出現(xiàn)「尖峰」(如 d = 362)。當(dāng)刪除這些尖峰 token 后(右圖),模型的注意力并沒有消失,而是自然地轉(zhuǎn)移到了鄰近的 token 上(如,362 號(hào) token 的注意力被轉(zhuǎn)移到 359 號(hào))。
DPad:簡(jiǎn)單高效的「先驗(yàn)丟棄」
基于以上洞見,DPad 方法應(yīng)運(yùn)而生。它的核心思想是:與其等模型算完再「剪枝」,不如在解碼開始前,就先驗(yàn)地丟掉一批冗余的「草稿紙」。DPad 的實(shí)現(xiàn)非常簡(jiǎn)潔,主要包含兩大策略:
- 滑動(dòng)窗口 (Sliding Window):只保留當(dāng)前解碼位置附近一個(gè)固定長(zhǎng)度的后綴窗口作為「草稿紙」,遠(yuǎn)處的直接丟棄。
- 「近多遠(yuǎn)少」采樣 (Distance-decay Dropout):在滑動(dòng)窗口內(nèi)部,根據(jù)「越近越重要」的原則,以一個(gè)隨距離遞減的概率保留后綴 token。

(a) 自回歸模型;(b) 傳統(tǒng) dLLM,需要關(guān)注所有后綴 token;(c) DPad,僅關(guān)注附近少數(shù)經(jīng)過篩選的后綴 token。
實(shí)驗(yàn)結(jié)果:更快更準(zhǔn)
DPad 在 LLaDA 和 Dream 系列等多個(gè)主流 dLLM 上進(jìn)行了全面測(cè)試,結(jié)果喜人。
大幅提升推理效率
在現(xiàn)實(shí)的長(zhǎng)輸出場(chǎng)景(少示例、長(zhǎng)回答)中,DPad 可謂大放異彩:
- 在 GSM8K 數(shù)據(jù)集上,DPad 為 LLaDA-1.5 帶來了 20.3 倍的單獨(dú)加速比。
- 與 Fast-dLLM 等并行解碼技術(shù)結(jié)合后,綜合加速比高達(dá) 61.39 倍。
- 在 HumanEval 數(shù)據(jù)集上,當(dāng)輸出長(zhǎng)度達(dá)到 2048 個(gè) token 時(shí),DPad 與 Fast-dLLM 的組合為 Dream 模型帶來了 97.32 倍的驚人加速。

圖 6 在 GSM8K(1024 tokens, 1-shot)任務(wù)上,DPad 結(jié)合其他優(yōu)化技術(shù),讓 LLaDA-1.5 實(shí)現(xiàn)了 61.39 倍的加速。

在 HumanEval(2048 tokens, 0-shot)任務(wù)上,DPad 結(jié)合其他優(yōu)化技術(shù),讓 Dream-Base 實(shí)現(xiàn)了 97.32 倍的加速。
意外之喜:顯著提升語境學(xué)習(xí)能力 (In-Context Learning)
通常,推理加速會(huì)以犧牲部分模型精度為代價(jià)。但 DPad 卻帶來了意外的驚喜:在多個(gè)任務(wù)上,尤其是在 LLaDA 系列模型上,它不僅沒有降低精度,反而顯著提升了模型的準(zhǔn)確率,尤其是「嚴(yán)格匹配」(Strict Match)得分。
「嚴(yán)格匹配」不僅要求答案正確,還要求模型嚴(yán)格遵循輸入示例給出的格式,是衡量模型語境學(xué)習(xí)能力的關(guān)鍵指標(biāo)。

在 GSM8K 任務(wù)中,原始模型(左)雖然算對(duì)了答案(通過 Flexible-Match),但未能按要求格式輸出答案,未能通過 Strict-Match。而應(yīng)用了 DPad 的模型(右),則精準(zhǔn)復(fù)刻了示例格式,同時(shí)給出了正確答案。
DPad 在 LLaDA-Instruct 上與原始模型 (Vanilla) 和 Fast-dLLM 的對(duì)比

DPad 在 LLaDA-1.5 上與原始模型 (Vanilla) 和 Fast-dLLM 的對(duì)比

DPad 在 Dream-Base 上與原始模型 (Vanilla) 和 Fast-dLLM 的對(duì)比
DPad 團(tuán)隊(duì)認(rèn)為,這是因?yàn)閬G棄了大量冗余的后綴 token 后,模型能將更多注意力集中在信息量豐富的前綴 token(prompt)上,從而更好地理解和學(xué)習(xí)示例中蘊(yùn)含的格式與規(guī)范。
總結(jié)與展望
面對(duì)當(dāng)前 dLLM 的兩條路線之爭(zhēng),DPad 巧妙地介于兩者之間,嘗試著開辟一條「中間路線」。它既通過「草稿紙機(jī)制」,揭示了后綴 token 對(duì)于 dLLM 全局規(guī)劃能力的重要性;又向 Block Diffusion 靠攏,通過稀疏化后綴 token 大幅提升了推理效率。
DPad 的提出預(yù)示著我們似乎并不需要在速度和規(guī)劃能力之間做出非此即彼的選擇。未來,若將 DPad 的思想引入到模型的微調(diào)甚至預(yù)訓(xùn)練階段,或許能博采眾長(zhǎng),訓(xùn)練出更高效、更強(qiáng)大的下一代擴(kuò)散大語言模型。




































