偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="33b77"></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

DPad：擴(kuò)散大語言模型的中庸之道，杜克大學(xué)陳怡然團(tuán)隊(duì)免訓(xùn)推理加速61倍

2025-09-10 09:15:00

人工智能新聞

杜克大學(xué)陳怡然團(tuán)隊(duì)另辟蹊徑，揭示了 dLLM 中實(shí)現(xiàn)全局規(guī)劃的「草稿紙機(jī)制」，并發(fā)現(xiàn)其存在高度冗余。

論文作者團(tuán)隊(duì)：來自杜克大學(xué) CEI Center，由實(shí)習(xí)生陳欣驊、黃思韜及郭聰博士共同完成，指導(dǎo)教師為李海教授、陳怡然教授。

擴(kuò)散大語言模型（dLLMs）憑借并行解碼與獨(dú)特的全局規(guī)劃能力，有望解決自回歸（AR）大模型的效率瓶瓶頸和規(guī)劃能力缺陷。但其「全局規(guī)劃」能力依賴于其雙向注意力對(duì)所有后文的關(guān)注，這帶來了嚴(yán)重的計(jì)算冗余，從而導(dǎo)致現(xiàn)有開源模型的潛力遠(yuǎn)遠(yuǎn)未被釋放。

當(dāng)前的 dLLM 存在「路線之爭(zhēng)」：一是保留全局規(guī)劃能力但推理效率極低的「全局雙向注意」（如 LLaDA），二是追求速度卻犧牲規(guī)劃能力的「塊內(nèi)雙向注意」（如 Block Diffusion）。如何在這兩條路線之間調(diào)和折中，讓模型既能「著眼全局」，又能加速推理，已成為學(xué)界日益關(guān)注的問題。

針對(duì)以上問題，杜克大學(xué)陳怡然團(tuán)隊(duì)另辟蹊徑，揭示了 dLLM 中實(shí)現(xiàn)全局規(guī)劃的「草稿紙機(jī)制」，并發(fā)現(xiàn)其存在高度冗余。據(jù)此，他們提出免訓(xùn)練方法 DPad（Diffusion Scratchpad），通過先驗(yàn)地丟棄大量無效后綴 token，既極大地降低了計(jì)算量，又保留了核心規(guī)劃能力，嘗試在兩條路線中走出一條「中間路線」。該方法與現(xiàn)有優(yōu)化技術(shù)結(jié)合后，在幾乎無損的模型精度下，可實(shí)現(xiàn)高達(dá) 61.4 倍的推理加速。

論文標(biāo)題：DPad: Efcient Difusion Language Models with Sufx Dropout
論文地址：https://arxiv.org/abs/2508.14148
代碼地址：https://github.com/Crys-Chen/DPad

dLLM 獨(dú)特的「草稿紙」機(jī)制：實(shí)時(shí)記錄語義信息

不同于自回歸模型，dLLM 采用雙向注意力機(jī)制，在解碼時(shí)既能回顧前文，也能「展望」后文?；谶@一點(diǎn)，文本序列可被清晰地劃分為三部分：

前綴 token (Prefix Tokens)：已完全解碼的文本，語義和位置信息完整。
當(dāng)前塊 token (Current Block)：正在解碼的文本，擁有部分語義和完整的位置信息。
后綴 token (Suffix Tokens)：使用 Mask 初始化的未來文本，僅有位置信息，初始沒有語義信息?？稍诿繉?Transformer block 執(zhí)行的過程中，逐步記錄語義信息，對(duì)未來的文本進(jìn)行規(guī)劃。

研究團(tuán)隊(duì)通過分析雙向注意力機(jī)制后發(fā)現(xiàn)：dLLM 中的后綴 token 是一種獨(dú)特的「草稿紙」。模型在解碼「當(dāng)前塊」時(shí)，會(huì)巧妙將這些后綴 token 作為臨時(shí)存儲(chǔ)空間，用于在每一層 Transformer block 中記錄自己對(duì)后文的構(gòu)思。這種方法能夠?qū)崿F(xiàn)對(duì)整個(gè)文本的規(guī)劃，使輸出的前后文更一致，提高語言模型的整體性能。

草稿紙機(jī)制示意圖。左圖顯示在淺層（Layer 0），信息從 Prefix 和 Current「寫入」（DPad Writing）到 Suffix 區(qū)域。右圖顯示在深層（Layer 1），信息被 Current Block 從 Suffix 區(qū)域「讀取」（DPad Reading）回來，輔助解碼。

如上圖所示，前綴、當(dāng)前和后綴三種類型將注意力分?jǐn)?shù)分為了 9 個(gè)區(qū)域，使得模型的前向過程存在一個(gè)「寫—讀」的工作流：

寫入 (Write)：在第 0 層 Transformer block，后綴 token 通過注意力機(jī)制，從前綴（⑦）和當(dāng)前（⑧）塊中捕獲信息。這個(gè)過程相當(dāng)于模型對(duì)后文的構(gòu)思作為「草稿」記錄下來。
讀取 (Read)：在第 1 層 Transformer block，當(dāng)前塊反過來從后綴 token 讀取信息（⑥）。此時(shí)的后綴 token 已不再是「白板」，而是承載了上一層寫入的「草稿」。所以從后文讀取的信息可以用于輔助當(dāng)前塊的解碼。

研究團(tuán)隊(duì)認(rèn)為，這種「寫—讀」的行為就像一本「草稿紙」，將模型在淺層對(duì)后文的構(gòu)思傳遞到深層——這正是 dLLM 具備強(qiáng)大全局規(guī)劃能力的關(guān)鍵。它讓模型在生成當(dāng)前內(nèi)容的同時(shí)，能初步構(gòu)思和約束未來的生成方向，實(shí)現(xiàn)了前后文的協(xié)同共進(jìn)。

符合直覺的發(fā)現(xiàn)：「草稿紙」也要詳略得當(dāng)

DPad 的核心思想，源于一個(gè)非常符合直覺的類比。想象一下您在創(chuàng)作一部鴻篇巨制：

對(duì)于當(dāng)前章節(jié)，你會(huì)反復(fù)修改，精雕細(xì)琢。
對(duì)于臨近幾章，你會(huì)先列好提綱，構(gòu)思重點(diǎn)情節(jié)，確保情節(jié)自然銜接。
對(duì)于后續(xù)章節(jié)，或許只是隨手記下幾個(gè)天馬行空的靈感，寥寥幾筆。

DPad 正是基于這一思想，避免讓作者（dLLM）在創(chuàng)作每個(gè)章節(jié)（當(dāng)前塊 Token）時(shí)，對(duì)所有未來的「草稿紙」（后綴 Token）進(jìn)行強(qiáng)行填充，從而，才能集中注意力并節(jié)省資源（降低算力和存儲(chǔ)）。其核心思想便是聚焦當(dāng)下，展望未來，留白長(zhǎng)遠(yuǎn)，讓模型的每一次「下筆」都更加高效。

通過對(duì) dLLM 注意力機(jī)制的分析，研究團(tuán)隊(duì)發(fā)現(xiàn)了支撐這種核心思想的關(guān)鍵性數(shù)據(jù)：

「草稿紙」大量冗余：離當(dāng)前塊較遠(yuǎn)的后綴 token 往往被寫入了極其相似的「草稿」，其中大部分成了無效計(jì)算。
注意力隨距離衰減：對(duì)當(dāng)前解碼起關(guān)鍵作用的，主要是附近少數(shù)幾頁「草稿紙」，遠(yuǎn)處的「草稿」重要性顯著降低。

預(yù)先解碼出來的后綴 token 存在大量重復(fù)。

當(dāng)前塊對(duì)后綴 token 的注意力分?jǐn)?shù)圖。可以看到，注意力（綠線）在進(jìn)入 Suffix 區(qū)域后迅速衰減，表明遠(yuǎn)處 token 的影響力逐漸減小。

那么，是否可以更大膽一些呢？如下圖所示，研究人員進(jìn)行了一個(gè)反直覺的實(shí)驗(yàn)：強(qiáng)行刪除那些注意力分?jǐn)?shù)最高的遠(yuǎn)端 token。出人意料的是，準(zhǔn)確率幾乎沒有任何損失！dLLM 似乎有「自愈能力」，會(huì)將注意力自動(dòng)轉(zhuǎn)移到鄰近 token 上，補(bǔ)償丟失的信息。

這個(gè)「注意力遷移」現(xiàn)象有力地證明：比起某一張?zhí)囟ㄎ恢玫摹覆莞寮垺?，dLLM 其實(shí)僅要求在未來某個(gè)位置區(qū)間內(nèi)存在可用的「草稿紙」即可。因此，與其空耗算力確定重要 token 的位置，不如直接先驗(yàn)丟棄。

左圖展示了 dLLM 中當(dāng)前塊 token 對(duì)后綴 token 的注意力分布：整體隨距離衰減，遠(yuǎn)端 token 偶爾出現(xiàn)「尖峰」（如 d = 362）。當(dāng)刪除這些尖峰 token 后（右圖），模型的注意力并沒有消失，而是自然地轉(zhuǎn)移到了鄰近的 token 上（如，362 號(hào) token 的注意力被轉(zhuǎn)移到 359 號(hào)）。

DPad：簡(jiǎn)單高效的「先驗(yàn)丟棄」

基于以上洞見，DPad 方法應(yīng)運(yùn)而生。它的核心思想是：與其等模型算完再「剪枝」，不如在解碼開始前，就先驗(yàn)地丟掉一批冗余的「草稿紙」。DPad 的實(shí)現(xiàn)非常簡(jiǎn)潔，主要包含兩大策略：

滑動(dòng)窗口 (Sliding Window)：只保留當(dāng)前解碼位置附近一個(gè)固定長(zhǎng)度的后綴窗口作為「草稿紙」，遠(yuǎn)處的直接丟棄。
「近多遠(yuǎn)少」采樣 (Distance-decay Dropout)：在滑動(dòng)窗口內(nèi)部，根據(jù)「越近越重要」的原則，以一個(gè)隨距離遞減的概率保留后綴 token。

(a) 自回歸模型；(b) 傳統(tǒng) dLLM，需要關(guān)注所有后綴 token；(c) DPad，僅關(guān)注附近少數(shù)經(jīng)過篩選的后綴 token。

實(shí)驗(yàn)結(jié)果：更快更準(zhǔn)

DPad 在 LLaDA 和 Dream 系列等多個(gè)主流 dLLM 上進(jìn)行了全面測(cè)試，結(jié)果喜人。

大幅提升推理效率

在現(xiàn)實(shí)的長(zhǎng)輸出場(chǎng)景（少示例、長(zhǎng)回答）中，DPad 可謂大放異彩：

在 GSM8K 數(shù)據(jù)集上，DPad 為 LLaDA-1.5 帶來了 20.3 倍的單獨(dú)加速比。
與 Fast-dLLM 等并行解碼技術(shù)結(jié)合后，綜合加速比高達(dá) 61.39 倍。
在 HumanEval 數(shù)據(jù)集上，當(dāng)輸出長(zhǎng)度達(dá)到 2048 個(gè) token 時(shí)，DPad 與 Fast-dLLM 的組合為 Dream 模型帶來了 97.32 倍的驚人加速。

圖 6 在 GSM8K（1024 tokens, 1-shot）任務(wù)上，DPad 結(jié)合其他優(yōu)化技術(shù)，讓 LLaDA-1.5 實(shí)現(xiàn)了 61.39 倍的加速。

在 HumanEval（2048 tokens, 0-shot）任務(wù)上，DPad 結(jié)合其他優(yōu)化技術(shù)，讓 Dream-Base 實(shí)現(xiàn)了 97.32 倍的加速。

意外之喜：顯著提升語境學(xué)習(xí)能力 (In-Context Learning)

通常，推理加速會(huì)以犧牲部分模型精度為代價(jià)。但 DPad 卻帶來了意外的驚喜：在多個(gè)任務(wù)上，尤其是在 LLaDA 系列模型上，它不僅沒有降低精度，反而顯著提升了模型的準(zhǔn)確率，尤其是「嚴(yán)格匹配」（Strict Match）得分。

「嚴(yán)格匹配」不僅要求答案正確，還要求模型嚴(yán)格遵循輸入示例給出的格式，是衡量模型語境學(xué)習(xí)能力的關(guān)鍵指標(biāo)。

在 GSM8K 任務(wù)中，原始模型（左）雖然算對(duì)了答案（通過 Flexible-Match），但未能按要求格式輸出答案，未能通過 Strict-Match。而應(yīng)用了 DPad 的模型（右），則精準(zhǔn)復(fù)刻了示例格式，同時(shí)給出了正確答案。

DPad 在 LLaDA-Instruct 上與原始模型 (Vanilla) 和 Fast-dLLM 的對(duì)比

DPad 在 LLaDA-1.5 上與原始模型 (Vanilla) 和 Fast-dLLM 的對(duì)比

DPad 在 Dream-Base 上與原始模型 (Vanilla) 和 Fast-dLLM 的對(duì)比

DPad 團(tuán)隊(duì)認(rèn)為，這是因?yàn)閬G棄了大量冗余的后綴 token 后，模型能將更多注意力集中在信息量豐富的前綴 token（prompt）上，從而更好地理解和學(xué)習(xí)示例中蘊(yùn)含的格式與規(guī)范。

總結(jié)與展望

面對(duì)當(dāng)前 dLLM 的兩條路線之爭(zhēng)，DPad 巧妙地介于兩者之間，嘗試著開辟一條「中間路線」。它既通過「草稿紙機(jī)制」，揭示了后綴 token 對(duì)于 dLLM 全局規(guī)劃能力的重要性；又向 Block Diffusion 靠攏，通過稀疏化后綴 token 大幅提升了推理效率。

DPad 的提出預(yù)示著我們似乎并不需要在速度和規(guī)劃能力之間做出非此即彼的選擇。未來，若將 DPad 的思想引入到模型的微調(diào)甚至預(yù)訓(xùn)練階段，或許能博采眾長(zhǎng)，訓(xùn)練出更高效、更強(qiáng)大的下一代擴(kuò)散大語言模型。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="n34aj"><acronym id="n34aj"></acronym></thead>

<var id="n34aj"></var>

<blockquote id="n34aj"></blockquote>

<bdo id="n34aj"></bdo>