偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

推理效率狂飆60倍：DiDi-Instruct讓擴(kuò)散大模型16步超越千步GPT

2025-10-28 08:50:00

人工智能新聞

DiDi-Instruct 提出了一種獨創(chuàng)的概率分布匹配的后訓(xùn)練策略，可以將原本需要 500 步以上的昂貴的擴(kuò)散語言 “教師”（diffusion Large Language Model, dLLM）模型，蒸餾成一個僅需 8-16 步生成整個文本段落的 “學(xué)生” 模型。

近日，來自普渡大學(xué)、德克薩斯大學(xué)、新加坡國立大學(xué)、摩根士丹利機(jī)器學(xué)習(xí)研究、小紅書 hi-lab 的研究者聯(lián)合提出了一種對離散擴(kuò)散大語言模型的后訓(xùn)練方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。經(jīng)過 DiDi-Instruct 后訓(xùn)練的擴(kuò)散大語言模型可以以 60 倍的加速超越傳統(tǒng)的 GPT 模型和擴(kuò)散大語言模型。

DiDi-Instruct 蒸餾得到的 “學(xué)生” 模型與教師模型、GPT-2 的文本生成效率對比。

DiDi-Instruct 提出了一種獨創(chuàng)的概率分布匹配的后訓(xùn)練策略，可以將原本需要 500 步以上的昂貴的擴(kuò)散語言 “教師”（diffusion Large Language Model, dLLM）模型，蒸餾成一個僅需 8-16 步生成整個文本段落的 “學(xué)生” 模型。在 OpenWebText 標(biāo)準(zhǔn)數(shù)據(jù)集上，DiDi-Instruct 語言模型既實現(xiàn)了超過 64 倍以上的推理加速，又在性能上同時顯著超越了被蒸餾的教師擴(kuò)散語言模型（dLLM，1024 步生成）和自回歸的 GPT2 模型（1024 步生成）。DiDi-Instruct 算法同時提升了大語言模型的推理效率和推理效果。為極端高效的大語言模型落地提供了新的方案。

論文標(biāo)題：Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct
論文鏈接：www.arxiv.org/abs/2509.25035
代碼倉庫：github.com/haoyangzheng-ai/didi-instruct
項目地址：haoyangzheng.github.io/research/didi-instruct

研究背景 | 大語言模型生成的 “速度極限” 是多少？

近年來，以自回歸（ARMs）范式為核心的大語言模型（如 ChatGPT，DeepSeek 等模型）取得了巨大成功。然而，自回歸模型逐詞串行生成的固有瓶頸，使其在長文本生成時面臨難以逾越的延遲 “天花板”，即使強大的并行計算硬件也無計可施。作為一種新興的替代范式，擴(kuò)散語言模型（后文將用 dLLM 指代）應(yīng)運而生。dLLM 將文本生成重塑為一個從完全噪聲（或掩碼）序列中迭代去噪、恢復(fù)出完整文本的過程。這一模式天然支持并行化語言段落生成，相較于自回歸模型生成速度更快。然而盡管如此，現(xiàn)有最好的 dLLM 在同等模型尺寸下為了達(dá)到與 GPT-2 相當(dāng)?shù)男阅?，仍然需要多達(dá)上百次模型迭代。這個困境不禁讓人疑惑：是否存在模型在極端少的迭代次數(shù)下（如 8-16 次迭代）下能顯著超越 1024 次迭代的 GPT 模型？

破局者 | DiDi-Instruct：分布匹配訓(xùn)練實現(xiàn)語言模型極致加速

在上述研究背景下，本篇文章提出了 DiDi-Instruct。簡而言之，DiDi-Instruct 是一個 dLLM 的后訓(xùn)練算法。一個 dLLM 通過 DiDi-Instruct 算法訓(xùn)練蒸餾之后，可以將原本的 1024 次推理次數(shù)壓縮至 8 到 16 步，同時可以顯著提升的 dLLM 的建模效果。

DiDi-Instruct 的理論來源于連續(xù)擴(kuò)散模型中的一個經(jīng)典單步蒸餾算法：Diff-Instruct。從理論上看，DiDi-Instruct 訓(xùn)練算法的核心思想是最小化一個少采樣步數(shù)的 “學(xué)生” 模型與多采樣步數(shù)的 “教師” dLLM 模型在整個離散 Token 去噪軌跡上分布的積分 KL 散度（Integral Kullback-Leibler Divergence）。該目標(biāo)把不同時間的 KL 以權(quán)重積分匯總，避免只對齊末端樣本而訓(xùn)練不穩(wěn)的問題，從而讓學(xué)生以一種全局、全過程匹配的方式，高效 “學(xué)習(xí)” 教師的精髓。一旦積分 KL 散度被優(yōu)化至收斂（接近 0 值），少步生成的 “學(xué)生” 模型便在概率意義上吸收了 "教師 dLLM" 的知識。

DiDi-Instruct 流程示意：學(xué)生模型（Student）與教師模型（Teacher）從全掩碼序列重建 “干凈文本”，并同時進(jìn)行加噪處理。隨后，判別器（Discriminator）對兩者輸出進(jìn)行區(qū)分并給出獎勵分?jǐn)?shù)，用作學(xué)生模型的更新信號，使其在后續(xù)生成中逼近教師分布。經(jīng)過反復(fù)迭代，Student 能以更少步數(shù)獲得接近 Teacher 的生成質(zhì)量。

然而，想要直接優(yōu)化積分 KL 散度面臨諸多例如離散文本不可微分等理論困難。針對這些挑戰(zhàn)，DiDi-Instruct 提出了一套系統(tǒng)性的解決方案，其關(guān)鍵創(chuàng)新包括：

基于策略梯度的分布匹配目標(biāo)：DiDi-Instruct 巧妙地將蒸餾目標(biāo)重構(gòu)為一種策略梯度（Policy Gradient）的數(shù)學(xué)形式，然后通過引入一個獎勵函數(shù)來指導(dǎo)學(xué)生模型的更新，優(yōu)雅地繞過了在離散空間中求導(dǎo)的難題。
通過對抗學(xué)習(xí)動態(tài)塑造獎勵函數(shù)：為了獲得上述獎勵信號，DiDi-Instruct 引入了一個輔助的判別器網(wǎng)絡(luò)（discriminator）。該網(wǎng)絡(luò)通過對抗訓(xùn)練，學(xué)習(xí)區(qū)分 “學(xué)生” 和 “教師” 在任意中間步驟生成的噪聲樣本，其輸出的對數(shù)密度比（log-density ratio）便構(gòu)成了指導(dǎo)學(xué)生優(yōu)化的精確獎勵信號。
穩(wěn)定訓(xùn)練與高質(zhì)量推理的關(guān)鍵技術(shù)：DiDi-Instruct 還引入多項關(guān)鍵設(shè)計對該方法進(jìn)行系統(tǒng)性優(yōu)化，以穩(wěn)定訓(xùn)練、緩解熵坍塌、提升推理質(zhì)量。

分組獎勵歸一化（Grouped Reward Normalization）：借鑒深度求索（DeepSeek）提出的組相對策略優(yōu)化（GRPO），DiDi-Instruct 在每個小批量（mini-batch）內(nèi)對獎勵進(jìn)行標(biāo)準(zhǔn)化。該操作顯著降低了訓(xùn)練梯度的方差，有效提升了訓(xùn)練的穩(wěn)定性。
分步式中間狀態(tài)匹配（Intermediate-state Matching）：通過分解梯度信息，DiDi-Instruct 使學(xué)生模型在訓(xùn)練中接觸到不同噪聲水平的中間狀態(tài)。這個機(jī)制有效緩解了困擾許多后訓(xùn)練算法的模型熵坍塌問題（mode collapse），保證了學(xué)生模型真正學(xué)習(xí)到生成復(fù)雜，多樣性的內(nèi)容。
獎勵驅(qū)動的祖先采樣（Reward-guided Ancestral Sampling）：在推理階段，利用訓(xùn)練好的判別器獲得獎勵信號，對生成過程進(jìn)行 “梯度引導(dǎo) + 多候選重排序”，進(jìn)一步提升了最終生成文本的質(zhì)量。

DiDi-Instruct 后訓(xùn)練算法。

獎勵驅(qū)動的祖先采樣算法。

科學(xué)實驗 | 效率與性能的雙重飛躍

研究團(tuán)隊在公開的 OpenWebText 數(shù)據(jù)集上進(jìn)行了詳盡的實驗，結(jié)果出人出人意料：經(jīng)過 DiDi-Instruct 后訓(xùn)練的語言模型在效率和效果上得到了雙重提升。

1. 性能與質(zhì)量新標(biāo)桿：DiDi-Instruct 在生成質(zhì)量和效率上均達(dá)到了新的 SOTA 水平。該工作系統(tǒng)性地將 DiDi-Instruct 與 GPT-2、MDLM、DUO、SDTT 等多個基準(zhǔn)模型進(jìn)行了比較。結(jié)果顯示，在 OpenWebText 數(shù)據(jù)集上，DiDi-Instruct 在 8 到 128 步的所有函數(shù)評估次數(shù)（NFEs）設(shè)置下，其困惑度（Perplexity）指標(biāo)全面且持續(xù)地優(yōu)于所有基準(zhǔn)模型。一個尤為亮眼的成果是，僅需 16 步函數(shù)評估，DiDi-Instruct 生成的文本質(zhì)量 Perplexity（PPL）就已經(jīng)超越了需要 1024 步才能完成生成的教師模型，相比最強的基線模型提升超過 30%。同時，這些性能增益是在幾乎沒有熵?fù)p失（約 1%）的情況下實現(xiàn)的，充分保證了生成內(nèi)容的多樣性。

DiDi-Instruct 蒸餾所得學(xué)生模型與基準(zhǔn)模型在不同函數(shù)評估次數(shù)（NFEs）下的文本生成困惑度（PPL）對比。

2. 訓(xùn)練效率大幅提升：DiDi-Instruct 不僅生成質(zhì)量高，其訓(xùn)練（蒸餾）過程也極為高效。出人意料的時候，整個蒸餾框架的訓(xùn)練僅需在單張 NVIDIA H100 GPU 上運行約 1 小時即可完成。相比之下，其他同類蒸餾方法（基線模型）通常需要超過倍以上的訓(xùn)練時間。這意味著 DiDi-Instruct 將訓(xùn)練效率提升了超過 20 倍，極大地降低了開發(fā)者迭代和部署高性能生成模型的門檻。

3. 跨領(lǐng)域通用性驗證：研究團(tuán)隊在報告中指出，DiDi-Instruct 的蒸餾框架是為離散擴(kuò)散模型設(shè)計的，并不局限于語言模型。為了驗證這一點，團(tuán)隊將其成功應(yīng)用于一個完全不同的領(lǐng)域：無條件蛋白質(zhì)序列生成。他們使用一個預(yù)訓(xùn)練的蛋白質(zhì)語言擴(kuò)散模型（DPLM）作為教師模型進(jìn)行蒸餾。結(jié)果表明，蒸餾后的學(xué)生模型保留了教師模型生成可變長度序列的能力，同時大幅降低了推理成本。更重要的是，學(xué)生模型在極少步數(shù)下即可生成結(jié)構(gòu)合理的高置信度蛋白質(zhì)結(jié)構(gòu)。這一跨領(lǐng)域?qū)嶒炗辛Φ刈C實了 DiDi-Instruct 作為通用離散序列生成加速框架的巨大潛力。

由 DiDi-Instruct 蒸餾得到的學(xué)生模型生成的高置信度蛋白質(zhì)序列（pLDDT > 70）。

4. 深入消融實驗，探究各組件的核心貢獻(xiàn)：為了科學(xué)地驗證每個創(chuàng)新組件的必要性和貢獻(xiàn)，研究團(tuán)隊還進(jìn)行了詳盡的 “逐項累加”（cumulative）和 “逐一剔除”（leave-one-out）的消融研究。這些實驗揭示了模型性能的關(guān)鍵驅(qū)動因素：

中間狀態(tài)匹配是框架穩(wěn)定的基石：實驗表明，雖然單獨加入該模塊對性能提升有限，但在完整的模型中一旦移除，模型性能會災(zāi)難性下降（PPL > 30,000），證明了其在復(fù)雜優(yōu)化環(huán)境下的關(guān)鍵穩(wěn)定作用。
時間步耦合能高效提升蒸餾性能：該技術(shù)將 8 步生成下的困惑度從 600 + 驟降至 100 左右，凸顯了對齊獎勵信號與分?jǐn)?shù)函數(shù)中間狀態(tài)的重要性。而在目標(biāo)函數(shù)中增加權(quán)重信息則能進(jìn)一步提升模型訓(xùn)練效果。
正則化項扮的 “雙重角色”：在極少步數(shù)下（如 8 NFEs），它能有效穩(wěn)定訓(xùn)練，防止離散誤差導(dǎo)致訓(xùn)練目標(biāo)偏離。然而在更多步數(shù)（≥ 16 NFEs）的采樣中，移除正則化反而能取得更好的結(jié)果，這表明此時過強的約束會限制模型的表達(dá)能力。
引導(dǎo)式推理的作用解讀：在少步數(shù)（如 8 NFEs）時，它能顯著降低困惑度（困惑度相對改善約 30%），提升文本生成質(zhì)量。而在多步數(shù)下，它對困惑度影響甚微，但能顯著提升生成樣本的多樣性（熵從 5.00 提升至 5.15），這與獎勵驅(qū)動的祖先采樣設(shè)計的先 “梯度引導(dǎo)” 后 “多候選重排序” 的混合策略設(shè)計完美契合。

“逐項累加” 消融實驗結(jié)果見表 1，“逐一剔除” 消融實驗結(jié)果見表 2。

技術(shù)展望 | 開啟高效生成模型新范式

DiDi-Instruct 的提出，不僅是離散擴(kuò)散模型加速技術(shù)的一次技術(shù)突破，也為廣泛的大語言模型的極限加速，對齊和強化學(xué)習(xí)提供了新的思路。它首次成功地將分布匹配蒸餾思想應(yīng)用于基于掩碼的離散擴(kuò)散模型，并建立了一套集 “分布匹配目標(biāo)、穩(wěn)定訓(xùn)練、高效推理” 于一體的完整框架。這項工作展示了通過系統(tǒng)性的算法與框架設(shè)計，可以克服現(xiàn)階段大語言模型在生成效率上的瓶頸，使其成為下一代 AI 內(nèi)容生成中（多模態(tài)生成、代碼生成、生物序列設(shè)計等領(lǐng)域）極具競爭力的選項。我們非常期待將 DiDi-Instruct 應(yīng)用于最前沿的超大規(guī)模的擴(kuò)散語言模型的效果。

團(tuán)隊簡介

本論文第一作者鄭昊陽，目前于美國普渡大學(xué)攻讀博士學(xué)位，導(dǎo)師為林光老師。林光是普渡大學(xué)的 Moses Cobb Stevens 教授兼理學(xué)院副院長。論文的兩位通訊作者羅維儉和鄧偉分別是小紅書 hi-lab 的多模態(tài)研究員和紐約摩根士丹利的機(jī)器學(xué)習(xí)研究員。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

_{<tr id="7rzau"></tr>}

<var id="7rzau"></var>

<wbr id="7rzau"><td id="7rzau"></td></wbr>