偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="fflhh"></cite><style id="fflhh"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

推理速度10倍提升，螞蟻集團(tuán)開源業(yè)內(nèi)首個高性能擴(kuò)散語言模型推理框架dInfer

2025-10-14 08:58:00

人工智能新聞

dInfer 的誕生，不僅是一個工具的發(fā)布，更是一次 LLM 范式的試煉：它證明了擴(kuò)散語言模型的效率潛力并非空中樓閣，而是可以通過系統(tǒng)性的創(chuàng)新工程兌現(xiàn)，使其成為 AGI 道路上極具競爭力的選項。

近日，螞蟻集團(tuán)正式開源業(yè)界首個高性能擴(kuò)散語言模型（Diffusion Large Language Model，dLLM）推理框架 dInfer。

在基準(zhǔn)測試中，dInfer 將 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上，并在關(guān)鍵的單批次（batch size=1）推理場景下，作為首個開源框架實現(xiàn)了大幅超越經(jīng)過高度優(yōu)化的自回歸（AR）模型的性能里程碑，在 HumanEval 上達(dá)到 1011 tokens / 秒的吞吐量。dInfer 通過一系列算法與系統(tǒng)協(xié)同創(chuàng)新，攻克了 dLLM 的推理瓶頸，兌現(xiàn)了其內(nèi)生并行生成帶來的推理效率潛力。

這不僅為開發(fā)者提供了即刻可用的高效推理框架，更標(biāo)志著擴(kuò)散語言模型這一全新的范式邁出了走向成熟的堅實一步。

論文鏈接：https://arxiv.org/abs/2510.08666
項目地址：https://github.com/inclusionAI/dInfer

理論的「翅膀」，現(xiàn)實的「枷鎖」：擴(kuò)散語言模型的推理困境

近年來，以自回歸（Autoregressive，AR）范式為核心的大語言模型（Large Language Models）已經(jīng)取得了巨大的成功，推動了智能問答、代碼生成、智能體助手等領(lǐng)域的重大進(jìn)步。然而，AR 生成范式也存在其固有瓶頸：生成過程完全依賴前序結(jié)果，必須逐詞串行生成，這導(dǎo)致推理延時難以降低，即使 GPU 的并行計算能力強(qiáng)大也無用武之地。

作為一種全新的范式，擴(kuò)散語言模型（dLLM）應(yīng)運而生。它將文本生成視為一個「從隨機(jī)噪聲中逐步恢復(fù)完整序列」的去噪過程。這種模式天然具備三大優(yōu)勢：

高度并行：理論上可以在單次迭代中，并行地預(yù)測和更新序列中的多個 token 。
全局視野：模型的每一步?jīng)Q策都基于對整個序列的全局上下文理解，而非僅依賴于已生成的部分。
結(jié)構(gòu)靈活：更易于適應(yīng)多模態(tài)、代碼生成等需要復(fù)雜結(jié)構(gòu)和長程依賴的任務(wù) 。

憑借這些優(yōu)勢，以 LLaDA-MoE 為代表的 dLLM 已在多個基準(zhǔn)測試中，展現(xiàn)出與頂尖 AR 模型相媲美的準(zhǔn)確性。然而在推理效率方面，dLLM 理論上的強(qiáng)大潛能，卻長期被殘酷的現(xiàn)實「枷鎖」所束縛。dLLM 的高效推理面臨三大核心挑戰(zhàn)：

高昂的計算成本：多步迭代去噪的特性，意味著模型需要反復(fù)對整個序列進(jìn)行計算，這帶來了巨大的算力開銷。
KV 緩存的失效：dLLM 中的雙向注意力機(jī)制，使得 token 對應(yīng)的 KV 值在每次迭代中都會改變。這導(dǎo)致 AR 模型中「一次計算、永久復(fù)用」的 KV 緩存技術(shù)直接失效，使得推理過程異常昂貴。
并行解碼的雙刃劍：盡管理論上可以并行生成序列中的所有 token，但在難以精準(zhǔn)刻畫其聯(lián)合概率分布的情況下一次性解碼太多 token，極易引發(fā)彼此間的語義錯配，導(dǎo)致「并行越多，質(zhì)量越差」的窘境。

這些瓶頸使得 dLLM 的推理速度一直不盡人意，其并行生成帶來的效率淪為「紙上談兵」。如何打破枷鎖，釋放 dLLM 在推理效率的潛能，成為整個領(lǐng)域亟待解決的難題。

dInfer：人人可上手的擴(kuò)散語言模型高效推理框架

為徹底突破上述瓶頸，螞蟻集團(tuán)推出了 dInfer—— 一個專為 dLLM 設(shè)計的、算法與系統(tǒng)深度協(xié)同的高性能推理框架，可支持多種擴(kuò)散語言模型，包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。

dInfer 的設(shè)計哲學(xué)是模塊化與可擴(kuò)展性，以系統(tǒng)性集成算法與系統(tǒng)優(yōu)化。如下圖所示，dInfer 包含四大核心模塊：模型接入（Model）、KV 緩存管理器（KV-Cache Manager），擴(kuò)散迭代管理器（Iteration Manager），和解碼策略（Decoder）。

這種可插拔的架構(gòu)，允許開發(fā)者像搭樂高一樣，進(jìn)一步組合和探索不同模塊的優(yōu)化策略，并在統(tǒng)一的平臺上進(jìn)行標(biāo)準(zhǔn)化評測。更重要的是，dInfer 針對上述三大挑戰(zhàn)，在每個模塊中都集成了針對性的解決方案。

dInfer 如何「快」起來？

1.削減計算成本，控制生成質(zhì)量：鄰近 KV 緩存刷新 (Vicinity KV-Cache Refresh)

dLLM 使用雙向注意力機(jī)制讓模型獲得更全局的視野，代價是每次解碼會影響所有的 token 的 KV 值，導(dǎo)致 AR 模型依賴的 KV 緩存技術(shù)不能直接應(yīng)用到 dLLM 上。如果不使用任何 KV 緩存，在一個 sequence 上的一次 diffusion 迭代會導(dǎo)致大量的計算。

為了削減計算成本，F(xiàn)ast-dLLM 提出的將 sequence 劃分為 block，然后再逐個對 block 進(jìn)行解碼，并在當(dāng)前解碼 block 之外進(jìn)行 KV 緩存的方法，可以有效降低 diffusion 迭代的計算成本。然而雖然利用上了 KV 緩存，但在大部分情況下，緩存中的 KV 實際上是過時的，因此會導(dǎo)致生成質(zhì)量的下降。

為了緩解這一問題，dInfer 采取了一種鄰近刷新的策略：KV 緩存過時的原因是 dLLM 中一個新 token 的確定，會影響全局所有 token 的 KV 表示。而 dInfer 基于「語義局部性」原理（一個詞的更新，對其近鄰詞的影響最大），在每次迭代解碼一個 block 時，dInfer 只選擇性地重新計算該區(qū)塊及其鄰近一小片區(qū)域的 KV，而讓遠(yuǎn)處的緩存保持不變。這好比修改文檔中的一句話，你只需檢查上下文是否通順，而無需重讀整篇文章。

這種策略結(jié)合 dInfer 的其它優(yōu)化，在計算開銷和生成質(zhì)量之間取得了平衡，首次讓 KV 緩存機(jī)制在 dLLM 上高效、可靠地運作起來。

2.系統(tǒng)優(yōu)化：讓 dLLM 的前向運算速度追上 AR

在利用上 KV 緩存之后，dInfer 選擇了合適的 block 大小和 Vicinity KV-Cache Refresh 的范圍，并做了一系列的系統(tǒng)優(yōu)化，以使 dLLM 一次迭代的速度能追上運行在 SOTA 的推理服務(wù)框架如 vLLM 上的 AR 模型，包括：

多卡并行：結(jié)合了張量并行 (TP) 與專家并行 (EP)，即使在 batch size=1 的條件下，也能充分利用 GPU 的算力，效率提升超 100%。
編譯優(yōu)化：通過 torch.compile 進(jìn)行內(nèi)核融合并編譯為 CUDA Graph 執(zhí)行，消除了 PyTorch 框架的執(zhí)行開銷，結(jié)合上述的多卡并行，可讓效率提升 200%。
消除迭代之間的氣泡：采用循環(huán)展開 (Loop Unrolling) 技術(shù)，讓 Python 可以連續(xù)不斷地啟動 CUDA 內(nèi)核，消除了迭代間的 GPU 空閑氣泡，帶來 5-10% 的性能提升。
早停：在生成 EOS token 后，跳過后續(xù) block 的推理過程，可以減少 5-40% 不必要的開銷。

3.并行解碼：層級解碼 (Hierarchical) 與信用解碼 (Credit)

為了在保證生成質(zhì)量的前提下，最大化并行解碼的 token 數(shù)量，dInfer 提出了兩種無需額外訓(xùn)練的解碼算法：

層級解碼 (Hierarchical Decoding)：該算法借鑒了「分治」思想，將待解碼的區(qū)域不斷遞歸地一分為二，并優(yōu)先在每個子區(qū)域的中心位置解碼 token 。這種方式自然地拉開了新生 token 間的距離，減少了它們之間的語義干擾。在理想情況下，它能以近似對數(shù)級的復(fù)雜度完成多點并行生成，既快又穩(wěn) 。
信用解碼 (Credit Decoding)：在多輪迭代中，有些正確的 token 可能很早就被模型穩(wěn)定地預(yù)測出來，但因其單次置信度未能「達(dá)標(biāo)」而被反復(fù)重算。dInfer 為此引入了「累積信用」機(jī)制，持續(xù)追蹤并累積每個 token 在歷史迭代中的置信表現(xiàn) 。一個長期被穩(wěn)定預(yù)測的 token，即使當(dāng)前置信度稍低，也能憑借高累積信用被「破格」解碼，從而有效避免了大量冗余計算。

4.壓榨每步迭代價值：迭代平滑 (Iteration Smoothing)

傳統(tǒng) dLLM 在每輪迭代中，只利用了置信度最高的 token 信息，而將其他位置的概率分布整個丟棄。dInfer 的迭代平滑算法，旨在回收這些被浪費的信息。

它基于未解碼位置的 logits 分布得到該位置的加權(quán) Embedding，并將其作為寶貴先驗知識，平滑地融入下一輪迭代的 Embedding 中。這極大地豐富了上下文信息，使得單次迭代解碼的 token 數(shù)量平均提升了 30-40%。

此外，由于 dInfer 可以無障礙地接入多種擴(kuò)散語言模型，此次率先支持了基于軌跡蒸餾（Trajectory Distillation）加速 diffusion 去噪過程的 LLaDA-MoE-TD 模型，推理性能更強(qiáng)。

實測數(shù)據(jù)：里程碑式的性能飛躍

在配備 8 塊 NVIDIA H800 GPU 的節(jié)點上，dInfer 的性能表現(xiàn)令人矚目。

Figure2：評測數(shù)據(jù)

10 倍性能提升：在與先前的 dLLM 推理方案 Fast-dLLM 的對比中，dInfer 在模型效果持平的情況下，平均推理速度（avg TPS）實現(xiàn)了 10.7 倍的巨大提升（681 vs 63.6）。
超越自回歸：與在業(yè)界頂尖的推理服務(wù)框架 vLLM 上運行的、參數(shù)量和性能相當(dāng)?shù)?AR 模型 Qwen2.5-3B 相比，dInfer 的平均推理速度是其 2.5 倍（681 vs 277）。
突破推理極速：在代碼生成任務(wù) HumanEval 上，dInfer 在單批次推理中創(chuàng)造了 1011 tokens / 秒的紀(jì)錄。這是開源社區(qū)首次見證，擴(kuò)散語言模型在延遲敏感的單批次推理場景下，速度顯著超越經(jīng)過高度優(yōu)化的自回歸模型。

更進(jìn)一步，當(dāng)結(jié)合軌跡蒸餾（Trajectory Distillation）技術(shù)（一種讓模型學(xué)會「跳躍式」去噪的后訓(xùn)練優(yōu)化方法）后，dInfer 的平均推理速度飆升至 847 TPS，實現(xiàn)了超過 3 倍于 AR 模型的性能。

開源開放：共建下一代 AI 推理新生態(tài)

dInfer 的誕生，不僅是一個工具的發(fā)布，更是一次 LLM 范式的試煉：它證明了擴(kuò)散語言模型的效率潛力并非空中樓閣，而是可以通過系統(tǒng)性的創(chuàng)新工程兌現(xiàn)，使其成為 AGI 道路上極具競爭力的選項。

目前，dInfer v0.1 的全部代碼、技術(shù)報告與實驗配置已開源。

螞蟻希望 dInfer 能成為：

研究者的標(biāo)準(zhǔn)平臺：為 dLLM 領(lǐng)域的算法創(chuàng)新提供一個公平、高效的試驗場。
開發(fā)者的加速引擎：助力社區(qū)將強(qiáng)大的 dLLM 輕松部署到實際應(yīng)用中，享受極致性能。

dInfer 連接了前沿研究與產(chǎn)業(yè)落地，標(biāo)志著擴(kuò)散語言模型從「理論可行」邁向「實踐高效」的關(guān)鍵一步。我們誠邀全球的開發(fā)者與研究者一同加入，共同探索擴(kuò)散語言模型的廣闊未來，構(gòu)建更加高效、開放的 AI 新生態(tài)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型開源

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營