偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

推理速度10倍提升,螞蟻集團(tuán)開源業(yè)內(nèi)首個高性能擴(kuò)散語言模型推理框架dInfer

人工智能 新聞
dInfer 的誕生,不僅是一個工具的發(fā)布,更是一次 LLM 范式的試煉:它證明了擴(kuò)散語言模型的效率潛力并非空中樓閣,而是可以通過系統(tǒng)性的創(chuàng)新工程兌現(xiàn),使其成為 AGI 道路上極具競爭力的選項。

近日,螞蟻集團(tuán)正式開源業(yè)界首個高性能擴(kuò)散語言模型(Diffusion Large Language Model,dLLM)推理框架 dInfer。

在基準(zhǔn)測試中,dInfer 將 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上,并在關(guān)鍵的單批次(batch size=1)推理場景下,作為首個開源框架實現(xiàn)了大幅超越經(jīng)過高度優(yōu)化的自回歸(AR)模型的性能里程碑,在 HumanEval 上達(dá)到 1011 tokens / 秒的吞吐量 。dInfer 通過一系列算法與系統(tǒng)協(xié)同創(chuàng)新,攻克了 dLLM 的推理瓶頸,兌現(xiàn)了其內(nèi)生并行生成帶來的推理效率潛力。

這不僅為開發(fā)者提供了即刻可用的高效推理框架,更標(biāo)志著擴(kuò)散語言模型這一全新的范式邁出了走向成熟的堅實一步。

  • 論文鏈接:https://arxiv.org/abs/2510.08666
  • 項目地址:https://github.com/inclusionAI/dInfer

理論的「翅膀」,現(xiàn)實的「枷鎖」:擴(kuò)散語言模型的推理困境

近年來,以自回歸(Autoregressive,AR)范式為核心的大語言模型(Large Language Models)已經(jīng)取得了巨大的成功,推動了智能問答、代碼生成、智能體助手等領(lǐng)域的重大進(jìn)步。然而,AR 生成范式也存在其固有瓶頸:生成過程完全依賴前序結(jié)果,必須逐詞串行生成,這導(dǎo)致推理延時難以降低,即使 GPU 的并行計算能力強(qiáng)大也無用武之地。

作為一種全新的范式,擴(kuò)散語言模型(dLLM)應(yīng)運而生 。它將文本生成視為一個 「從隨機(jī)噪聲中逐步恢復(fù)完整序列」的去噪過程 。這種模式天然具備三大優(yōu)勢:

  • 高度并行:理論上可以在單次迭代中,并行地預(yù)測和更新序列中的多個 token 。
  • 全局視野:模型的每一步?jīng)Q策都基于對整個序列的全局上下文理解,而非僅依賴于已生成的部分 。
  • 結(jié)構(gòu)靈活:更易于適應(yīng)多模態(tài)、代碼生成等需要復(fù)雜結(jié)構(gòu)和長程依賴的任務(wù) 。

憑借這些優(yōu)勢,以 LLaDA-MoE 為代表的 dLLM 已在多個基準(zhǔn)測試中,展現(xiàn)出與頂尖 AR 模型相媲美的準(zhǔn)確性 。然而在推理效率方面,dLLM 理論上的強(qiáng)大潛能,卻長期被殘酷的現(xiàn)實「枷鎖」所束縛。dLLM 的高效推理面臨三大核心挑戰(zhàn):

  1. 高昂的計算成本:多步迭代去噪的特性,意味著模型需要反復(fù)對整個序列進(jìn)行計算,這帶來了巨大的算力開銷 。
  2. KV 緩存的失效:dLLM 中的雙向注意力機(jī)制,使得 token 對應(yīng)的 KV 值在每次迭代中都會改變。這導(dǎo)致 AR 模型中「一次計算、永久復(fù)用」的 KV 緩存技術(shù)直接失效,使得推理過程異常昂貴 。
  3. 并行解碼的雙刃劍:盡管理論上可以并行生成序列中的所有 token,但在難以精準(zhǔn)刻畫其聯(lián)合概率分布的情況下一次性解碼太多 token,極易引發(fā)彼此間的語義錯配,導(dǎo)致「并行越多,質(zhì)量越差」的窘境 。

這些瓶頸使得 dLLM 的推理速度一直不盡人意,其并行生成帶來的效率淪為「紙上談兵」。如何打破枷鎖,釋放 dLLM 在推理效率的潛能,成為整個領(lǐng)域亟待解決的難題。

dInfer:人人可上手的擴(kuò)散語言模型高效推理框架

為徹底突破上述瓶頸,螞蟻集團(tuán)推出了 dInfer—— 一個專為 dLLM 設(shè)計的、算法與系統(tǒng)深度協(xié)同的高性能推理框架 ,可支持多種擴(kuò)散語言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。

dInfer 的設(shè)計哲學(xué)是模塊化與可擴(kuò)展性,以系統(tǒng)性集成算法與系統(tǒng)優(yōu)化。如下圖所示,dInfer 包含四大核心模塊:模型接入(Model)、KV 緩存管理器(KV-Cache Manager),擴(kuò)散迭代管理器(Iteration Manager),和解碼策略(Decoder)。

這種可插拔的架構(gòu),允許開發(fā)者像搭樂高一樣,進(jìn)一步組合和探索不同模塊的優(yōu)化策略,并在統(tǒng)一的平臺上進(jìn)行標(biāo)準(zhǔn)化評測 。更重要的是,dInfer 針對上述三大挑戰(zhàn),在每個模塊中都集成了針對性的解決方案。

dInfer 如何「快」起來? 

1.削減計算成本,控制生成質(zhì)量:鄰近 KV 緩存刷新 (Vicinity KV-Cache Refresh)

dLLM 使用雙向注意力機(jī)制讓模型獲得更全局的視野,代價是每次解碼會影響所有的 token 的 KV 值,導(dǎo)致 AR 模型依賴的 KV 緩存技術(shù)不能直接應(yīng)用到 dLLM 上。如果不使用任何 KV 緩存,在一個 sequence 上的一次 diffusion 迭代會導(dǎo)致大量的計算。

為了削減計算成本,F(xiàn)ast-dLLM 提出的將 sequence 劃分為 block,然后再逐個對 block 進(jìn)行解碼,并在當(dāng)前解碼 block 之外進(jìn)行 KV 緩存的方法,可以有效降低 diffusion 迭代的計算成本。然而雖然利用上了 KV 緩存,但在大部分情況下,緩存中的 KV 實際上是過時的,因此會導(dǎo)致生成質(zhì)量的下降。

為了緩解這一問題,dInfer 采取了一種鄰近刷新的策略:KV 緩存過時的原因是 dLLM 中一個新 token 的確定,會影響全局所有 token 的 KV 表示。而 dInfer 基于「語義局部性」原理( 一個詞的更新,對其近鄰詞的影響最大),在每次迭代解碼一個 block 時,dInfer 只選擇性地重新計算該區(qū)塊及其鄰近一小片區(qū)域的 KV,而讓遠(yuǎn)處的緩存保持不變 。這好比修改文檔中的一句話,你只需檢查上下文是否通順,而無需重讀整篇文章。

這種策略結(jié)合 dInfer 的其它優(yōu)化,在計算開銷和生成質(zhì)量之間取得了平衡,首次讓 KV 緩存機(jī)制在 dLLM 上高效、可靠地運作起來。

2.系統(tǒng)優(yōu)化:讓 dLLM 的前向運算速度追上 AR

在利用上 KV 緩存之后,dInfer 選擇了合適的 block 大小和 Vicinity KV-Cache Refresh 的范圍,并做了一系列的系統(tǒng)優(yōu)化,以使 dLLM 一次迭代的速度能追上運行在 SOTA 的推理服務(wù)框架如 vLLM 上的 AR 模型,包括:

  • 多卡并行:結(jié)合了張量并行 (TP) 與專家并行 (EP),即使在 batch size=1 的條件下,也能充分利用 GPU 的算力,效率提升超 100%。
  • 編譯優(yōu)化:通過 torch.compile 進(jìn)行內(nèi)核融合并編譯為 CUDA Graph 執(zhí)行,消除了 PyTorch 框架的執(zhí)行開銷,結(jié)合上述的多卡并行,可讓效率提升 200%。
  • 消除迭代之間的氣泡:采用循環(huán)展開 (Loop Unrolling) 技術(shù),讓 Python 可以連續(xù)不斷地啟動 CUDA 內(nèi)核,消除了迭代間的 GPU 空閑氣泡,帶來 5-10% 的性能提升 。
  • 早停:在生成 EOS token 后,跳過后續(xù) block 的推理過程,可以減少 5-40% 不必要的開銷。

3.并行解碼:層級解碼 (Hierarchical) 與信用解碼 (Credit)

為了在保證生成質(zhì)量的前提下,最大化并行解碼的 token 數(shù)量,dInfer 提出了兩種無需額外訓(xùn)練的解碼算法 :

  • 層級解碼 (Hierarchical Decoding):該算法借鑒了「分治」思想,將待解碼的區(qū)域不斷遞歸地一分為二,并優(yōu)先在每個子區(qū)域的中心位置解碼 token 。這種方式自然地拉開了新生 token 間的距離,減少了它們之間的語義干擾 。在理想情況下,它能以近似對數(shù)級的復(fù)雜度完成多點并行生成,既快又穩(wěn) 。
  • 信用解碼 (Credit Decoding):在多輪迭代中,有些正確的 token 可能很早就被模型穩(wěn)定地預(yù)測出來,但因其單次置信度未能「達(dá)標(biāo)」而被反復(fù)重算 。dInfer 為此引入了「累積信用」機(jī)制,持續(xù)追蹤并累積每個 token 在歷史迭代中的置信表現(xiàn) 。一個長期被穩(wěn)定預(yù)測的 token,即使當(dāng)前置信度稍低,也能憑借高累積信用被「破格」解碼,從而有效避免了大量冗余計算 。

4.壓榨每步迭代價值:迭代平滑 (Iteration Smoothing)

傳統(tǒng) dLLM 在每輪迭代中,只利用了置信度最高的 token 信息,而將其他位置的概率分布整個丟棄 。dInfer 的迭代平滑算法,旨在回收這些被浪費的信息 。

它基于未解碼位置的 logits 分布得到該位置的加權(quán) Embedding,并將其作為寶貴先驗知識,平滑地融入下一輪迭代的 Embedding 中 。這極大地豐富了上下文信息,使得單次迭代解碼的 token 數(shù)量平均提升了 30-40%。

此外,由于 dInfer 可以無障礙地接入多種擴(kuò)散語言模型,此次率先支持了基于軌跡蒸餾(Trajectory Distillation)加速 diffusion 去噪過程的 LLaDA-MoE-TD 模型,推理性能更強(qiáng)。

實測數(shù)據(jù):里程碑式的性能飛躍

在配備 8 塊 NVIDIA H800 GPU 的節(jié)點上,dInfer 的性能表現(xiàn)令人矚目。

Figure2: 評測數(shù)據(jù)

  • 10 倍性能提升:在與先前的 dLLM 推理方案 Fast-dLLM 的對比中,dInfer 在模型效果持平的情況下,平均推理速度(avg TPS)實現(xiàn)了 10.7 倍的巨大提升(681 vs 63.6) 。
  • 超越自回歸:與在業(yè)界頂尖的推理服務(wù)框架 vLLM 上運行的、參數(shù)量和性能相當(dāng)?shù)?AR 模型 Qwen2.5-3B 相比,dInfer 的平均推理速度是其 2.5 倍(681 vs 277) 。
  • 突破推理極速:在代碼生成任務(wù) HumanEval 上,dInfer 在單批次推理中創(chuàng)造了 1011 tokens / 秒的紀(jì)錄 。這是開源社區(qū)首次見證,擴(kuò)散語言模型在延遲敏感的單批次推理場景下,速度顯著超越經(jīng)過高度優(yōu)化的自回歸模型。

更進(jìn)一步,當(dāng)結(jié)合軌跡蒸餾(Trajectory Distillation)技術(shù)(一種讓模型學(xué)會 「跳躍式」去噪的后訓(xùn)練優(yōu)化方法)后,dInfer 的平均推理速度飆升至 847 TPS,實現(xiàn)了超過 3 倍于 AR 模型的性能 。

開源開放:共建下一代 AI 推理新生態(tài)

dInfer 的誕生,不僅是一個工具的發(fā)布,更是一次 LLM 范式的試煉:它證明了擴(kuò)散語言模型的效率潛力并非空中樓閣,而是可以通過系統(tǒng)性的創(chuàng)新工程兌現(xiàn),使其成為 AGI 道路上極具競爭力的選項。

目前,dInfer v0.1 的全部代碼、技術(shù)報告與實驗配置已開源。

螞蟻希望 dInfer 能成為:

  • 研究者的標(biāo)準(zhǔn)平臺:為 dLLM 領(lǐng)域的算法創(chuàng)新提供一個公平、高效的試驗場 。
  • 開發(fā)者的加速引擎:助力社區(qū)將強(qiáng)大的 dLLM 輕松部署到實際應(yīng)用中,享受極致性能 。

dInfer 連接了前沿研究與產(chǎn)業(yè)落地,標(biāo)志著擴(kuò)散語言模型從「理論可行」邁向「實踐高效」的關(guān)鍵一步。我們誠邀全球的開發(fā)者與研究者一同加入,共同探索擴(kuò)散語言模型的廣闊未來,構(gòu)建更加高效、開放的 AI 新生態(tài)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-11 14:39:50

AILLMMistral

2023-03-22 13:53:26

芯片英偉達(dá)

2025-05-30 15:52:05

訓(xùn)練代碼推理

2023-01-18 09:51:56

模型開源

2018-12-06 10:07:49

微軟機(jī)器學(xué)習(xí)開源

2025-07-10 14:54:13

AI模型圖像生成

2024-02-26 07:43:10

大語言模型LLM推理框架

2022-12-23 10:50:20

模型開源

2023-12-03 08:49:38

微軟開源

2025-08-04 08:23:00

2022-07-18 17:37:27

字節(jié)跳動人工智能AI模型

2024-07-08 13:04:01

2025-02-27 09:09:45

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-07-19 09:59:31

2025-05-27 15:28:11

模型訓(xùn)練AI

2025-06-18 16:39:02

視頻生成AI模型

2025-04-21 09:07:00

2022-05-11 14:45:48

模型人工智能

2025-04-07 09:00:00

數(shù)據(jù)測試工具
點贊
收藏

51CTO技術(shù)棧公眾號