NVIDIA港大MIT聯(lián)合推出Fast-dLLM v2:端到端吞吐量提升2.5倍
自回歸(AR)大語言模型逐 token 順序解碼的范式限制了推理效率;擴(kuò)散 LLM(dLLM)以并行生成見長,但過去難以穩(wěn)定跑贏自回歸(AR)模型,尤其是在 KV Cache 復(fù)用、和 可變長度 支持上仍存挑戰(zhàn)。
Fast-dLLM v2 給出了一條務(wù)實(shí)路線:將預(yù)訓(xùn)練 AR 模型適配為適配為能并行解碼的 Block-dLLM—— 且只需~1B tokens 量級(jí)的微調(diào)即可達(dá)到 “無損” 遷移,不必訓(xùn)練數(shù)百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同時(shí),將端到端吞吐顯著拉高,最高可達(dá) 2.5×。


- 作者單位:HKU、NVIDIA、MIT。
- 論文鏈接:https://arxiv.org/pdf/2509.26328
- 項(xiàng)目網(wǎng)站鏈接:https://nvlabs.github.io/Fast-dLLM/v2/
- 代碼鏈接:https://github.com/NVlabs/Fast-dLLM
核心看點(diǎn)

- 少量數(shù)據(jù)適配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用約 1B tokens 的微調(diào)就能適配成 Block Diffusion LLM,不必訓(xùn)練數(shù)百 B tokens(如 Dream 需~580B tokens)。
- 架構(gòu)上 “AR 友好”: 設(shè)計(jì)上 塊內(nèi)雙向、塊間因果;配合互補(bǔ)掩碼與 token-shift,讓模型既保留 AR 的語義組織與可變長度能力,又獲得塊內(nèi)并行帶來的效率增益。遷移過程更自然、數(shù)據(jù)效率高。
- 層級(jí)緩存 + 并行解碼:塊級(jí) KV Cache + 子塊 DualCache,配合置信度閾值的并行解碼,端到端最高 2.5× 提速。
- 大模型驗(yàn)證:在 7B 規(guī)模上保持與 AR 相當(dāng)?shù)纳少|(zhì)量下,吞吐對(duì)比 Qwen2.5-7B-Instruct 提升 2.54×。
原理與做法:從 AR 到 Block Diffusion

1)塊式擴(kuò)散與 AR - 友好注意力
Fast-dLLM v2 按固定塊大小把序列切成若干塊:塊內(nèi)雙向注意力以并行去噪,塊間保持左到右的因果關(guān)系,從而既能并行、又能沿用 AR 的語義組織、可變長度和 KV Cache;配合互補(bǔ)掩碼(complementary masking)與 token-shift,保證每個(gè) token 都在 “可見 / 被遮” 兩種視角下學(xué)習(xí),穩(wěn)定恢復(fù) AR 語義表征。
2)層級(jí)緩存(Hierarchical Cache)
- 塊級(jí)緩存:已解碼塊的 KV 直接復(fù)用,天然支持 KV Cache。
- 子塊緩存(DualCache):在部分解碼的當(dāng)前塊內(nèi)部,同時(shí)緩存前綴與后綴的 KV 激活,減少迭代去噪揭示 / 復(fù)原時(shí)的重復(fù)計(jì)算,貼合并行細(xì)化流程。

3)置信度感知的并行解碼
延續(xù) v1 的思路:當(dāng)某位置的預(yù)測置信度超過閾值(如 0.9),即可并行確定多個(gè) token,其余不確定位置保留待后續(xù)細(xì)化。在 GSM8K 上,閾值 0.9 時(shí)吞吐從 39.1→101.7 tokens/s,提速約 2.6×,精度影響可忽略。

性能結(jié)果
- 端到端加速:綜合實(shí)驗(yàn)顯示,對(duì)標(biāo)準(zhǔn) AR 解碼最高 2.5× 提速,同時(shí)維持生成質(zhì)量。
- 7B 規(guī)模吞吐與精度:在 A100 上,F(xiàn)ast-dLLM v2(7B)吞吐為 Qwen2.5-7B-Instruct 的 2.54×;同時(shí)對(duì)比 Fast-dLLM-LLaDA 還有 +5.2% 的準(zhǔn)確率提升(GSM8K)。
- Batch / 硬件可擴(kuò)展性:在 A100/H100 上隨 batch 增大,擴(kuò)散解碼的并行優(yōu)勢更明顯;A100 上可達(dá)~1.5× 吞吐加速,H100 上最高可達(dá)~1.8× 加速。

- Benchmark 綜合得分:
- 1.5B:平均分 45.0,超過 Qwen2.5-1.5B 與 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后訓(xùn)練數(shù)據(jù)集上對(duì) Qwen 做的標(biāo)準(zhǔn) NTP 微調(diào) baseline);在同量級(jí)(≈1B 規(guī)模)的擴(kuò)散類與 NTP 訓(xùn)練的 AR 類模型里,屬于新的 SOTA。
- 7B:平均分 60.3,超過 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多數(shù)單項(xiàng)基準(zhǔn)上持平或更好。評(píng)測覆蓋 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多項(xiàng)基準(zhǔn)。

訓(xùn)練成本
數(shù)據(jù) / 算力成本:以~1B tokens 量級(jí)微調(diào)把 AR 模型適配為 Block Diffusion LLM(對(duì)比 Dream 的~500B tokens),門檻顯著降低;論文給出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具體訓(xùn)練步數(shù)與配置,只需要幾個(gè)小時(shí)即可完成訓(xùn)練,可復(fù)現(xiàn)性強(qiáng)。
總結(jié)
Fast-dLLM v2 提供了一條務(wù)實(shí)路線:用很少的數(shù)據(jù)(~1B tokens)把 AR 模型適配為 Block Diffusion LLM,相較等規(guī)模 AR 的端到端吞吐量約提升 2.5×,精度保持可比,并且關(guān)鍵開關(guān)(塊大小、閾值、緩存)都能工程化地按目標(biāo)調(diào)優(yōu),這是一個(gè)成本與收益比較均衡的解法。



































