偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NVIDIA港大MIT聯(lián)合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

人工智能 新聞
Fast-dLLM v2 提供了一條務(wù)實(shí)路線:用很少的數(shù)據(jù)(~1B tokens)把 AR 模型適配為 Block Diffusion LLM,相較等規(guī)模 AR 的端到端吞吐量約提升 2.5×,精度保持可比,并且關(guān)鍵開關(guān)(塊大小、閾值、緩存)都能工程化地按目標(biāo)調(diào)優(yōu),這是一個(gè)成本與收益比較均衡的解法。

自回歸(AR)大語言模型逐 token 順序解碼的范式限制了推理效率;擴(kuò)散 LLM(dLLM)以并行生成見長,但過去難以穩(wěn)定跑贏自回歸(AR)模型,尤其是在 KV Cache 復(fù)用、和 可變長度 支持上仍存挑戰(zhàn)。

Fast-dLLM v2 給出了一條務(wù)實(shí)路線:將預(yù)訓(xùn)練 AR 模型適配為適配為能并行解碼的 Block-dLLM—— 且只需~1B tokens 量級(jí)的微調(diào)即可達(dá)到 “無損” 遷移,不必訓(xùn)練數(shù)百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同時(shí),將端到端吞吐顯著拉高,最高可達(dá) 2.5×。

  • 作者單位:HKU、NVIDIA、MIT。
  • 論文鏈接:https://arxiv.org/pdf/2509.26328
  • 項(xiàng)目網(wǎng)站鏈接:https://nvlabs.github.io/Fast-dLLM/v2/
  • 代碼鏈接:https://github.com/NVlabs/Fast-dLLM

核心看點(diǎn)

  • 少量數(shù)據(jù)適配(~1B tokens):已有的 AR 模型(如 Qwen2.5-Instruct 1.5B/7B)用約 1B tokens 的微調(diào)就能適配成 Block Diffusion LLM,不必訓(xùn)練數(shù)百 B tokens(如 Dream 需~580B tokens)。 
  • 架構(gòu)上 “AR 友好”: 設(shè)計(jì)上 塊內(nèi)雙向、塊間因果;配合互補(bǔ)掩碼與 token-shift,讓模型既保留 AR 的語義組織與可變長度能力,又獲得塊內(nèi)并行帶來的效率增益。遷移過程更自然、數(shù)據(jù)效率高。
  • 層級(jí)緩存 + 并行解碼:塊級(jí) KV Cache + 子塊 DualCache,配合置信度閾值的并行解碼,端到端最高 2.5× 提速。 
  • 大模型驗(yàn)證:在 7B 規(guī)模上保持與 AR 相當(dāng)?shù)纳少|(zhì)量下,吞吐對(duì)比 Qwen2.5-7B-Instruct 提升 2.54×。

原理與做法:從 AR 到 Block Diffusion 

 1)塊式擴(kuò)散與 AR - 友好注意力

Fast-dLLM v2 按固定塊大小把序列切成若干塊:塊內(nèi)雙向注意力以并行去噪,塊間保持左到右的因果關(guān)系,從而既能并行、又能沿用 AR 的語義組織、可變長度和 KV Cache;配合互補(bǔ)掩碼(complementary masking)與 token-shift,保證每個(gè) token 都在 “可見 / 被遮” 兩種視角下學(xué)習(xí),穩(wěn)定恢復(fù) AR 語義表征。

2)層級(jí)緩存(Hierarchical Cache)

  • 塊級(jí)緩存:已解碼塊的 KV 直接復(fù)用,天然支持 KV Cache。
  • 子塊緩存(DualCache):在部分解碼的當(dāng)前塊內(nèi)部,同時(shí)緩存前綴與后綴的 KV 激活,減少迭代去噪揭示 / 復(fù)原時(shí)的重復(fù)計(jì)算,貼合并行細(xì)化流程。

3)置信度感知的并行解碼

延續(xù) v1 的思路:當(dāng)某位置的預(yù)測置信度超過閾值(如 0.9),即可并行確定多個(gè) token,其余不確定位置保留待后續(xù)細(xì)化。在 GSM8K 上,閾值 0.9 時(shí)吞吐從 39.1→101.7 tokens/s,提速約 2.6×,精度影響可忽略。

性能結(jié)果

  • 端到端加速:綜合實(shí)驗(yàn)顯示,對(duì)標(biāo)準(zhǔn) AR 解碼最高 2.5× 提速,同時(shí)維持生成質(zhì)量。
  • 7B 規(guī)模吞吐與精度:在 A100 上,F(xiàn)ast-dLLM v2(7B)吞吐為 Qwen2.5-7B-Instruct 的 2.54×;同時(shí)對(duì)比 Fast-dLLM-LLaDA 還有 +5.2% 的準(zhǔn)確率提升(GSM8K)。
  • Batch / 硬件可擴(kuò)展性:在 A100/H100 上隨 batch 增大,擴(kuò)散解碼的并行優(yōu)勢更明顯;A100 上可達(dá)~1.5× 吞吐加速,H100 上最高可達(dá)~1.8× 加速。

  • Benchmark 綜合得分:
  • 1.5B:平均分 45.0,超過 Qwen2.5-1.5B 與 Qwen2.5-1.5B-Nemo-FT(使用相同的 LLaMA-Nemotron 后訓(xùn)練數(shù)據(jù)集上對(duì) Qwen 做的標(biāo)準(zhǔn) NTP 微調(diào) baseline);在同量級(jí)(≈1B 規(guī)模)的擴(kuò)散類與 NTP 訓(xùn)練的 AR 類模型里,屬于新的 SOTA。
  • 7B:平均分 60.3,超過 Qwen2.5-7B-Nemo-FT(59.6) 和 Dream(57.6);多數(shù)單項(xiàng)基準(zhǔn)上持平或更好。評(píng)測覆蓋 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多項(xiàng)基準(zhǔn)。

訓(xùn)練成本

數(shù)據(jù) / 算力成本:以~1B tokens 量級(jí)微調(diào)把 AR 模型適配為 Block Diffusion LLM(對(duì)比 Dream 的~500B tokens),門檻顯著降低;論文給出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具體訓(xùn)練步數(shù)與配置,只需要幾個(gè)小時(shí)即可完成訓(xùn)練,可復(fù)現(xiàn)性強(qiáng)。 

總結(jié)

Fast-dLLM v2 提供了一條務(wù)實(shí)路線:用很少的數(shù)據(jù)(~1B tokens)把 AR 模型適配為 Block Diffusion LLM,相較等規(guī)模 AR 的端到端吞吐量約提升 2.5×,精度保持可比,并且關(guān)鍵開關(guān)(塊大小、閾值、緩存)都能工程化地按目標(biāo)調(diào)優(yōu),這是一個(gè)成本與收益比較均衡的解法。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-05-30 15:52:05

訓(xùn)練代碼推理

2023-11-01 13:15:13

單點(diǎn)端識(shí)別框架

2024-11-02 10:28:03

2024-01-19 13:42:00

模型訓(xùn)練

2010-09-11 11:56:52

CDMA端到端華為

2024-05-23 16:41:40

2024-11-01 20:25:28

2025-05-09 02:00:00

代碼接口吞吐量

2024-02-27 15:14:04

自動(dòng)駕駛技術(shù)

2024-12-13 13:58:53

2025-08-19 08:53:00

AI模型開源

2025-09-11 02:00:00

2024-10-11 09:32:48

2023-12-07 06:51:18

AI模型

2024-08-02 14:50:00

數(shù)據(jù)AI

2022-05-26 15:17:54

訓(xùn)練模型

2025-10-24 12:14:32

2024-06-06 16:15:00

2024-12-27 13:59:33

數(shù)據(jù)訓(xùn)練模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)