偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="x95df"><dfn id="x95df"><pre id="x95df"></pre></dfn></tr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

NVIDIA港大MIT聯(lián)合推出Fast-dLLM v2：端到端吞吐量提升2.5倍

2025-10-27 09:06:00

人工智能新聞

Fast-dLLM v2 提供了一條務(wù)實(shí)路線：用很少的數(shù)據(jù)（~1B tokens）把 AR 模型適配為 Block Diffusion LLM，相較等規(guī)模 AR 的端到端吞吐量約提升 2.5×，精度保持可比，并且關(guān)鍵開關(guān)（塊大小、閾值、緩存）都能工程化地按目標(biāo)調(diào)優(yōu)，這是一個(gè)成本與收益比較均衡的解法。

自回歸（AR）大語言模型逐 token 順序解碼的范式限制了推理效率；擴(kuò)散 LLM（dLLM）以并行生成見長，但過去難以穩(wěn)定跑贏自回歸（AR）模型，尤其是在 KV Cache 復(fù)用、和可變長度支持上仍存挑戰(zhàn)。

Fast-dLLM v2 給出了一條務(wù)實(shí)路線：將預(yù)訓(xùn)練 AR 模型適配為適配為能并行解碼的 Block-dLLM—— 且只需～1B tokens 量級(jí)的微調(diào)即可達(dá)到 “無損” 遷移，不必訓(xùn)練數(shù)百 B tokens（如 Dream 需～580B tokens）。在 A100/H100 上，它在保持精度的同時(shí)，將端到端吞吐顯著拉高，最高可達(dá) 2.5×。

作者單位：HKU、NVIDIA、MIT。
論文鏈接：https://arxiv.org/pdf/2509.26328
項(xiàng)目網(wǎng)站鏈接：https://nvlabs.github.io/Fast-dLLM/v2/
代碼鏈接：https://github.com/NVlabs/Fast-dLLM

核心看點(diǎn)

少量數(shù)據(jù)適配（~1B tokens）：已有的 AR 模型（如 Qwen2.5-Instruct 1.5B/7B）用約 1B tokens 的微調(diào)就能適配成 Block Diffusion LLM，不必訓(xùn)練數(shù)百 B tokens（如 Dream 需～580B tokens）。
架構(gòu)上 “AR 友好”：設(shè)計(jì)上塊內(nèi)雙向、塊間因果；配合互補(bǔ)掩碼與 token-shift，讓模型既保留 AR 的語義組織與可變長度能力，又獲得塊內(nèi)并行帶來的效率增益。遷移過程更自然、數(shù)據(jù)效率高。
層級(jí)緩存 + 并行解碼：塊級(jí) KV Cache + 子塊 DualCache，配合置信度閾值的并行解碼，端到端最高 2.5× 提速。
大模型驗(yàn)證：在 7B 規(guī)模上保持與 AR 相當(dāng)?shù)纳少|(zhì)量下，吞吐對(duì)比 Qwen2.5-7B-Instruct 提升 2.54×。

原理與做法：從 AR 到 Block Diffusion

1）塊式擴(kuò)散與 AR - 友好注意力

Fast-dLLM v2 按固定塊大小把序列切成若干塊：塊內(nèi)雙向注意力以并行去噪，塊間保持左到右的因果關(guān)系，從而既能并行、又能沿用 AR 的語義組織、可變長度和 KV Cache；配合互補(bǔ)掩碼（complementary masking）與 token-shift，保證每個(gè) token 都在 “可見 / 被遮” 兩種視角下學(xué)習(xí)，穩(wěn)定恢復(fù) AR 語義表征。

2）層級(jí)緩存（Hierarchical Cache）

塊級(jí)緩存：已解碼塊的 KV 直接復(fù)用，天然支持 KV Cache。
子塊緩存（DualCache）：在部分解碼的當(dāng)前塊內(nèi)部，同時(shí)緩存前綴與后綴的 KV 激活，減少迭代去噪揭示 / 復(fù)原時(shí)的重復(fù)計(jì)算，貼合并行細(xì)化流程。

3）置信度感知的并行解碼

延續(xù) v1 的思路：當(dāng)某位置的預(yù)測置信度超過閾值（如 0.9），即可并行確定多個(gè) token，其余不確定位置保留待后續(xù)細(xì)化。在 GSM8K 上，閾值 0.9 時(shí)吞吐從 39.1→101.7 tokens/s，提速約 2.6×，精度影響可忽略。

性能結(jié)果

端到端加速：綜合實(shí)驗(yàn)顯示，對(duì)標(biāo)準(zhǔn) AR 解碼最高 2.5× 提速，同時(shí)維持生成質(zhì)量。
7B 規(guī)模吞吐與精度：在 A100 上，F(xiàn)ast-dLLM v2（7B）吞吐為 Qwen2.5-7B-Instruct 的 2.54×；同時(shí)對(duì)比 Fast-dLLM-LLaDA 還有 +5.2% 的準(zhǔn)確率提升（GSM8K）。
Batch / 硬件可擴(kuò)展性：在 A100/H100 上隨 batch 增大，擴(kuò)散解碼的并行優(yōu)勢更明顯；A100 上可達(dá)～1.5× 吞吐加速，H100 上最高可達(dá)～1.8× 加速。

Benchmark 綜合得分：
1.5B：平均分 45.0，超過 Qwen2.5-1.5B 與 Qwen2.5-1.5B-Nemo-FT（使用相同的 LLaMA-Nemotron 后訓(xùn)練數(shù)據(jù)集上對(duì) Qwen 做的標(biāo)準(zhǔn) NTP 微調(diào) baseline）；在同量級(jí)（≈1B 規(guī)模）的擴(kuò)散類與 NTP 訓(xùn)練的 AR 類模型里，屬于新的 SOTA。
7B：平均分 60.3，超過 Qwen2.5-7B-Nemo-FT（59.6）和 Dream（57.6）；多數(shù)單項(xiàng)基準(zhǔn)上持平或更好。評(píng)測覆蓋 HumanEval/MBPP、GSM8K/MATH、MMLU/GPQA、IFEval 等多項(xiàng)基準(zhǔn)。

訓(xùn)練成本

數(shù)據(jù) / 算力成本：以～1B tokens 量級(jí)微調(diào)把 AR 模型適配為 Block Diffusion LLM（對(duì)比 Dream 的～500B tokens），門檻顯著降低；論文給出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具體訓(xùn)練步數(shù)與配置，只需要幾個(gè)小時(shí)即可完成訓(xùn)練，可復(fù)現(xiàn)性強(qiáng)。

總結(jié)

Fast-dLLM v2 提供了一條務(wù)實(shí)路線：用很少的數(shù)據(jù)（~1B tokens）把 AR 模型適配為 Block Diffusion LLM，相較等規(guī)模 AR 的端到端吞吐量約提升 2.5×，精度保持可比，并且關(guān)鍵開關(guān)（塊大小、閾值、緩存）都能工程化地按目標(biāo)調(diào)優(yōu)，這是一個(gè)成本與收益比較均衡的解法。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="e3erx"></pre>

<em id="e3erx"></em>