偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

舍棄自回歸,離散擴散語言模型如何演化?NUS綜述解構技術圖譜與應用前沿

人工智能 新聞
本綜述系統(tǒng)梳理了離散擴散方向的研究圖譜,呈現(xiàn)了離散擴散語言模型(dLLMs)與離散擴散多模態(tài)語言模型(dMLLMs)的理論基礎、代表模型、訓練與推理技術,以及在推理、視覺、生物等多個領域的應用進展。

本論文共同第一作者于潤芃和李奇是新加坡國立大學 xML 實驗室博士生,指導老師為王鑫超,研究方向是多模態(tài)大模型與可信深度模型。

本文主要介紹 xML 團隊的論文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2506.13759
  • GitHub 倉庫:https://github.com/LiQiiiii/DLLM-Survey

自 GPT 引爆大語言模型熱潮以來,自回歸的大語言模型(LLMs)與多模態(tài)模型(MLLMs)已成為智能系統(tǒng)的基石。然而,當人們著眼于更快、更可控、更智能的生成范式時,一條新興路徑悄然浮現(xiàn):離散擴散(Discrete Diffusion)。

本綜述系統(tǒng)梳理了離散擴散方向的研究圖譜,呈現(xiàn)了離散擴散語言模型(dLLMs)與離散擴散多模態(tài)語言模型(dMLLMs)的理論基礎、代表模型、訓練與推理技術,以及在推理、視覺、生物等多個領域的應用進展。

圖片

圖 1 綜述的框架結(jié)構與內(nèi)容

自回歸的局限與離散擴散的崛起

傳統(tǒng)大模型采用自回歸(Autoregressive, AR)架構,其從左至右逐詞生成方式雖然自然,但存在顯著的性能瓶頸:無法并行解碼、難以精確控制輸出、局限于對輸入的靜態(tài)感知、對補全和逆向推理的建模能力差。這使其在需要結(jié)構化控制與動態(tài)感知的復雜場景中表現(xiàn)受限。

離散擴散模型打破了這一范式。它不再逐詞預測,而是將生成視為一個「掩碼 - 去噪」迭代過程,并行處理所有 Token,并借助全局注意力機制實現(xiàn)動態(tài)感知。這種設計帶來了三大核心優(yōu)勢:

  • 推理并行性(Parallel Decoding): 并行推理是離散擴散模型最大的特點和優(yōu)勢。并行推理使得離散擴散每次迭代都可以解碼出多個 Token,從而帶來解碼速度上的提升。
  • 輸出可控性(Controllability)與補全能力(Infilling): 掩碼 - 去噪的解碼機制,使得每一次回答都可以預設回答的長度、格式、結(jié)構,為回答設定一個模板。
  • 動態(tài)感知能力(Dynamic Perception): 全局注意力機制下模型對左側(cè) Token 的處理受到右側(cè) Token 的影響;多輪迭代的解碼機制使得對所有 Token 的處理都可以反復多次進行。這使得 dLLM 和 dMLLM 可以對長語料和多模態(tài)輸入進行多輪、有條件的動態(tài)感知,而不是如單向注意力一樣僅僅能夠感知一次。

圖片

圖 2 自回歸模型與典型離散擴散模型的對比

離散擴散語言模型的數(shù)理基礎

D3PM(Discrete Denoising Diffusion Probabilistic Models)框架是眾多離散擴散數(shù)理模型的起點。D3PM 給出了在離散時間上、離散狀態(tài)空間中的馬爾可夫模型。整個模型由兩個對偶過程構成:前向擴散過程和反向去噪過程。

在前向過程中,原始序列圖片被逐步擾動為噪聲表示圖片,其轉(zhuǎn)移機制由一系列時間依賴的轉(zhuǎn)移矩陣圖片控制,不同形式的圖片對應不同的擴散行為。例如,均勻(Uniform)轉(zhuǎn)移會將 Token 等概率擾亂;吸收態(tài)(Absorbing)轉(zhuǎn)移則將所有 Token 都映射至特定的 [MASK] Token。因此,使用吸收態(tài)轉(zhuǎn)移的擴散過程也被稱為 Masked Diffusion,是當前 dLLM 和 dMLLM 中使用最多的一類。此外,還有基于嵌入相似度的擴散矩陣、帶狀(band-diagonal)或離散高斯轉(zhuǎn)移等,增強模型在語義空間或局部結(jié)構中的建模能力。

反向過程則學習如何一步步去噪,還原出高質(zhì)量文本。常見的圖片,通過一個神經(jīng)網(wǎng)絡圖片來預測原始 Token 的概率分布,再結(jié)合前向轉(zhuǎn)移概率,從而構造出反向轉(zhuǎn)移概率圖片。訓練時的損失函數(shù)由變分下界(ELBO)導出。在 Masked Diffusion 框架下,損失函數(shù)還可以被化簡成加權的 Masked Language Modeling 損失。

在 D3PM 的基礎上,連續(xù)時間擴散模型將離散時間步泛化為連續(xù)時間步,構建了在連續(xù)時間上 離散狀態(tài)空間的馬爾可夫過程,通過引入速率矩陣圖片來建模任意時刻的狀態(tài)躍遷。Concrete Score 模型將反向過程的轉(zhuǎn)移速率矩陣圖片拆解為前向速率矩陣圖片和聯(lián)合概率比 c 的乘積,通過 Score Matching、基于 Bregman 散度的 Score Entropy 等損失函數(shù)來學習概率比 c。 Discrete Flow Matching 將流匹配思想引入到離散空間,在給定源目標分布和噪聲分布之間,構造連續(xù)變化的概率路徑。訓練過程通過定義 Token 級速度場來驅(qū)動序列生成,配合交叉熵損失優(yōu)化。

離散擴散語言模型生態(tài)概覽

圖片

圖 3 離散擴散模型的發(fā)展歷程

隨著離散擴散語言模型(dLLMs)快速崛起,近年來該領域涌現(xiàn)出一系列代表性模型。從早期探索性的輕量模型,到近期可比肩自回歸 LLM 的離散擴散大模型,再到多模態(tài)與統(tǒng)一建模范式的拓展,離散擴散正逐漸演化為一條獨立而完整的技術路徑。綜述將當前模型生態(tài)大致劃分為以下四類:

1. 輕量級模型:早期的離散擴散模型參數(shù)量往往不超過 1B,代表作包括 D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4 等。這些模型重點在于探索基礎的建模機制與去噪策略,驗證離散擴散在文本和多模態(tài)生成任務上的可行性。

2. 大規(guī)模 dLLM:隨著技術成熟,多個工作開始將擴散架構拓展至 10 億以上參數(shù)量,構建具備完整語言理解與生成能力的「非自回歸大模型」,代表模型包括:LLaDA 系列、DiffuGPT / DiffuLLaMA 和 DREAM 等。這些工作從規(guī)模上拓展了擴散語言模型的邊界,系統(tǒng)性地探索了其工程可行性。

3. 多模態(tài)擴展(dMLLM):在語言能力日趨完善之后,研究者開始探索 dLLMs 在多模態(tài)任務中的適應性,典型代表有:Dimple、LaViDa 和 LLaDA-V。

4. 統(tǒng)一生成模型:離散擴散在圖片生成中的可行性很早就被驗證了,隨著語言生成能力的完善,MMaDA、FUDOKI 和 Muddit 等模型給出了一種統(tǒng)一的架構,使用離散擴散模型在一個神經(jīng)網(wǎng)絡中同時建模文本和視覺的生成。

訓練與推理技術

方興未艾的 dLLM 與 dMLLM 正在不斷演進,伴隨而來的還有訓練與推理技術的持續(xù)創(chuàng)新。本綜述系統(tǒng)地梳理并歸納了已有模型中采用的核心方法,同時也在不斷收錄和更新該領域的最新進展。

訓練技術

離散擴散模型在訓練過程中面臨一系列獨特挑戰(zhàn),包括語料利用率低、生成長度偏差(length bias)、隨機時間采樣帶來的監(jiān)督信號覆蓋率低等。為解決這些問題,研究人員提出了多種創(chuàng)新性的訓練機制。綜述中主要歸納了以下幾類:

  • 初始化機制:使用已經(jīng)訓練好的 BERT 模型或者 AR 模型作為訓練起點,或者對模型首先進行 AR 訓練再進行擴散訓練。典型的模型包括 DiffuLLaMA、DiffuGPT 和 Dimple 。這一類初始化技術化能夠加速訓練過程,保證模型性能,在資源受限的訓練時效果顯著。
  • 互補掩碼策略(Complementary Masking):為提升語料使用效率,構造一對互補的掩碼樣本,兩次掩碼的位置互斥,但是拼起來可以使所有 Token 都被覆蓋,從而解決信息利用稀疏問題。典型的模型包括 LaViDa 和 DiffuCoder。
  • 掩碼調(diào)度(Masking Scheduling)函數(shù):掩碼調(diào)度函數(shù)決定了訓練過程中各個時間步上掩碼比例的大小。在訓練過程中既可以為所有的 Token 設置統(tǒng)一的調(diào)度函數(shù),也可以針對各個 Token 設置不同的調(diào)度函數(shù)。在線性調(diào)度函數(shù)下,掩碼比例隨時間線性變化,使每一步加噪的 Token 數(shù)量大致相同。在凸(convex)調(diào)度函數(shù)下,掩碼函數(shù)斜率的絕對值先大后小,在時間步不大時就能夠掩碼大量的 Token,從而使得模型訓練時能夠接觸到更 noisy 的樣本,也鼓勵推理時從慢到快,每一步解碼出來的 Token 數(shù)量先少后多。
  • 重加權策略(Reweighting):對不同 Token 處的損失函數(shù)值進行調(diào)整,強化對特定 Token 的學習。比如,MGDM 提升損失函數(shù)大的 Token 的權重,提升對困難位置的關注,加速收斂。
  • 知識蒸餾(Distillation): 通過知識蒸餾實現(xiàn)對推理步數(shù)的壓縮,將多步的「教師模型」知識傳遞給步數(shù)更少的「學生模型」。

這些技術從訓練目標、數(shù)據(jù)使用到網(wǎng)絡初始化等方面優(yōu)化了擴散訓練流程,使 dLLMs 得以在更大規(guī)模、更復雜任務上保持穩(wěn)定、有效的訓練表現(xiàn)。

圖片

圖 4 幾種掩碼調(diào)度函數(shù)

推理技術

dLLMs 和 dMLLMs 的推理過程中的每一步都會對所有的 token 進行并行的同步預測,之后基于特定的規(guī)則來決定要保留哪些位置的預測。為兼顧生成質(zhì)量與效率,研究人員提出了一系列推理技術。綜述中主要歸納了以下幾類:

  • Unmasking 策略決定「什么時候生成什么」。推理中每輪只會保留對部分 Token 的預測,Unmasking 策略負責決定解哪里、解多少。解碼的位置既可以是隨機選取,也可以是度量驅(qū)動(Metric-based),根據(jù)模型置信度、負熵等指標優(yōu)先解碼「最確定」的位置。每一步解碼的 Token 數(shù)量可以設置為固定值,也可以根據(jù)訓練時的調(diào)度函數(shù)計算得到。如果使用了度量驅(qū)動的解碼策略,還可以使用 Confident Decoding 算法,通過閾值動態(tài)調(diào)整每一步解碼出來的 Token 數(shù)量。
  • Remasking 技術實現(xiàn)「修正」,解決吸收態(tài)擴散模型「寫完不能改」的局限。Remasking 允許將已經(jīng)解碼出來的 Token 再次設置為 [Mask],從而對回答進行修改,實現(xiàn) Test-Time-Scaling。
  • 緩存機制(Caching):AR 框架下的 Prefilling 和 KV-Cache 機制也被引入了 dLLM 和 dMLLM 中,通過緩存注意力計算的中間結(jié)果,并選擇性動態(tài)更新,以加速生成。
  • Guidance 技術:類比于連續(xù)擴散模型中的 Guidance 機制,Classifier-Free Guidance、Reward Guidance、Energy-Based Guidance 等技術也被應用在離散擴散模型中,實現(xiàn)對模型輸出的定向調(diào)整。

這些推理技術不僅提升了生成效率,更賦予了 dLLMs 修正和控制的能力,逐步構建出具備實用價值的非自回歸語言推理范式。

圖片

圖 5 對 Unmasking 策略的展示

結(jié)語

除了以上內(nèi)容,綜述中也介紹了 dLLM 和 dMLLM 在生物、視覺、推理等方面的應用,探討了其未來可能的發(fā)展方向。

隨著大語言模型不斷拓展其邊界,離散擴散模型(dLLMs 與 dMLLMs)為傳統(tǒng)自回歸范式提供了強有力的替代路徑。并行解碼、結(jié)構控制與動態(tài)感知等優(yōu)勢使它們突破了自回歸模型在效率與控制性上的瓶頸。從基礎理論到工程優(yōu)化,再到多模態(tài)與跨領域應用,離散擴散范式正在逐步走向成熟。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-26 12:51:48

2024-08-05 14:36:17

大型語言模型量化

2025-07-10 14:54:13

AI模型圖像生成

2025-05-27 15:35:02

大模型技術AI

2024-03-07 12:31:29

AI技術

2025-06-11 09:21:28

2025-08-12 09:08:00

2024-10-10 08:33:06

2023-07-04 10:28:15

模型論文

2025-03-17 08:25:00

模型AI訓練

2024-06-05 16:22:11

2024-03-11 09:37:01

模型圖片編輯

2025-05-27 15:28:11

模型訓練AI

2025-02-27 13:45:00

2025-03-25 09:04:12

2024-11-12 13:10:49

2023-11-17 08:46:26

2022-09-13 14:54:08

模型AI

2024-12-23 13:30:00

2025-06-04 13:55:03

AI模型技術
點贊
收藏

51CTO技術棧公眾號