最近大火的Diffusion Model,首篇擴散生成模型綜述!

本綜述(Diffusion Models: A Comprehensive Survey of Methods and Applications)來自加州大學(xué)&Google Research的Ming-Hsuan Yang、北京大學(xué)崔斌實驗室以及CMU、UCLA、蒙特利爾Mila研究院等眾研究團隊,首次對現(xiàn)有的擴散生成模型(diffusion model)進行了全面的總結(jié)分析,從diffusion model算法細化分類、和其他五大生成模型的關(guān)聯(lián)以及在七大領(lǐng)域中的應(yīng)用等方面展開,最后提出了diffusion model的現(xiàn)有l(wèi)imitation和未來的發(fā)展方向。
文章鏈接:https://arxiv.org/abs/2209.00796本綜述diffusion models論文分類匯總github鏈接:https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
1 介紹
擴散模型(diffusion models)是深度生成模型中新的SOTA。擴散模型在圖片生成任務(wù)中超越了原SOTA:GAN,并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn),如計算機視覺,NLP、波形信號處理、多模態(tài)建模、分子圖建模、時間序列建模、對抗性凈化等。此外,擴散模型與其他研究領(lǐng)域有著密切的聯(lián)系,如穩(wěn)健學(xué)習(xí)、表示學(xué)習(xí)、強化學(xué)習(xí)。
然而,原始的擴散模型也有缺點,它的采樣速度慢,通常需要數(shù)千個評估步驟才能抽取一個樣本;它的最大似然估計無法和基于似然的模型相比;它泛化到各種數(shù)據(jù)類型的能力較差。如今很多研究已經(jīng)從實際應(yīng)用的角度解決上述限制做出了許多努力,或從理論角度對模型能力進行了分析。
然而,現(xiàn)在缺乏對擴散模型從算法到應(yīng)用的最新進展的系統(tǒng)回顧。為了反映這一快速發(fā)展領(lǐng)域的進展,我們對擴散模型進行了首個全面綜述。我們設(shè)想我們的工作將闡明擴散模型的設(shè)計考慮和先進方法,展示其在不同領(lǐng)域的應(yīng)用,并指出未來的研究方向。此綜述的概要如下圖所示:

盡管diffusion model在各類任務(wù)中都有著優(yōu)秀的表現(xiàn),它仍還有自己的缺點,并有諸多研究對diffusion model進行了改善。
為了系統(tǒng)地闡明diffusion model的研究進展,我們總結(jié)了原始擴散模型的三個主要缺點,采樣速度慢,最大化似然差、數(shù)據(jù)泛化能力弱,并提出將的diffusion models改進研究分為對應(yīng)的三類:采樣速度提升、最大似然增強和數(shù)據(jù)泛化增強。
我們首先說明改善的動機,再根據(jù)方法的特性將每個改進方向的研究進一步細化分類,從而清楚的展現(xiàn)方法之間的聯(lián)系與區(qū)別。在此我們僅選取部分重要方法為例, 我們的工作中對每類方法都做了詳細的介紹,內(nèi)容如圖所示:

在分析完三類擴散模型后,我們將介紹其他的五種生成模型GAN,VAE,Autoregressive model, Normalizing flow, Energy-based model。
考慮到擴散模型的優(yōu)良性質(zhì),研究者們已經(jīng)根據(jù)其特性將diffusion model與其他生成模型結(jié)合,所以為了進一步展現(xiàn)diffusion model 的特點和改進工作,我們詳細地介紹了diffusion model和其他生成模型的結(jié)合的工作并闡明了在原始生成模型上的改進之處。
Diffusion model在諸多領(lǐng)域都有著優(yōu)異的表現(xiàn),并且考慮到不同領(lǐng)域的應(yīng)用中diffusion model產(chǎn)生了不同的變形,我們系統(tǒng)地介紹了diffusion model的應(yīng)用研究,其中包含如下領(lǐng)域:計算機視覺,NLP、波形信號處理、多模態(tài)建模、分子圖建模、時間序列建模、對抗性凈化。對于每個任務(wù),我們定義了該任務(wù)并介紹利用擴散模型處理任務(wù)的工作,我們將本項工作的主要貢獻總結(jié)如下:
- 新的分類方法:我們對擴散模型和其應(yīng)用提出了一種新的、系統(tǒng)的分類法。具體的我們將模型分為三類:采樣速度增強、最大似然估計增強、數(shù)據(jù)泛化增強。進一步地,我們將擴散模型的應(yīng)用分為七類:計算機視覺,NLP、波形信號處理、多模態(tài)建模、分子圖建模、時間序列建模、對抗性凈化。
- 全面的回顧:我們首次全面地概述了現(xiàn)代擴散模型及其應(yīng)用。我們展示了每種擴散模型的主要改進,和原始模型進行了必要的比較,并總結(jié)了相應(yīng)的論文。對于擴散模型的每種類型的應(yīng)用,我們展示了擴散模型要解決的主要問題,并說明它們?nèi)绾谓鉀Q這些問題。
- 未來研究方向:我們對未來研究提出了開放型問題,并對擴散模型在算法和應(yīng)用方面的未來發(fā)展提供了一些建議。
2 擴散模型基礎(chǔ)
生成式建模的一個核心問題是模型的靈活性和可計算性之間的權(quán)衡。擴散模型的基本思想是正向擴散過程來系統(tǒng)地擾動數(shù)據(jù)中的分布,然后通過學(xué)習(xí)反向擴散過程恢復(fù)數(shù)據(jù)的分布,這樣就了產(chǎn)生一個高度靈活且易于計算的生成模型。
(1)Denoising Diffusion Probabilistic Models(DDPM)
一個DDPM由兩個參數(shù)化馬爾可夫鏈組成,并使用變分推斷以在有限時間后生成與原始數(shù)據(jù)分布一致的樣本。前向鏈的作用是擾動數(shù)據(jù),它根據(jù)預(yù)先設(shè)計的噪聲進度向數(shù)據(jù)逐漸加入高斯噪聲,直到數(shù)據(jù)的分布趨于先驗分布,即標(biāo)準(zhǔn)高斯分布。反向鏈從給定的先驗開始并使用參數(shù)化的高斯轉(zhuǎn)換核,學(xué)習(xí)逐步恢復(fù)原數(shù)據(jù)分布。用表示原始數(shù)據(jù)及其分布,則前向鏈的分布是可由下式表達:

這說明前向鏈?zhǔn)邱R爾可夫過程,是加入t步噪音后的樣本,是事先給定的控制噪聲進度的參數(shù)。當(dāng) 趨于1時,可以近似認(rèn)為服從標(biāo)準(zhǔn)高斯分布。當(dāng)很小時,逆向過程的轉(zhuǎn)移核可以近似認(rèn)為也是高斯的:

我們可以將變分下界作為損失函數(shù)進行學(xué)習(xí):

(2)Score-Based Generative Models(SGM)
上述DDPM可以視作SGM的離散形式。SGM構(gòu)造一個隨機微分方程(SDE)來平滑的擾亂數(shù)據(jù)分布,將原始數(shù)據(jù)分布轉(zhuǎn)化到已知的先驗分布:

和一個相應(yīng)的逆向SDE,來將先驗分布變換回原始數(shù)據(jù)分布:

因此,要逆轉(zhuǎn)擴散過程并生成數(shù)據(jù),我們需要的唯一信息就是在每個時間點的分?jǐn)?shù)函數(shù)。利用score-matching的技巧我們可以通過如下?lián)p失函數(shù)來學(xué)習(xí)分?jǐn)?shù)函數(shù):

對兩種方法的進一步介紹和兩者關(guān)系的介紹請參見我們的文章。原始擴散模型的三個主要缺點,采樣速度慢,最大化似然差、數(shù)據(jù)泛化能力弱。最近許多研究都在解決這些缺點,因此我們將改進的擴散模型分為三類:采樣速度提升、最大似然增強和數(shù)據(jù)泛化增強。在接下來的三、四、五節(jié)我們將對這三類模型進行詳細的介紹。
3 采樣加速方法
在應(yīng)用時,為了讓新樣本的質(zhì)量達到最佳,擴散模型往往需要進行成千上萬步計算來獲取一個新樣本。這限制了diffusion model的實際應(yīng)用價值,因為在實際應(yīng)用時,我們往往需要產(chǎn)生大量的新樣本,來為下一步處理提供材料。
研究者們在提高diffusion model采樣速度上進行了大量的研究。我們對這些研究進行了詳細的闡述。我們將其細化分類為三種方法:Discretization Optimization,Non-Markovian Process,Partial Sampling。
(1)Discretization Optimization方法優(yōu)化求解diffusion SDE的方法。因為現(xiàn)實中求解復(fù)雜SDE只能使用離散解來逼近真正的解,所以該類方法試圖優(yōu)化SDE的離散化方法,在保證樣本質(zhì)量的同時減少離散步數(shù)。SGM 提出了一個通用的方法來求解逆向過程,即對前向和后向過程采取相同的離散方法。如果給定了前向SDE的離散方式:

那么我們就可以以相同的方式離散化逆向SDE:

這種方法比樸素DDPM效果略好一點。進一步,SGM向SDE求解器中加入了一個矯正器,從而讓每一步生成的樣本都有正確的分布。在求解的每一步,求解器給出一個樣本后,矯正器都使用馬爾可夫鏈蒙特卡羅方法來矯正剛生成的樣本的分布。實驗表明向求解器中加入矯正器比直接增加求解器的步數(shù)效率更高。
(2)Non-Markovian Process方法突破了原有Markovian Process的限制,其逆過程的每一步可以依賴更多以往的樣本來進行預(yù)測新樣本,所以在步長較大時也能做出較好的預(yù)測,從而加速采樣過程。其中主要的工作DDIM,不再假設(shè)前向過程是馬爾可夫過程,而是服從如下分布:

DDIM的采樣過程可以視為離散化的神經(jīng)常微分方程,其采樣過程更高效,并且支持樣本的內(nèi)插。進一步的研究發(fā)現(xiàn)DDIM可以視作流形上擴散模型PNDM的特例。
(3)Partial Sampling方法通過在generation process中忽略一部分的時間節(jié)點,而只使用剩下的時間節(jié)點來生成樣本,直接減少了采樣時間。例如,Progressive Distillation從訓(xùn)練好的擴散模型中蒸餾出效率更高的擴散模型。對于訓(xùn)練好的一個擴散模型,Progressive Distillation會從新訓(xùn)練一個擴散模型,使新的擴散模型的一步對應(yīng)于訓(xùn)練好的擴散模型的兩步,這樣新模型就可以省去老模型一半的采樣過程。具體算法如下:

不斷循環(huán)這個蒸餾過程就能讓采樣步驟指數(shù)級下降。
4 最大似然估計加強
擴散模型在最大似然估計的表現(xiàn)差于基于似然函數(shù)的生成模型,但最大化似然估計在諸多應(yīng)用場景都有重要意義,比如圖片壓縮, 半監(jiān)督學(xué)習(xí), 對抗性凈化。由于對數(shù)似然難以直接計算,研究主要集中在優(yōu)化和分析變分下界(VLB)。我們對提高擴散模型最大似然估計的模型進行了詳細的闡述。我們將其細化分類為三類方法:Objectives Designing,Noise Schedule Optimization,Learnable Reverse Variance。
(1)Objectives Designing方法利用擴散 SDE推倒出生成數(shù)據(jù)的對數(shù)似然與分?jǐn)?shù)函數(shù)匹配的損失函數(shù)的關(guān)系。這樣通過適當(dāng)設(shè)計損失函數(shù),就可以最大化 VLB 和對數(shù)似然。Song et al. 證明了可以設(shè)計損失函數(shù)的權(quán)重函數(shù),使得plug-in reverse SDE 生成樣本的似然函數(shù)值小于等于損失函數(shù)值,即損失函數(shù)是似然函數(shù)的上界。分?jǐn)?shù)函數(shù)擬合的損失函數(shù)如下:

我們只需將權(quán)重函數(shù)設(shè)為擴散系數(shù)g(t)即可讓損失函數(shù)成為似然函數(shù)的VLB,即:

(2)Noise Schedule Optimization通過設(shè)計或?qū)W習(xí)前向過程的噪聲進度來增大VLB。VDM證明了當(dāng)離散步數(shù)接近無窮時,損失函數(shù)完全由信噪比函數(shù)SNR(t)的端點決定:

那么在離散步數(shù)接近無窮時,可以通過學(xué)習(xí)信噪比函數(shù)SNR(t)的端點最優(yōu)化VLB,而通過學(xué)習(xí)信噪比函數(shù)中間部分的函數(shù)值來實現(xiàn)模型其他方面的改進。3.Learnable Reverse Variance方法學(xué)習(xí)反向過程的方差,從而較少擬合誤差,可以有效地最大化VLB。Analytic-DPM證明,在DDPM和DDIM中存在反向過程中的最優(yōu)期望和方差:

使用上述公式和訓(xùn)練好的分?jǐn)?shù)函數(shù),在給定前向過程的條件下,最優(yōu)的VLB可以近似達到。
5 數(shù)據(jù)泛化增強
擴散模型假設(shè)數(shù)據(jù)存在于歐幾里得空間,即具有平面幾何形狀的流形,并添加高斯噪聲將不可避免地將數(shù)據(jù)轉(zhuǎn)換為連續(xù)狀態(tài)空間,所以擴散模型最初只能處理圖片等連續(xù)性數(shù)據(jù),直接應(yīng)用離散數(shù)據(jù)或其他數(shù)據(jù)類型的效果較差。這限制了擴散模型的應(yīng)用場景。
數(shù)個研究工作將擴散模型推廣到適用于其他數(shù)據(jù)類型的模型,我們對這些方法進行了詳細地闡釋。我們將其細化分類為兩類方法:Feature Space Unification,Data-Dependent Transition Kernels。
(1)Feature Space Unification方法將數(shù)據(jù)轉(zhuǎn)化到統(tǒng)一形式的latent space,然后再latent space上進行擴散。LSGM提出將數(shù)據(jù)通過VAE框架先轉(zhuǎn)換到連續(xù)的latent space 上后再在其上進行擴散。這個方法的難點在于如何同時訓(xùn)練VAE和擴散模型。LSGM表明由于潛在先驗是intractable的,分?jǐn)?shù)匹配損失不再適用。LSGM直接使用VAE中傳統(tǒng)的損失函數(shù)ELBO作為損失函數(shù),并導(dǎo)出了ELBO和分?jǐn)?shù)匹配的關(guān)系:

該式在忽略常數(shù)的意義下成立。通過參數(shù)化擴散過程中樣本的分?jǐn)?shù)函數(shù),LSGM可以高效的學(xué)習(xí)和優(yōu)化ELBO。
(2)Data-Dependent Transition Kernels方法根據(jù)數(shù)據(jù)類型的特點設(shè)計diffusion process 中的transition kernels,使擴散模型可以直接應(yīng)用于特定的數(shù)據(jù)類型。D3PM為離散型數(shù)據(jù)設(shè)計了transition kernel,可以設(shè)為lazy random-walk,absorbing state等。GEODIFF為3D分子圖數(shù)據(jù)設(shè)計了平移-旋轉(zhuǎn)不變的圖神經(jīng)網(wǎng)絡(luò),并且證明了具有不變性的初分布和transition kernel可以導(dǎo)出具有不變性的邊緣分布。假設(shè)是一個平移-旋轉(zhuǎn)變換,如:

那么生成的樣本分布也有平移-旋轉(zhuǎn)不變性:

6 和其他生成模型的聯(lián)系
在下面的每個小節(jié)中,我們首先介紹其他五類重要的生成模型,并分析它們的優(yōu)勢和局限性。然后我們介紹了擴散模型是如何與它們聯(lián)系起來的,并說明通過結(jié)合擴散模型來改進這些生成模型。VAE,GAN,Autoregressive model, Normalizing flow, Energy-based model和擴散模型的聯(lián)系如下圖所示:

- DDPM可以視作層次馬爾可夫VAE(hierarchical Markovian VAE)。但DDPM和一般的VAE也有區(qū)別。DDPM作為VAE,它的encoder和decoder都服從高斯分布、有馬爾科夫行;其隱變量的維數(shù)和數(shù)據(jù)維數(shù)相同;decoder的所有層都共用一個神經(jīng)網(wǎng)絡(luò)。
- DDPM可以幫助GAN解決訓(xùn)練不穩(wěn)定的問題。因為數(shù)據(jù)是在高維空間中的低維流形中,所以GAN生成數(shù)據(jù)的分布和真實數(shù)據(jù)的分布重合度低,導(dǎo)致訓(xùn)練不穩(wěn)定。擴散模型提供了一個系統(tǒng)地增加噪音的過程,通過擴散模型向生成的數(shù)據(jù)和真實數(shù)據(jù)添加噪音,然后將加入噪音的數(shù)據(jù)送入判別器,這樣可以高效地解決GAN無法訓(xùn)練、訓(xùn)練不穩(wěn)定的問題。
- Normalizing flow通過雙射函數(shù)將數(shù)據(jù)轉(zhuǎn)換到先驗分布,這樣的作法限制了Normalizing flow的表達能力,導(dǎo)致應(yīng)用效果較差。類比擴散模型向encoder中加入噪聲,可以增加Normalizing flow的表達能力,而從另一個視角看,這樣的做法是將擴散模型推廣到前向過程也可學(xué)習(xí)的模型。
- Autoregressive model在需要保證數(shù)據(jù)有一定的結(jié)構(gòu),這導(dǎo)致設(shè)計和參數(shù)化自回歸模型非常困難。擴散模型的訓(xùn)練啟發(fā)了自回歸模型的訓(xùn)練,通過特定的訓(xùn)練方式避免了設(shè)計的困難。
- Energy-based model直接對原始數(shù)據(jù)的分布建模,但直接建模導(dǎo)致學(xué)習(xí)和采樣都比較困難。通過使用擴散恢復(fù)似然,模型可以先對樣本加入微小的噪聲,再從有略微噪聲的樣本分布來推斷原始樣本的分布,使的學(xué)習(xí)和采樣過程更簡單和穩(wěn)定。
7 擴散模型的應(yīng)用
在本節(jié)中,我們分別介紹了擴散模型在計算機視覺、自然語言處理、波形信號處理、多模態(tài)學(xué)習(xí)、分子圖生成、時間序列以及對抗學(xué)習(xí)等七大應(yīng)用方向中的應(yīng)用,并對每類應(yīng)用中的方法進行了細分并解析。例如在計算機視覺中可以用diffusion model進行圖像補全修復(fù)(RePaint):

在多模態(tài)任務(wù)中可以用diffusion model進行文本到圖像的生成(GLIDE):

還可以在分子圖生成中用diffusion model進行藥物分子和蛋白質(zhì)分子的生成(GeoDiff):

應(yīng)用分類匯總見表:

8 未來研究方向?
- 應(yīng)用假設(shè)再檢驗。我們需要檢查我們在應(yīng)用中普遍接受的假設(shè)。例如,實踐中普遍認(rèn)為擴散模型的前向過程會將數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)高斯分布,但事實并非如此,更多的前向擴散步驟會使最終的樣本分布與標(biāo)準(zhǔn)高斯分布更接近,與采樣過程一致;但更多的前向擴散步驟也會使估計分?jǐn)?shù)函數(shù)更加困難。理論的條件很難獲得,因此在實踐中操作中會導(dǎo)致理論和實踐的不匹配。我們應(yīng)該意識到這種情況并設(shè)計適當(dāng)?shù)臄U散模型。
- 從離散時間到連續(xù)時間。由于擴散模型的靈活性,許多經(jīng)驗方法可以通過進一步分析得到加強。通過將離散時間的模型轉(zhuǎn)化到對應(yīng)的連續(xù)時間模型,然后再設(shè)計更多、更好的離散方法,這樣的研究思路有前景。
- 新的生成過程。擴散模型通過兩種主要方法生成樣本:一是離散化反向擴散 SDE,然后通過離散的反向 SDE 生成樣本;另一個是使用逆過程中馬爾可夫性質(zhì)對樣本逐步去噪。然而,對于一些任務(wù),在實踐中很難應(yīng)用這些方法來生成樣本。因此,需要進一步研究新的生成過程和視角。
- 泛化到更復(fù)雜的場景和更多的研究領(lǐng)域。雖然目前diffusion model已經(jīng)應(yīng)用到多個場景中,但是大多數(shù)局限于單輸入單輸出的場景,將來可以考慮將其應(yīng)用到更復(fù)雜的場景,比如text-to-audiovisual speech synthesis。也可以考慮和更多的研究領(lǐng)域相結(jié)合。



































