靈活精確可控編輯!Dice:首個(gè)離散擴(kuò)散模型精確反演方法!
文章鏈接:https://arxiv.org/pdf/2410.08207
項(xiàng)目鏈接:https://hexiaoxiao-cs.github.io/DICE/
亮點(diǎn)直擊
- 引入了DICE,一種用于離散擴(kuò)散模型(包括多項(xiàng)擴(kuò)散和mask生成模型)的反演算法。通過(guò)記錄并注入噪聲序列或mask模式,DICE能夠在無(wú)需預(yù)定義mask或注意力操作的情況下,實(shí)現(xiàn)對(duì)離散數(shù)據(jù)的精確重構(gòu)和可控編輯。
- 通過(guò)在圖像和文本兩種模態(tài)上的全面實(shí)驗(yàn)驗(yàn)證了DICE的有效性,展示了其在不同類型的離散生成模型中的通用性。
- 證明了該方法可以將主要用于理解任務(wù)(如RoBERTa)的模型轉(zhuǎn)化為具有競(jìng)爭(zhēng)力的文本生成和編輯生成模型,展示了擴(kuò)展離散擴(kuò)散模型至新應(yīng)用的潛力。
總結(jié)速覽
解決的問(wèn)題:
離散擴(kuò)散模型雖然在圖像生成和mask語(yǔ)言建模等任務(wù)中取得了成功,但在精確控制內(nèi)容編輯方面存在局限性。當(dāng)前方法無(wú)法實(shí)現(xiàn)對(duì)離散數(shù)據(jù)的靈活編輯和準(zhǔn)確重構(gòu)。
提出的方案:
提出了DICE(可控編輯的離散反演),這是首個(gè)針對(duì)離散擴(kuò)散模型(包括多項(xiàng)擴(kuò)散和mask生成模型)的精確反演方法。DICE通過(guò)記錄在反向擴(kuò)散過(guò)程中的噪聲序列和mask模式,實(shí)現(xiàn)了無(wú)需預(yù)定義mask或注意力操作的精確重構(gòu)和靈活編輯。
應(yīng)用的技術(shù):
DICE 方法利用了在反向擴(kuò)散過(guò)程中記錄的噪聲序列和mask模式,應(yīng)用于離散數(shù)據(jù)的精確反演和可控編輯。其評(píng)估對(duì)象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越圖像和文本領(lǐng)域。
達(dá)到的效果:
DICE 保留了較高的數(shù)據(jù)保真度,并增強(qiáng)了離散空間中細(xì)粒度的內(nèi)容編輯能力,展示了在圖像和文本領(lǐng)域的有效性,提供了新的內(nèi)容操控機(jī)會(huì)。
方法
可控編輯離散反演
基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定義了一個(gè)ODE軌跡。由于ODE的確定性特性,可以通過(guò)使用歐拉法在正向方向上求解ODE來(lái)實(shí)現(xiàn)反演,確保根據(jù)ODE的固有性質(zhì)進(jìn)行重構(gòu)。相比之下,另一類研究關(guān)注基于SDE的模型,如CycleDiffusion和DDPM Inversion。廣義上講,這些方法通過(guò)記錄噪聲或殘差來(lái)確保重構(gòu),這些噪聲或殘差是重現(xiàn)隨機(jī)軌跡所需的。CycleDiffusion 在從后驗(yàn)進(jìn)行采樣時(shí)記錄高斯噪聲,并通過(guò)輸入真實(shí)的來(lái)注入信號(hào)信息。另一方面,DDPM Inversion通過(guò)將反演過(guò)程擬合到由獨(dú)立的采樣得到的人工隨機(jī)軌跡中,將信息引入。對(duì)于CycleDiffusion和DDPM Inversion,兩者的關(guān)鍵思想是利用高斯重參數(shù)化技巧,,并跟蹤“噪聲”,這些噪聲可能是從均值生成樣本的來(lái)源。對(duì)于離散擴(kuò)散模型,我們使用Gumbel-Max技巧,。下圖2提供了所提方法的直觀解釋。
多項(xiàng)擴(kuò)散的反演:類似于Huberman-Spiegelglas et al.,首先通過(guò)從進(jìn)行獨(dú)立的采樣,得到一個(gè)隨機(jī)軌跡序列 (沿著的維度填充以下采樣操作)。
請(qǐng)注意,在此使用了Gumbel Softmax技巧,這等同于從類別分布中采樣。
請(qǐng)注意,此處的潛在變量。
在這個(gè)反演過(guò)程中,潛在空間與固定的離散擴(kuò)散模型一起唯一地定義了相同的隨機(jī)軌跡。詳細(xì)算法見(jiàn)算法2。
反演mask生成模型:在mask生成建模中,隨機(jī)軌跡是根據(jù)所使用模型的特定推理算法構(gòu)建的。例如,在Paella中,mask是包含性的,這意味著隨著時(shí)間步的增加,被掩蓋的tokens集合會(huì)增加。相比之下,Unleashing Transformer在每一步采用隨機(jī)mask,其中mask是通過(guò)采樣函數(shù)獨(dú)立生成的。為簡(jiǎn)便起見(jiàn),定義一個(gè)去噪函數(shù)(由參數(shù)化)。該去噪函數(shù)根據(jù)噪聲token 輸出預(yù)測(cè)的未掩蓋數(shù)據(jù)的logits。由于在這種情況下,分類采樣發(fā)生在對(duì)去噪器預(yù)測(cè)的采樣中,因此我們定義一個(gè)相應(yīng)的潛在序列。
通過(guò)潛在空間,保證了準(zhǔn)確的重構(gòu)。然而,對(duì)于編輯任務(wù)而言,如果潛在變量主導(dǎo)了生成過(guò)程,這種精確度可能并不理想。詳細(xì)算法見(jiàn)下算法1。
為了提供更多靈活性,引入超參數(shù)、和,它們?cè)试S對(duì)編輯過(guò)程進(jìn)行更精細(xì)的控制。具體來(lái)說(shuō),表示編輯過(guò)程開(kāi)始時(shí)(也是最大)時(shí)間步,控制從原始輸入中注入的信息量,而則管理隨機(jī)噪聲的引入。
分析:描述一個(gè)簡(jiǎn)單但典型的DDPM示例,并計(jì)算編碼潛變量與輸入信號(hào)之間的互信息。
備注 3.1:給定一個(gè)簡(jiǎn)單的高斯DDPM,,潛變量通過(guò)DDPM反演獲得 (Huberman-Spiegelglas et al., 2024),則與之間的互信息為:
與之間的互信息在圖3中進(jìn)行了說(shuō)明。觀察到,從編碼到的信息量隨著的增加而減少,這促使我們探索不同的調(diào)度策略(見(jiàn)下圖7)。
實(shí)驗(yàn)
本節(jié)展示了反演方法在圖像和語(yǔ)言擴(kuò)散模型上的有效性。實(shí)驗(yàn)表明,這些方法能夠在視覺(jué)和語(yǔ)言任務(wù)中保持身份,同時(shí)成功進(jìn)行預(yù)期的更改。
圖像擴(kuò)散模型
對(duì)于圖像擴(kuò)散模型,主要研究吸收狀態(tài)離散模型,包括一個(gè)mask生成模型Paella和一個(gè)多項(xiàng)式擴(kuò)散模型VQ-Diffusion。我們展示了DICE在兩個(gè)類別中的反演重構(gòu)能力和圖像編輯性能。
數(shù)據(jù)集:由Ju等提出的基于提示的圖像編輯基準(zhǔn)(PIE-Bench)是一個(gè)最近推出的數(shù)據(jù)集,旨在評(píng)估文本到圖像(T2I)編輯方法。該數(shù)據(jù)集在9種不同場(chǎng)景中評(píng)估語(yǔ)言引導(dǎo)的圖像編輯,共有700幅圖像?;鶞?zhǔn)的詳細(xì)注釋和各種編輯任務(wù)對(duì)于全面評(píng)估我們方法的能力至關(guān)重要,確保與現(xiàn)有方法的公平一致的比較。
反演重構(gòu)
本節(jié)評(píng)估不進(jìn)行編輯時(shí)的反演準(zhǔn)確性。這是通過(guò)首先反轉(zhuǎn)圖像,然后使用記錄的潛在編碼重構(gòu)原始圖像來(lái)實(shí)現(xiàn)的。
評(píng)估指標(biāo):在此,評(píng)估DICE和掩蔽生成下原始圖像與生成圖像的圖像相似性,指標(biāo)包括PSNR、LPIPS、MSE和SSIM。
定量分析:本文的方法的重構(gòu)性能,如下表1所示,遠(yuǎn)遠(yuǎn)超過(guò)了基線插補(bǔ) + Paella模型的所有指標(biāo)。在掩蔽插補(bǔ)的情況下,所有圖像token都被隨機(jī)抽樣的token替換,意味著模型缺乏關(guān)于原始圖像的任何先驗(yàn)信息。因此,重構(gòu)圖像與被反轉(zhuǎn)的圖像存在顯著差異,導(dǎo)致相似性評(píng)分較低。相比之下,本文的方法展示了近乎完美的重構(gòu),正如指標(biāo)所示,顯著生成了一幅與原圖完全相同的圖像,而不會(huì)引入VQ-VAE/GAN量化過(guò)程通常帶來(lái)的錯(cuò)誤,如(?)token的結(jié)果所示。這突顯了本文的方法在生成高保真重構(gòu)方面的卓越準(zhǔn)確性和一致性。
編輯性能
本節(jié)討論本文提出的方法的編輯性能。由于不存在離散擴(kuò)散反演,因此將本文的方法與原文中指出的掩蔽生成進(jìn)行比較。此外,還展示了來(lái)自連續(xù)模型的指標(biāo)。
評(píng)估指標(biāo):為了展示我們提出的反演方法的有效性和效率,采用了涵蓋三個(gè)關(guān)鍵方面的八個(gè)指標(biāo):結(jié)構(gòu)距離、背景保留和編輯提示與圖像的一致性,如Ju等(2023)所述。利用Tumanyan等(2023)提出的結(jié)構(gòu)距離指標(biāo)來(lái)測(cè)量原始圖像和生成圖像之間的結(jié)構(gòu)相似性。為了評(píng)估背景在標(biāo)注的編輯掩膜之外的保留效果,我們使用峰值信噪比(PSNR)、學(xué)習(xí)感知圖像塊相似性(LPIPS)、均方誤差(MSE)和結(jié)構(gòu)相似性指數(shù)(SSIM)。還使用CLIP相似性得分來(lái)評(píng)估編輯提示與生成圖像之間的一致性,該得分是在整幅圖像和由編輯掩膜定義的區(qū)域內(nèi)計(jì)算的。
結(jié)果:下表2展示了使用Paella和VQ-Diffusion的DICE定量結(jié)果,并與連續(xù)擴(kuò)散模型以及插補(bǔ)進(jìn)行了比較。值得注意的是,本文的方法在Paella模型下實(shí)現(xiàn)了最低的結(jié)構(gòu)距離11.34,超越了包括連續(xù)擴(kuò)散模型在內(nèi)的所有其他方法。此外,雖然Stable Diffusion v1.4的DDPM反演在整體和編輯區(qū)域的CLIP相似性得分中顯示出最高,但本文的方法與Paella保持了競(jìng)爭(zhēng)力的CLIP相似性。考慮到結(jié)構(gòu)距離的顯著降低,本文的方法在結(jié)構(gòu)保留和語(yǔ)義對(duì)齊的平衡上表現(xiàn)出色。此外,結(jié)合VQ-Diffusion后,本文的方法繼續(xù)展現(xiàn)出強(qiáng)勁的性能。
表3中的結(jié)果清晰地展示了本文的方法在背景保留能力上優(yōu)于DDIM+SDv1.4。所有四個(gè)指標(biāo)強(qiáng)調(diào)了本文的方法在保留圖像未編輯區(qū)域的結(jié)構(gòu)一致性。這些結(jié)果展示了本文的方法在編輯過(guò)程中保持背景完整性的有效性,并提供了原始圖像信息注入DICE潛在空間的證據(jù)。
圖下4展示了使用DICE的Paella和VQ-Diffusion的編輯結(jié)果。兩個(gè)模型都成功地根據(jù)目標(biāo)提示修改了真實(shí)圖像。在所有情況下,我們的結(jié)果都展現(xiàn)出對(duì)輸入圖像的高保真度和對(duì)目標(biāo)提示的遵循。
語(yǔ)言擴(kuò)散模型
研究者們?cè)赗oBERTa上評(píng)估DICE,這是一種文本離散擴(kuò)散模型,用于生成對(duì)立情感的句子,同時(shí)保留結(jié)構(gòu)相似性。我們從兩個(gè)提示開(kāi)始——一個(gè)是積極情感,另一個(gè)是消極情感。每個(gè)提示包含兩個(gè)句子:第一個(gè)句子指示情感類型并設(shè)置上下文背景,第二個(gè)句子是反轉(zhuǎn)和生成的目標(biāo)。最初,我們使用整個(gè)提示作為上下文,反轉(zhuǎn)消極情感提示的第二個(gè)句子,生成該句子的噪聲標(biāo)記表示。接下來(lái),我們通過(guò)將積極情感提示的第一個(gè)句子與反轉(zhuǎn)的消極句子的噪聲標(biāo)記拼接在一起,來(lái)對(duì)模型進(jìn)行條件設(shè)置。這一設(shè)置引導(dǎo)模型生成一新第二句,該句反映了原始消極句的結(jié)構(gòu),但表達(dá)積極情感。
評(píng)估模型在保持原始句子結(jié)構(gòu)元素的同時(shí),反轉(zhuǎn)并生成與指定情感一致的文本的能力。
反演過(guò)程
實(shí)驗(yàn)中,特別關(guān)注于反轉(zhuǎn)第二個(gè)句子(在下表6中以紅色標(biāo)出),同時(shí)保持第一個(gè)句子(黑色)不變,因?yàn)樗ǔ0匾纳舷挛男畔?。在反演過(guò)程中,我們的目標(biāo)是通過(guò)從反轉(zhuǎn)階段獲得的噪聲標(biāo)記中恢復(fù)第二個(gè)句子,以進(jìn)行重建/編輯。
數(shù)據(jù)集生成
為了評(píng)估編輯性能,設(shè)計(jì)并提出了一個(gè)新數(shù)據(jù)集,稱為情感編輯(Sentiment Editing)。該數(shù)據(jù)集的目標(biāo)是在保持句子結(jié)構(gòu)的同時(shí)編輯句子的情感,并且遵循句子的主題。這里展示了數(shù)據(jù)集中兩組句子。
反演重建
與圖像生成部分類似,首先展示所提方法的反演和重建能力。該過(guò)程包括反演句子,然后使用相同的提示生成第二個(gè)句子的重建版本。
評(píng)估指標(biāo)對(duì)于重建,使用命中率(Hit Rate),定義為每種方法生成與原句相同的句子的比例。此外,我們計(jì)算語(yǔ)義文本相似度(Semantic Textual Similarity,STS)得分,通過(guò)測(cè)量句子嵌入之間的余弦相似度,使用Reimers等人(2019)提出的模型。
定量分析下表4比較了DICE與使用RoBERTa的mask生成在兩個(gè)指標(biāo)上的表現(xiàn):準(zhǔn)確率和語(yǔ)義文本相似度。我們的方 法在這兩個(gè)指標(biāo)上顯著超過(guò)了mask生成,證明我們的zt潛在空間有效捕捉了被反演句子的信息,并促進(jìn)了其后續(xù)的重建。
句子編輯
在這一部分,我們?cè)u(píng)估所提反演方法在RoBERTa上的編輯性能。在表6中,負(fù)向提示列下以黑色顯示的句子是在反演過(guò)程中輸入的。被反演的句子以紅色顯示。對(duì)于編輯,提示隨后被替換為右側(cè)的黑色句子,并在末尾添加噪聲以進(jìn)行正向過(guò)程。正向過(guò)程中噪聲的輸出以藍(lán)色呈現(xiàn)。
評(píng)估指標(biāo)
對(duì)于句子編輯任務(wù),我們根據(jù)兩個(gè)標(biāo)準(zhǔn)評(píng)估生成的句子:(1) 結(jié)構(gòu)保留,評(píng)估句子的結(jié)構(gòu)是否得以保留,(2) 情感正確性,評(píng)估編輯后句子的情感是否與原始提示的情感一致。結(jié)構(gòu)保留率和情感正確率均使用ChatGPT-4作為分類器進(jìn)行計(jì)算。關(guān)于使用ChatGPT進(jìn)行評(píng)估的詳細(xì)信息可以在補(bǔ)充材料中查看。
結(jié)果下表5展示了兩種文本編輯方法的比較分析,這兩種方法均采用RoBERTa,重點(diǎn)關(guān)注在結(jié)構(gòu)保留和情感正確性方面的有效性。我們的方 法在這兩個(gè)指標(biāo)上顯著優(yōu)于mask生成。這一差異突顯了我們反演方法在潛在空間中編碼原始文本結(jié)構(gòu)的卓越能力,以及更準(zhǔn)確地調(diào)整情感的靈活性。
前面表6展示了初始提示和編輯結(jié)果。本文的方法在保留負(fù)向提示的句子結(jié)構(gòu)的同時(shí),將其情感修改為更積極的情感。
結(jié)論
DICE(可控編輯的離散反演),一種用于離散擴(kuò)散模型的反演算法,包括多項(xiàng)式擴(kuò)散和mask生成模型。通過(guò)在逆擴(kuò)散過(guò)程中利用記錄的噪聲序列和mask模式,DICE實(shí)現(xiàn)了對(duì)離散數(shù)據(jù)的準(zhǔn)確重構(gòu)和靈活編輯,而無(wú)需預(yù)定義的mask或交叉注意力操作。在多個(gè)模型和模態(tài)(如圖像和文本)上的實(shí)驗(yàn)展示了DICE在保持?jǐn)?shù)據(jù)保真度的同時(shí)增強(qiáng)編輯能力的有效性。此外,還展示了DICE將RoBERTa這一傳統(tǒng)上專注于數(shù)據(jù)理解的模型轉(zhuǎn)變?yōu)槲谋旧珊途庉嫷纳赡P偷臐摿?。我們相信,DICE增強(qiáng)了離散生成模型的能力,為在離散空間中的精細(xì)內(nèi)容操控提供了新的機(jī)會(huì)。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
