偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)

發(fā)布于 2024-4-18 11:56
瀏覽
0收藏

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2403.17924
代碼&demo:???https://github.com/QY-H00/attention-interpolation-diffusion??


條件擴散模型可以在各種設(shè)置中創(chuàng)建未見過的圖像,有助于圖像插值。潛在空間中的插值已經(jīng)得到了深入研究,但是帶有特定條件(如文本或姿態(tài))的插值則了解較少。簡單的方法,比如在條件空間中進行線性插值,通常會導(dǎo)致圖像缺乏一致性、平滑性和保真度。為此,本文引入了一種新穎的無需訓(xùn)練的技術(shù),名為通過擴散進行注意力插值(AID)。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

主要貢獻包括:

  • 提出了內(nèi)/外插值注意力層;
  • 將插值關(guān)注與自注意力融合,以提高保真度;
  • 應(yīng)用貝塔分布進行選擇,增加平滑度。


本文還提出了一種變體,稱為通過提示引導(dǎo)的注意力插值(PAID),它將插值視為一種條件相關(guān)的生成過程。這種方法使得可以更一致、更平滑、更高效地創(chuàng)建新的圖像,并能夠?qū)Σ逯档拇_切路徑進行控制。我們的方法在概念和空間插值方面表現(xiàn)出了有效性。

介紹

在生成模型的潛在空間中進行插值,例如變分自編碼器(VAEs)、生成對抗網(wǎng)絡(luò)(GANs)和擴散模型已經(jīng)得到了廣泛的研究。插值允許模型在潛在空間內(nèi)從一個種子到另一個種子生成平滑過渡的圖像,從而促進了諸如圖像屬性修改、數(shù)據(jù)增強和視頻插值等應(yīng)用。最近對文本到圖像擴散模型的研究進展表明其能夠生成受文本描述條件約束的高質(zhì)量圖像。與潛在空間插值不同,插值在條件空間內(nèi)進行,本例中是文本,仍然相對未被深入研究。本文探討了在擴散模型環(huán)境中如何在不同條件之間進行插值的新問題,例如在擴散模型的背景下的“一輛卡車”和“一只貓”。


最相關(guān)的工作涉及使用擴散模型進行兩個真實世界圖像之間的插值。他們將圖像描述為文本,然后在文本embedding空間內(nèi)采用線性插值對兩個圖像進行插值。然而,當(dāng)概念顯著不同時,這種方法可能失敗,因此強調(diào)了任務(wù)的固有難度,如下圖2中的第一行所示。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

我們確定了條件空間插值面臨的三個主要挑戰(zhàn):確保主題一致性(避免不相干的過渡,例如“狗”通過“碗”變成“貓”)),在相鄰圖像之間確保平滑的視覺過渡,并獲得高質(zhì)量的插值圖像?;谶@三個挑戰(zhàn),制定了條件插值的任務(wù),并提出了三個評估指標(biāo):一致性、平滑性和保真度。

?

為了解決這些問題,引入了一種新穎的框架,即擴散注意力插值(AID),它包括幾項創(chuàng)新,以增強條件插值的質(zhì)量:

  • 用雙(內(nèi)部/外部)插值注意力機制替換標(biāo)準(zhǔn)注意力,以保持來自兩個源圖像的關(guān)鍵視覺特征,從而提高一致性;
  • 將插值注意力與自注意力相結(jié)合,進一步增強一致性和圖像保真度;
  • 提出沿插值路徑的貝塔分布選擇以增加平滑度。
  • 還將插值重新構(gòu)想為一種條件相關(guān)的生成過程,并引入了通過提示引導(dǎo)的擴散注意力插值(PAID)。


我們的方法無需訓(xùn)練,實驗結(jié)果表明,它顯著增強了在各種條件下插值序列的平滑性、一致性和保真度,如下圖1、5和6所示。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

AID能夠有效地管理不同概念或空間布局之間的插值,使用內(nèi)部或外部插值注意力,并可以通過提示指導(dǎo)進行進一步定制,正如我們的結(jié)果所示。

主要貢獻:

  • 在文本到圖像擴散模型的環(huán)境中制定了條件插值的新問題,并提出了三個評估指標(biāo)以評估一致性、平滑性和保真度。
  • 引入了一種新穎的zero-shot方法,稱為擴散注意力插值(AID),其中包括融合的內(nèi)部/外部插值注意力機制和貝塔先驗選擇,以提高插值序列的質(zhì)量。AID可以通過提示引導(dǎo)插值(PAID)來進一步控制兩個條件之間的特定路徑。
  • 通過廣泛的實驗證明,AID顯著改善了插值序列的定性和定量指標(biāo),插值序列的保真度、一致性和平滑度均有顯著提升。

相關(guān)工作

擴散模型和注意力操縱

擴散模型的出現(xiàn)顯著改變了文本到圖像合成領(lǐng)域,確保了圖像質(zhì)量的提升,并且與文本描述更好地對齊,正如最近的研究所證實的。注意力操縱技術(shù)在釋放擴散模型潛力方面發(fā)揮了關(guān)鍵作用,特別是在修復(fù)和組合對象生成等應(yīng)用中。這些應(yīng)用從對注意力圖的精細控制中獲益,使修飾符與目標(biāo)對象更緊密地對齊,從而增強圖像的一致性。此外,跨幀注意力機制已顯示出在利用擴散模型的視頻生成框架中增強視覺一致性的潛力。這一系列工作表明了一個值得注意的假設(shè):兩個生成圖像的視覺接近程度可能反映在它們各自注意力圖的相似性上。這也激發(fā)了我們從注意力機制的角度研究插值的動機。

圖像生成模型中的插值

在生成模型的潛在空間內(nèi)進行插值,例如生成對抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAEs),已經(jīng)得到了廣泛的研究。最近的進展將這種探索擴展到了擴散模型的潛在空間,實現(xiàn)了更真實的真實世界圖像之間的插值。然而,迄今為止的工作僅限于單一條件,缺乏專注于在不同條件下進行插值的研究。王等人探索了在文本embedding中進行線性插值的用法,以插值真實世界圖像,然而這種方法通常會導(dǎo)致圖像的保真度和平滑度降低。這一研究空白突顯了對生成模型內(nèi)條件插值進一步探索的需求,可能擴展其在各個領(lǐng)域的適用性。

前提和分析

前提條件

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)


插值。插值在計算機圖形學(xué)中已經(jīng)得到了廣泛研究。在本文中,主要關(guān)注張量之間的線性插值。給定張量A和張量B,線性插值路徑r(t),其中t ∈[0,1],定義為:

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

通常,為了離散化插值路徑,先前的工作[14, 30, 36, 39, 44]采用均勻分布的點來提供插值序列。形式上,給定大小為m,序列表示為:

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

條件插值的問題形式化

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

感知平滑性。在先前在潛在空間進行插值的工作中,通常忽視了平滑性。他們的主要重點是評估連續(xù)的感知路徑,其中PPL既表示一致性又表示平滑性。然而,在考慮離散插值序列時,情況并非如此。例如,如果序列中的所有插值圖像都相同,則序列不平滑,但一致性值較低。因此,我們需要一個獨特的指標(biāo)來評估平滑性。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

其中模型Mv是一個視覺Inception模型。FID評估了插值圖像的感知特征分布與源圖像的差異程度。我們的制定與先前的研究有所不同,重點在于對離散樣本的評估,即插值序列,而不是連續(xù)的插值路徑。這是至關(guān)重要的,因為插值序列的質(zhì)量不僅取決于插值路徑的質(zhì)量,還取決于如何選擇插值路徑上的確切樣本,而先前的方法忽視了這一點。此外,在實際使用中,插值序列的大小通常較低。因此,我們的評估框架專門設(shè)計用于插值序列。

這三個指標(biāo)定量評估了插值序列的質(zhì)量。下面描述這些評估指標(biāo)如何反映這一任務(wù)的挑戰(zhàn)。


樸素條件插值的失敗

條件插值最基本的方法是在編碼的條件空間內(nèi)應(yīng)用線性或球面插值。例如,[42]在不同的文本embedding和姿態(tài)之間進行插值,而[16]在編碼不同風(fēng)格的向量之間進行插值。我們觀察到三個問題使得這樣的方法存在問題,導(dǎo)致結(jié)果具有較差的一致性、平滑性和保真度。

?

問題1:間接路徑。通過文本embedding空間的路徑與視覺空間中的自然路徑不一致,導(dǎo)致一致性降低。例如,從“一個蘋果”到“一張床”之間的插值可能會經(jīng)過像“一張凌亂的草圖”之類的中間階段。

?

問題2:非均勻過渡。文本embedding空間不能保證是均勻的,導(dǎo)致在選擇均勻分布點進行插值序列時出現(xiàn)非平滑的視覺過渡。出現(xiàn)在生成模型訓(xùn)練數(shù)據(jù)集中頻率較高的條件將主導(dǎo)插值路徑。為了驗證,我們在Stable Diffusion模型的訓(xùn)練中,對一個罕見概念和一個常見概念之間進行插值。以從“氧氣面罩”,一個罕見概念,到“獅子”的插值序列為例,大多數(shù)插值圖像受“獅子”的影響。

?

問題3:通常質(zhì)量低。插值的文本embedding可能與現(xiàn)有文本不對應(yīng),這意味著它可能與原始文本embedding的分布存在顯著偏差,從而導(dǎo)致圖像質(zhì)量較低。這種現(xiàn)象也存在于從“一個蘋果”到“一張床”的插值中,插值圖像的保真度與原始圖像相比降低。下圖2中從第二列到第五列的插值路徑中的圖像質(zhì)量下降就是一個例子。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

進行了大量實驗來進一步驗證這些觀察結(jié)果。這些問題激發(fā)了我們提出相應(yīng)方法來解決這些問題。

方法論

為了解決前面提到的問題,提出了相應(yīng)的方法來解決其中的每一個問題:

  • 插值注意力以增強感知一致性;
  • 融合自注意力以增強保真度;
  • 引入Beta先驗以增強平滑度。
  • 超越對特定插值序列質(zhì)量的定量評估指標(biāo),我們將插值重新建立在文本描述上,并提出用提示引導(dǎo)插值。


下面分別詳細描述每個組件。

內(nèi)/外插值注意力機制

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

其中,Attn是注意力層。將這種插值稱為內(nèi)插值注意力,因為它分別對關(guān)鍵詞和值進行插值。


擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)


在注意力機制內(nèi)部的插值可以以兩種形式實現(xiàn):要么通過內(nèi)插值注意力,如方程9所示,要么通過插值注意力過程的輸出(上下文向量),我們稱之為外插值注意力。后者可以形式化為:

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

方程9中的內(nèi)插值注意力和方程10中的外插值注意力之間的區(qū)別在于它們的值向量:方程9利用相同的注意力映射來處理V1和Vm,而方程10使用來自不同來源的值向量的不同注意力映射。展示了每種方法在前面中不同指標(biāo)上的優(yōu)勢。觀察到內(nèi)部注意力插值更適合進行概念插值,而外部注意力插值更適合進行空間插值。在附錄A中通過數(shù)學(xué)歸納和更多的定性結(jié)果展示了這兩種實現(xiàn)之間的差異。在實踐中,將AID-O作為默認(rèn)選擇,并建議僅在有提示指導(dǎo)的情況下使用AID-I。

融合自注意力

簡單地應(yīng)用注意力插值可以極大提高效率。然而,插值序列仍然缺乏保真度,與前面提出的質(zhì)量問題相呼應(yīng)。我們假設(shè)原因是完全替換了自注意力機制,盡管自注意力被認(rèn)為對生成圖像的質(zhì)量至關(guān)重要。因此,我們將插值潛在變量的關(guān)鍵詞和值與自注意力機制進行了融合,通過串聯(lián),將其納入到方程9和方程10中,從而實現(xiàn)了融合注意力插值。形式上,內(nèi)插值注意力的融合版本可以表示為:

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

外插值注意力的融合版本可以表示為:

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

融合注意力插值顯著提高了一致性和保真度。

使用Beta先驗進行序列選擇

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

為了找到最佳的超參數(shù)α和β,在α和β上應(yīng)用貝葉斯優(yōu)化來優(yōu)化生成的插值序列的一致性。

提示引導(dǎo)

我們的一個洞見是,考慮到兩個源圖像,插值路徑的假設(shè)空間實際上是龐大且多樣的,然而大多數(shù)插值方法提供了兩個源圖像之間的確定性路徑。這自然引出了一個問題,即如何控制我們想要的插值路徑。


注入引導(dǎo)提示作為條件。幸運的是,由于我們將插值機制納入原始的自注意力層中,我們不再需要依賴于沿著文本embedding的插值。相反,我們用引導(dǎo)提示的文本embedding替換插值圖像的原始文本embedding。假設(shè)從引導(dǎo)提示獲取的關(guān)鍵詞和值分別為Kg和Vg。通過提示進行引導(dǎo)是通過將原始的文本-圖像交叉注意力替換為:

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

在實踐中,用戶提供引導(dǎo)提示以選擇基于文本描述的插值路徑,如前面圖1(f)所示。令人驚訝的是,我們觀察到,引導(dǎo)提示的注意力插值使模型能夠生成一些原本不存在的組合場景(請參見下圖4中“飛機和鹿”的示例)。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

插值和引導(dǎo)之間的權(quán)衡的預(yù)熱步驟。我們觀察到,去噪的早期步驟對于確定生成圖像的空間布局至關(guān)重要。因此,可以通過設(shè)置預(yù)熱步驟的數(shù)量在插值效果和提示引導(dǎo)之間進行權(quán)衡。在進行了幾個預(yù)熱步驟之后,將注意力插值轉(zhuǎn)變?yōu)橐粋€簡單的生成過程。

實驗

實驗設(shè)置

評估協(xié)議。根據(jù)一致性、平滑度和保真度來評估我們的方法,對于每個數(shù)據(jù)集的實驗,每次運行5次試驗,每次試驗運行N = 100次迭代。在每次迭代中,隨機選擇兩個條件,并生成大小為m = 7的插值序列。然后根據(jù)所有插值序列的平均值來評估插值方法。對于一致性和平滑度,遵循常規(guī)設(shè)置,并選擇VGG16來計算LPIPS。對于保真度,根據(jù)先前的文獻,使用谷歌v3 Inception模型來計算源圖像和插值圖像之間的FID。將所有迭代和試驗的平均值報告為最終結(jié)果。


推理配置。將 Stable Diffusion 1.4 作為基本模型來實現(xiàn)注意力插值機制。除了替換注意力模塊外,保持其他設(shè)置與原始模型相同。在所有實驗中,圖像大小為512x512,使用DDIM調(diào)度器進行生成,包括25個時間步長。


選擇配置。在對beta先驗中的α和β進行貝葉斯優(yōu)化之前,將插值序列的平滑度設(shè)置為目標(biāo)指標(biāo),將兩個超參數(shù)的范圍設(shè)置為[1,30],使用9個固定探索,其中α和β從{20,25,30}中選擇,以及15次迭代進行優(yōu)化。


數(shù)據(jù)集。使用來自各種數(shù)據(jù)集的語料庫來評估我們提出的框架在不同文本條件下的性能。

CIFAR-10:CIFAR-10數(shù)據(jù)集包括60,000個32x32的彩色圖像,分布在10個類別中。該數(shù)據(jù)集通常用于對分類算法進行基準(zhǔn)測試。在我們的上下文中,使用類名作為提示來生成與特定類別相對應(yīng)的圖像。CIFAR-10語料庫有助于評估我們的框架PAID在處理描述明確的簡短提示時的有效性。


LAION-Aesthetics:從更大的LAION-5B收集中抽樣了LAION-Aesthetics數(shù)據(jù)集,該數(shù)據(jù)集的美學(xué)評分超過6分,經(jīng)過篩選,視覺質(zhì)量很高。與CIFAR-10不同,該數(shù)據(jù)集為圖像提供了廣泛的真實標(biāo)注,包括長篇且不太直接的描述。這些特點為基于文本的分析提供了更復(fù)雜的挑戰(zhàn)。我們使用該數(shù)據(jù)集來測試我們的框架在更具挑戰(zhàn)性的場景中的插值能力。


比較方法。據(jù)我們所知,唯一的相關(guān)方法是 [44],該方法對實際圖像插值使用了文本embedding的線性插值。將其稱為文本embedding插值。此外,還與另一種方法進行比較,稱為去噪插值,該方法沿著去噪計劃進行插值。具體來說,給定提示A和提示B以及去噪步驟數(shù)N,對于插值系數(shù)t,我們在前?tN?步中使用提示A進行引導(dǎo),并在其余步中使用提示B進行引導(dǎo)。在我們的框架內(nèi),基于內(nèi)部注意力插值標(biāo)記為"AID-I"和外部注意力插值標(biāo)記為"AID-O"進行比較。

定性結(jié)果

對于定性分析,觀察到AID-I更傾向于在概念或風(fēng)格上進行插值。另一方面,AID-O強烈增強了感知一致性,并鼓勵在圖像的空間布局中進行插值,如下圖5所示。即使在兩個非常長的提示之間進行插值,我們的方法也能夠?qū)崿F(xiàn)直接而平滑的插值,保真度很高,如下圖6所示。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

定量結(jié)果

根據(jù)前面的評估協(xié)議定量評估我們的方法,如下表1所示。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

發(fā)現(xiàn)AID-O在所有評估指標(biāo)上的性能都有顯著提高。雖然AID-I在平滑度方面表現(xiàn)最好,但AID-O在一致性方面有顯著提高(在CIFAR-10上為-20.3%,在LAION-Aesthetics上為-23.9%),并且在保真度方面也有顯著提高(在CIFAR-10上為-66.62,在LAION-Aesthetics上為-60.37)。觀察到AID-I的保真度不及AID-O,甚至不如去噪插值。然而,當(dāng)與提示引導(dǎo)相結(jié)合時,AID-I的定性結(jié)果更好,在附錄D中展示了更多細節(jié)。我們建議在沒有提示引導(dǎo)時使用AID-O,在有提示引導(dǎo)時使用AID-I。


還觀察到,LAION-Aesthetics的結(jié)果通常比CIFAR-10差,因為長提示插值更具挑戰(zhàn)性。盡管如此,我們的方法與文本embedding插值相比仍然有很大的改進。

消融研究

對應(yīng)用于CIFAR-10數(shù)據(jù)集的AID-O框架進行了消融研究,重點關(guān)注AID的三個主要設(shè)計元素:注意力插值、自注意力和使用beta先驗進行選擇,如表2所總結(jié)的那樣。需要注意的是,與自注意力的融合不能單獨運行;因此,它總是與注意力插值結(jié)合使用。


從下表2可以看出,beta先驗有助于增加平滑度。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

來自Beta先驗對平滑度的邊際貢獻分別為0.0464(文本embedding插值)、0.0671(與注意力插值一起)、0.1595(與融合注意力插值一起)。此外,注意力插值提高了一致性,將指標(biāo)從0.3645降低到0.3201,與文本embedding插值相比有所改善。在與自注意力的融合的情況下,我們觀察到保真度有所提高,指標(biāo)分別從101.89提高到52.51,從155.01提高到51.43。


顯然,雖然具有beta先驗的注意力插值(不與自注意力融合)在平滑度上實現(xiàn)了最佳表現(xiàn),但代價是保真度較低,生成的圖像往往質(zhì)量較差,如表2中定量展示的和圖7中定性展示的。


同樣地,盡管沒有 beta 先驗的 AID 實現(xiàn)了最佳的一致性結(jié)果,但在平滑度方面有過多的折衷(0.6236),如下圖7所示。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

結(jié)論

本研究引入了一個新穎的任務(wù):在擴散模型中進行條件插值,以及評估指標(biāo),包括一致性、平滑度和保真度。我們提出了一種新穎的方法,稱為AID,旨在在不同條件下生成圖像之間的插值。通過定性和定量分析,展示了這種方法在性能上顯著超越了基線,而且無需訓(xùn)練。此外,介紹了PAID,這是一種擴展,允許用戶使用引導(dǎo)提示來選擇插值路徑。我們的方法無需訓(xùn)練,拓展了生成模型插值的范圍,為各種應(yīng)用提供了新的機會,例如組合生成、圖像編輯、數(shù)據(jù)增強和視頻插值。

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)

擴散模型中進行條件插值?AID:無需訓(xùn)練,保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區(qū)


本文轉(zhuǎn)自 AI生成未來 ,作者:Qiyuan He等


原文鏈接:??https://mp.weixin.qq.com/s/hp_eRL0zpwYxwVHnaT6bhw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦