偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布 精華

發(fā)布于 2024-8-29 10:22
瀏覽
0收藏

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

文章地址:https://arxiv.org/pdf/2405.05224

?

擴(kuò)散模型是一個(gè)強(qiáng)大的生成框架,但推理過程非常昂貴?,F(xiàn)有的加速方法通常會(huì)在極低步驟情況下犧牲圖像質(zhì)量,或者在復(fù)雜條件下失敗。這項(xiàng)工作提出了一個(gè)新穎的蒸餾框架Imagine Flash,旨在通過僅使用一到三個(gè)步驟實(shí)現(xiàn)高保真度和多樣化樣本生成。方法包括三個(gè)關(guān)鍵組成部分:


反向蒸餾,通過校準(zhǔn)學(xué)生模型自身的反向軌跡來緩解訓(xùn)練推理差異;
遷移重構(gòu)損失,根據(jù)當(dāng)前時(shí)間步動(dòng)態(tài)調(diào)整知識(shí)傳遞;
噪聲校正,一種增強(qiáng)樣本質(zhì)量的推理時(shí)技術(shù),通過解決噪聲預(yù)測(cè)中的奇異性來改善樣本質(zhì)量。


通過大量實(shí)驗(yàn)證明,我們的方法在定量指標(biāo)和人類評(píng)估方面優(yōu)于現(xiàn)有競(jìng)爭對(duì)手。值得注意的是,我們的方法僅使用三個(gè)去噪步驟就實(shí)現(xiàn)了與教師模型相當(dāng)?shù)男阅?,?shí)現(xiàn)了高效的高質(zhì)量生成。

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

生成的效果圖

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

介紹

隨著去噪擴(kuò)散模型(DMs)的出現(xiàn),生成建模已經(jīng)發(fā)生了一場(chǎng)范式轉(zhuǎn)變。這些模型在各個(gè)領(lǐng)域樹立了新的基準(zhǔn),提供了前所未有的逼真性和多樣性,同時(shí)確保了穩(wěn)定的訓(xùn)練。然而,去噪過程的順序性質(zhì)帶來了顯著挑戰(zhàn)。從DMs中抽樣是一個(gè)耗時(shí)和昂貴的過程,所需時(shí)間在很大程度上取決于兩個(gè)因素:(i)每步神經(jīng)網(wǎng)絡(luò)評(píng)估的延遲,以及 (ii)去噪步驟的總數(shù)。


大量的研究工作致力于加速抽樣過程。對(duì)于文本到圖像的合成,提出的方法涵蓋了廣泛的技術(shù),包括高階求解器、用于曲率降低的修改擴(kuò)散公式,以及引導(dǎo)、步驟和一致性蒸餾。這些方法取得了令人印象深刻的改進(jìn),在接近10步的區(qū)間內(nèi)達(dá)到了非常高的質(zhì)量。最近,利用蒸餾和對(duì)抗性損失兩者的混合方法[17,31,39]將界限推動(dòng)到了不到五步。盡管這些方法在簡單提示和簡單樣式(如動(dòng)畫)上取得了令人印象深刻的質(zhì)量,但它們?cè)谡鎸?shí)照片般的圖像上,特別是在復(fù)雜的文本條件下,樣本質(zhì)量下降。


上述方法中的一個(gè)共同主題是試圖將少步驟的學(xué)生模型與復(fù)雜的教師路徑對(duì)齊,盡管學(xué)生模型具有明顯較低的容量(即步驟)。我們認(rèn)識(shí)到這是一個(gè)限制,因此提出了一種新穎的蒸餾框架,旨在使教師模型沿著自己的擴(kuò)散路徑改進(jìn)學(xué)生模型??傊?,本文貢獻(xiàn)有三個(gè)方面:

  • 首先,方法引入了反向蒸餾,這是一種設(shè)計(jì)用于在其自身上游反向軌跡上校準(zhǔn)學(xué)生模型的蒸餾過程,從而減少了訓(xùn)練和推理分布之間的差距,并確保在所有時(shí)間步長上訓(xùn)練期間沒有數(shù)據(jù)泄漏。
  • 其次,提出了一種遷移重構(gòu)損失,它動(dòng)態(tài)地調(diào)整來自教師模型的知識(shí)遷移。具體而言,該損失被設(shè)計(jì)為在高時(shí)間步長時(shí)從教師模型中提煉全局結(jié)構(gòu)信息,而在低時(shí)間步長時(shí)專注于渲染細(xì)粒度細(xì)節(jié)和高頻成分。這種自適應(yīng)方法使學(xué)生能夠有效地模擬教師的生成過程在擴(kuò)散軌跡的不同階段。
  • 最后,提出了噪聲校正,這是一種在推理時(shí)修改,通過解決在初始采樣步驟中存在的噪聲預(yù)測(cè)模型中的奇異性來增強(qiáng)樣本質(zhì)量的技術(shù)。這種無需訓(xùn)練的技術(shù)減輕了對(duì)比度和顏色強(qiáng)度的降級(jí),這種降級(jí)通常會(huì)在極低數(shù)量的去噪步驟中操作時(shí)出現(xiàn)。


通過將這三個(gè)新穎組件協(xié)同結(jié)合起來,將我們的蒸餾框架應(yīng)用到基線擴(kuò)散模型Emu中,從而實(shí)現(xiàn)了Imagine Flash,在極低步長區(qū)間內(nèi)實(shí)現(xiàn)了高質(zhì)量的生成,而不會(huì)影響樣本質(zhì)量或條件保真度(下圖2)。通過大量實(shí)驗(yàn)和人類評(píng)估,展示了我們的方法在各種任務(wù)和模態(tài)之間實(shí)現(xiàn)了抽樣效率和生成質(zhì)量之間的有利折衷。

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

方法

Imagine Flash,這是一種新穎的蒸餾技術(shù),旨在快速進(jìn)行文本到圖像的生成,它建立在Emu 的基礎(chǔ)上,但不局限于此。與原始的Emu模型不同,后者需要至少50個(gè)神經(jīng)函數(shù)評(píng)估(NFEs)才能生成高質(zhì)量的樣本,Imagine Flash僅需少量NFEs即可實(shí)現(xiàn)可比較的結(jié)果。提出的蒸餾方法包括三個(gè)新穎的關(guān)鍵組成部分:

  • 反向蒸餾,這是一種蒸餾過程,確保了在所有時(shí)間點(diǎn)t上的訓(xùn)練期間零數(shù)據(jù)泄漏。
  • 遷移重構(gòu)損失(SRL),這是一種自適應(yīng)損失函數(shù),旨在最大化從教師模型中的知識(shí)遷移。
  • 噪聲校正,這是一種無需訓(xùn)練的推理修改,用于改善在噪聲預(yù)測(cè)模式下訓(xùn)練的少步驟方法的樣本質(zhì)量。


接下來,假設(shè)可以訪問一個(gè)預(yù)訓(xùn)練的擴(kuò)散模型,它預(yù)測(cè)噪聲估計(jì)ε。這個(gè)教師模型可以在圖像空間或潛在空間中操作。我們的目標(biāo)是將的知識(shí)蒸餾到一個(gè)學(xué)生模型中,同時(shí)減少抽樣步驟的總數(shù),并提供額外允許中每一步的高質(zhì)量增加。如果模型使用無分類器的引導(dǎo)(cfg),那么也將這些知識(shí)蒸餾到學(xué)生模型中,并且消除cfg的需要。

反向蒸餾

總的來說,反向蒸餾消除了所有時(shí)間步驟t上的信息泄漏,防止模型依賴于真值信號(hào)。這是通過在訓(xùn)練期間模擬推理過程來實(shí)現(xiàn)的,這也可以解釋為在其自身的上游反向路徑上校準(zhǔn)學(xué)生模型。

SRL:遷移重構(gòu)損失

通過反向擴(kuò)散進(jìn)行圖像生成的過程中,早期階段(其中t接近T)對(duì)于構(gòu)建圖像的整體結(jié)構(gòu)和組成至關(guān)重要。相反,后期階段(其中t接近0)對(duì)于添加高級(jí)細(xì)節(jié)至關(guān)重要。借鑒這一觀察結(jié)果,對(duì)默認(rèn)的知識(shí)蒸餾損失進(jìn)行了改進(jìn),鼓勵(lì)學(xué)生模型學(xué)習(xí)教師模型的結(jié)構(gòu)組成和細(xì)節(jié)渲染能力。這涉及將教師去噪的起始點(diǎn)從學(xué)生的起始點(diǎn)t移開,因此我們將這種方法稱為遷移重構(gòu)損失(SRL)。下圖4概述了提出的Loss。

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

這種方法鼓勵(lì)學(xué)生在早期后向步驟中優(yōu)先提取結(jié)構(gòu)知識(shí),并在最后后向步驟中集中精力生成更精細(xì)的細(xì)節(jié)。

噪聲校正

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

觀察到,這個(gè)小的修改可以顯著改善估計(jì)的顏色,使色調(diào)更加生動(dòng)飽滿。當(dāng)推理步驟數(shù)量較少時(shí),這種效應(yīng)尤為明顯。

實(shí)驗(yàn)

為了確保公平性,將Emu模型作為所有實(shí)驗(yàn)的基礎(chǔ)。Emu是一個(gè)擁有27億參數(shù)和分辨率為768×768的最先進(jìn)模型。將我們的結(jié)果與之前的蒸餾方法進(jìn)行比較,例如Step Distillation、LCM和ADD,并將它們直接應(yīng)用在Emu上。所有模型都在一個(gè)委托的圖像數(shù)據(jù)集上進(jìn)行了替換訓(xùn)練。由于ADD訓(xùn)練沒有公開可用的代碼,根據(jù)論文中提供的細(xì)節(jié)自行實(shí)現(xiàn)了它。

與最新技術(shù)的定量比較

使用FID 、CLIP分?jǐn)?shù) 和CompBench將Imagine Flash與之前的方法進(jìn)行比較。FID和CLIP分別衡量圖像質(zhì)量和提示對(duì)齊度,并根據(jù)來自COCO2017 的5k樣本分割進(jìn)行評(píng)估,遵循[31]中的評(píng)估協(xié)議。CompBench是一個(gè)基準(zhǔn),單獨(dú)衡量屬性綁定(顏色、形狀和紋理)和對(duì)象關(guān)系(空間、非空間和復(fù)雜)。


在CompBench驗(yàn)證集中為每個(gè)提示生成2張圖像(總共300個(gè)提示)。對(duì)于LCM和Imagine Flash,計(jì)算1、2和3步的指標(biāo)。對(duì)于ADD,計(jì)算4步的指標(biāo),因?yàn)樵摲椒▽iT針對(duì)4步推理進(jìn)行了調(diào)優(yōu)和配置,以確保公平比較。還評(píng)估了4步的Step Distillation,以提供更直接的比較。表1顯示了結(jié)果。

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

我們的3步Imagine Flash在FID方面優(yōu)于Step Distillation和ADD,即使使用了少一步。它在1、2和3步的FID上也比LCM低。我們的3步模型的CLIP分?jǐn)?shù)高于所有變體的ADD和LCM,并與4步Step Distillation模型的得分(30.2)相匹配。與Step Distillation和ADD相比,它們相應(yīng)地降低了FID分別為10.1和3.4,而我們的3步和2步Imagine Flash則保持了FID并略有改善。


對(duì)于CompBench,我們的1、2或3步Imagine Flash在所有類別中都優(yōu)于以前的方法,除了顏色外,其中4步Step Distillation和ADD的得分與我們的類似。這突顯了Imagine Flash的優(yōu)越提示對(duì)齊性。

與最新技術(shù)的定性比較

在圖5中,展示了Imagine Flash與當(dāng)前最先進(jìn)技術(shù)(SOTA)的定性比較:Step Distillation、LCM和ADD,它們都對(duì)相同的基線Emu模型進(jìn)行了蒸餾,以進(jìn)行公平比較。

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

觀察到ADD生成的圖像比Step Distillation和LCM更清晰,這是因?yàn)樗褂昧藢?duì)抗損失。雖然Imagine Flash和ADD都使用了鑒別器,但I(xiàn)magine Flash生成的圖像比ADD更銳利和更詳細(xì)。Imagine Flash的增強(qiáng)銳度和細(xì)節(jié)是由我們提出的SRL導(dǎo)致的,它有效地精煉了學(xué)生預(yù)測(cè)的高頻細(xì)節(jié),如下圖6的最后一行所示。

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

另一方面,對(duì)于ADD,目標(biāo)圖像可能展示出明顯不同的色譜,出現(xiàn)顏色偽影(見圖6),并且顏色在訓(xùn)練迭代過程中可能出現(xiàn)不可預(yù)測(cè)的波動(dòng)。我們假設(shè),為了在期望中最小化L2重構(gòu)損失,ADD模型最好通過預(yù)測(cè)接近零的顏色值來達(dá)到目標(biāo),從而導(dǎo)致圖像蒼白和輪廓模糊。除了改善局部細(xì)節(jié)外,SRL還可以糾正學(xué)生的文本對(duì)齊錯(cuò)誤,如圖6右側(cè)所示(1步),其中小熊貓被轉(zhuǎn)換回了狗。

與公開模型的比較

還將Imagine Flash的性能與ADD-LDMXL和Lightning-LDMXL發(fā)布的公開模型進(jìn)行了比較。為此,按照前面詳細(xì)說明的方法計(jì)算CLIP和FID分?jǐn)?shù),并與基準(zhǔn)模型進(jìn)行相對(duì)增益/下降的比較。請(qǐng)?jiān)诟戒汚中找到表格。我們的方法在文本對(duì)齊能力上與ADD和Lightning保持類似,但在FID增加方面顯示出更為有利的結(jié)果,尤其是對(duì)于兩步和三步。


此外,進(jìn)行了廣泛的人類評(píng)估。為此,使用了三個(gè)推理步驟為OUI數(shù)據(jù)集中隨機(jī)抽樣的1,000個(gè)提示生成了所有方法的圖像。成對(duì)的圖像呈現(xiàn)給42名受過訓(xùn)練的人類標(biāo)注者中的五名,他們的任務(wù)是為更具視覺吸引力的圖像投票。通過多數(shù)投票匯總的結(jié)果顯示在表2中,明顯表明了對(duì)Imagine Flash的偏好。

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

消融研究

對(duì)Imagine Flash進(jìn)行了定量和定性消融,以評(píng)估所提出的反向蒸餾、SRL和噪聲校正的效果。定量評(píng)估如表3所示,而補(bǔ)充視覺消融如圖7所示

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

結(jié)論

Imagine Flash,這是一種新穎的蒸餾框架,能夠利用擴(kuò)散模型實(shí)現(xiàn)高保真度的少步驟圖像生成。方法包括三個(gè)關(guān)鍵組成部分:反向蒸餾以減少訓(xùn)練推理差異,遷移重構(gòu)損失(SRL)動(dòng)態(tài)地調(diào)整每個(gè)時(shí)間步的知識(shí)傳遞,以及噪聲校正以增強(qiáng)初始樣本質(zhì)量。


通過大量實(shí)驗(yàn),Imagine Flash取得了顯著的成果,僅使用三個(gè)去噪步驟就與預(yù)訓(xùn)練的教師模型的性能相匹配,并始終超越現(xiàn)有方法。這種前所未有的抽樣效率結(jié)合了高樣本質(zhì)量和多樣性,使我們的模型非常適用于實(shí)時(shí)生成應(yīng)用。


我們的工作為超高效的生成建模鋪平了道路。未來的方向包括擴(kuò)展到其他模態(tài),如視頻和3D,進(jìn)一步降低抽樣預(yù)算,并將我們的方法與互補(bǔ)的加速技術(shù)相結(jié)合。通過實(shí)現(xiàn)即時(shí)的高保真度生成,Imagine Flash為實(shí)時(shí)創(chuàng)意工作流程和交互式媒體體驗(yàn)開啟了新的可能性。

更多生成的圖像

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸餾框架發(fā)布-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Meta     


原文鏈接:??https://mp.weixin.qq.com/s/osiR6U4srAidT0E_YwUVDA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦