DiCo:重振卷積網(wǎng)絡(luò)以實(shí)現(xiàn)可擴(kuò)展且高效的擴(kuò)散建模 原創(chuàng) 精華
摘要
擴(kuò)散 Transformer(DiT)作為一種前景廣闊的視覺(jué)生成擴(kuò)散模型,展現(xiàn)出了令人矚目的性能,但同時(shí)也帶來(lái)了巨大的計(jì)算開(kāi)銷(xiāo)。有趣的是,對(duì)預(yù)訓(xùn)練 DiT 模型的分析表明,全局自注意力往往存在冗余,主要捕捉局部模式,這凸顯了尋找更高效替代方案的潛力。在本文中,我們重新審視卷積,將其作為構(gòu)建高效且富有表現(xiàn)力的擴(kuò)散模型的替代構(gòu)建塊。然而,直接用卷積替換自注意力通常會(huì)導(dǎo)致性能下降。我們的研究發(fā)現(xiàn),這種性能差距歸因于卷積網(wǎng)絡(luò)相比 Transformer 存在更高的通道冗余。為解決這一問(wèn)題,我們引入了一種緊湊通道注意力機(jī)制,該機(jī)制能夠促進(jìn)更多樣化通道的激活,從而增強(qiáng)特征多樣性。由此產(chǎn)生了擴(kuò)散卷積網(wǎng)絡(luò)(DiCo),這是一系列完全由標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)模塊構(gòu)建的擴(kuò)散模型,具有強(qiáng)大的生成性能和顯著的效率提升。在類(lèi)條件 ImageNet 基準(zhǔn)測(cè)試中,DiCo 在圖像質(zhì)量和生成速度方面均優(yōu)于以往的擴(kuò)散模型。值得注意的是,DiCo-XL 在 256×256 分辨率下的 FID 為 2.05,在 512×512 分辨率下為 2.53,相比 DiT-XL/2 分別實(shí)現(xiàn)了 2.7 倍和 3.1 倍的加速。此外,我們最大的模型 DiCo-H,參數(shù)規(guī)模達(dá) 10 億,在 ImageNet 256×256 上的 FID 達(dá)到 1.90,且在訓(xùn)練過(guò)程中無(wú)需任何額外監(jiān)督。
1、引言
擴(kuò)散模型 [68,70,27,69,71] 在生成式學(xué)習(xí)領(lǐng)域引發(fā)了變革性的進(jìn)步,在合成高度逼真的視覺(jué)內(nèi)容方面展現(xiàn)出了卓越的能力。其多功能性和有效性使其在廣泛的實(shí)際應(yīng)用中得到了廣泛采用,包括文本到圖像生成 [60,63,61]、圖像編輯 [53,40,7]、圖像修復(fù) [39,1,2]、視頻生成 [30,82,4] 和 3D 內(nèi)容創(chuàng)建 [58,81,78]。
早期的擴(kuò)散模型(如 ADM [11] 和 Stable Diffusion [61])主要采用混合 U-Net [62] 架構(gòu),該架構(gòu)將卷積層與自注意力相結(jié)合。最近,Transformer [77] 已成為一種更強(qiáng)大且可擴(kuò)展的主干架構(gòu) [56,3],促使人們轉(zhuǎn)向完全基于 Transformer 的設(shè)計(jì)。因此,擴(kuò)散 Transformer(DiTs)正逐漸取代傳統(tǒng)的 U-Nets,如領(lǐng)先的擴(kuò)散模型 Stable Diffusion 3 [16]、FLUX [44] 和 Sora [6] 所示。然而,自注意力的二次計(jì)算復(fù)雜度帶來(lái)了巨大挑戰(zhàn),尤其是在高分辨率圖像合成中。最近的研究 [90,73,19,57,84] 探索了更高效的替代方案,聚焦于線性復(fù)雜度的類(lèi) RNN 架構(gòu),如 Mamba [20] 和門(mén)控線性注意力 [85]。盡管這些模型提高了效率,但其因果設(shè)計(jì)與視覺(jué)生成的雙向特性 [23,49] 本質(zhì)上存在沖突,限制了它們的有效性。此外,如圖 3 所示,即使采用高度優(yōu)化的 CUDA 實(shí)現(xiàn),在高分辨率設(shè)置下,它們相比傳統(tǒng) DiTs 的運(yùn)行時(shí)優(yōu)勢(shì)仍然有限。這引發(fā)了我們的關(guān)鍵問(wèn)題:是否有可能設(shè)計(jì)一種硬件高效的擴(kuò)散主干架構(gòu),同時(shí)保留如 DiTs 般強(qiáng)大的生成能力?

為解決這一問(wèn)題,我們首先分析 DiTs 生成能力背后的特性。在視覺(jué)識(shí)別任務(wù)中,視覺(jué) Transformer [15] 的成功通常歸因于自注意力捕捉長(zhǎng)距離依賴(lài)的能力 [36,18,24]。然而,在生成任務(wù)中,我們觀察到不同的動(dòng)態(tài)。如圖 4 所示,對(duì)于預(yù)訓(xùn)練的類(lèi)條件(DiT-XL/2 [56])和文本到圖像(PixArt-α[9] 和 FLUX [44])DiT 模型,當(dāng)用錨定標(biāo)記查詢(xún)時(shí),注意力主要集中在附近的空間標(biāo)記上,很大程度上忽略了遠(yuǎn)處的標(biāo)記。這一發(fā)現(xiàn)表明,計(jì)算全局注意力對(duì)于生成任務(wù)可能是冗余的,強(qiáng)調(diào)了局部空間建模的重要性。與需要長(zhǎng)距離交互進(jìn)行全局語(yǔ)義推理的識(shí)別任務(wù)不同,生成任務(wù)似乎更注重細(xì)粒度的紋理和局部結(jié)構(gòu)的保真度。這些觀察揭示了 DiTs 中注意力的固有局部性,并促使我們尋求更高效的架構(gòu)。

在這項(xiàng)工作中,我們重新審視卷積神經(jīng)網(wǎng)絡(luò)(ConvNets),并提出擴(kuò)散卷積網(wǎng)絡(luò)(DiCo),這是一種專(zhuān)為擴(kuò)散模型設(shè)計(jì)的簡(jiǎn)單而高效的卷積主干架構(gòu)。與自注意力相比,卷積操作對(duì)硬件更友好,在大規(guī)模和資源受限的部署中具有顯著優(yōu)勢(shì)。雖然用卷積替代自注意力可大幅提高效率,但通常會(huì)導(dǎo)致性能下降。如圖 5 所示,這種直接替換會(huì)引入明顯的通道冗余,許多通道在生成過(guò)程中保持不活躍狀態(tài)。我們假設(shè),這種性能下降源于自注意力相比卷積具有更強(qiáng)的動(dòng)態(tài)內(nèi)容依賴(lài)表示能力。為解決這一限制,我們引入了緊湊通道注意力(CCA)機(jī)制,該機(jī)制通過(guò)輕量級(jí)線性投影動(dòng)態(tài)激活信息豐富的通道。作為一種逐通道的全局建模方法,CCA 在保持低計(jì)算開(kāi)銷(xiāo)的同時(shí),增強(qiáng)了模型的表示能力和特征多樣性。與依賴(lài)大型昂貴內(nèi)核的現(xiàn)代識(shí)別卷積網(wǎng)絡(luò) [12,21] 不同,DiCo 采用了完全基于高效 1×1 逐點(diǎn)卷積和 3×3 深度卷積的簡(jiǎn)化設(shè)計(jì)。盡管架構(gòu)簡(jiǎn)單,DiCo 仍實(shí)現(xiàn)了強(qiáng)大的生成性能。

如圖 2 和圖 3 所示,DiCo 模型在 ImageNet 256×256 和 512×512 基準(zhǔn)測(cè)試中均優(yōu)于最先進(jìn)的擴(kuò)散模型。值得注意的是,我們的 DiCo-XL 模型在 256×256 和 512×512 分辨率下分別實(shí)現(xiàn)了令人印象深刻的 FID 分?jǐn)?shù) 2.05 和 2.53。除了性能提升外,DiCo 模型相比基于注意力 [77]、基于 Mamba [20] 和基于線性注意力 [38] 的擴(kuò)散模型還展現(xiàn)出顯著的效率優(yōu)勢(shì)。具體而言,在 256×256 分辨率下,DiCo-XL 的 Gflops 減少了 26.4%,速度比 DiT-XL/2 [56] 快 2.7 倍。在 512×512 分辨率下,DiCo-XL 的運(yùn)行速度分別比基于 Mamba 的 DiM-H [73] 和 DiS-H/2 [19] 模型快 7.8 倍和 6.7 倍。我們最大的模型 DiCo-H 擁有 10 億參數(shù),進(jìn)一步將 ImageNet 256×256 上的 FID 降低至 1.90。這些結(jié)果共同凸顯了 DiCo 在基于擴(kuò)散的生成建模中的強(qiáng)大潛力。

總體而言,這項(xiàng)工作的主要貢獻(xiàn)可總結(jié)如下:
?我們分析了預(yù)訓(xùn)練 DiT 模型,揭示了其全局注意力機(jī)制中存在的顯著冗余和局部性。這些發(fā)現(xiàn)可能會(huì)啟發(fā)研究人員開(kāi)發(fā)更高效的策略來(lái)構(gòu)建高性能擴(kuò)散模型。
?我們提出了 DiCo,這是一種簡(jiǎn)單、高效且強(qiáng)大的擴(kuò)散模型卷積主干架構(gòu)。通過(guò)引入緊湊通道注意力,DiCo 在不犧牲效率的情況下顯著提高了表示能力和特征多樣性。
?我們?cè)?ImageNet 256×256 和 512×512 基準(zhǔn)測(cè)試上進(jìn)行了廣泛實(shí)驗(yàn)。DiCo 在生成質(zhì)量和速度方面均優(yōu)于現(xiàn)有擴(kuò)散模型。據(jù)我們所知,這是第一項(xiàng)證明精心設(shè)計(jì)的全卷積主干架構(gòu)可以在基于擴(kuò)散的生成建模中實(shí)現(xiàn)最先進(jìn)性能的工作。
2、相關(guān)工作
2.1 擴(kuò)散模型架構(gòu)
早期的擴(kuò)散模型通常采用 U-Net [62] 作為基礎(chǔ)架構(gòu) [11,28,61]。最近,越來(lái)越多的研究探索將視覺(jué) Transformer(ViTs)[15] 作為擴(kuò)散模型的替代主干架構(gòu),取得了顯著成果 [56,3,52,88,59,48]。值得注意的是,DiT [56] 展示了基于 Transformer 架構(gòu)的卓越性能,在 ImageNet 生成任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能。然而,ViTs 固有的二次計(jì)算復(fù)雜度在長(zhǎng)序列建模的效率方面帶來(lái)了巨大挑戰(zhàn)。為緩解這一問(wèn)題,最近的研究探索了使用具有線性復(fù)雜度的類(lèi) RNN 架構(gòu),如 Mamba [20] 和線性注意力 [38],作為擴(kuò)散模型的主干架構(gòu) [19,90,73,84,57]。DiS [19] 和 DiM [73] 采用 Mamba 來(lái)降低計(jì)算開(kāi)銷(xiāo),而 DiG [90] 則利用門(mén)控線性注意力 [85] 來(lái)實(shí)現(xiàn)具有改進(jìn)效率的競(jìng)爭(zhēng)性能。在這項(xiàng)工作中,我們重新審視卷積網(wǎng)絡(luò)作為擴(kuò)散模型的主干架構(gòu)。我們表明,通過(guò)適當(dāng)設(shè)計(jì),純卷積架構(gòu)可以實(shí)現(xiàn)最先進(jìn)的生成性能,為 DiTs 提供了一種高效且強(qiáng)大的替代方案。
2.2 卷積網(wǎng)絡(luò)設(shè)計(jì)
在過(guò)去的十年中,卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了顯著成功 [42,67,25,35,83]。為實(shí)際部署開(kāi)發(fā)了許多輕量級(jí)卷積網(wǎng)絡(luò) [33,65,32,13]。盡管 Transformer 已逐漸成為廣泛任務(wù)的主導(dǎo)架構(gòu),但其巨大的計(jì)算開(kāi)銷(xiāo)仍然是一個(gè)重大挑戰(zhàn)。許多現(xiàn)代卷積網(wǎng)絡(luò)設(shè)計(jì)在保持高效率的同時(shí)實(shí)現(xiàn)了競(jìng)爭(zhēng)性能。ConvNeXt [51] 探索了標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)的現(xiàn)代化,并取得了優(yōu)于基于 Transformer 模型的結(jié)果。RepLKNet [12] 研究了大內(nèi)核卷積的使用,將內(nèi)核大小擴(kuò)展至 31×31。UniRepLKNet [14] 進(jìn)一步將大內(nèi)核卷積網(wǎng)絡(luò)推廣到音頻、點(diǎn)云、時(shí)間序列預(yù)測(cè)等領(lǐng)域。在這項(xiàng)工作中,我們探索了純卷積網(wǎng)絡(luò)在基于擴(kuò)散的圖像生成中的潛力,并表明簡(jiǎn)單高效的卷積網(wǎng)絡(luò)設(shè)計(jì)也可以實(shí)現(xiàn)優(yōu)異性能。
3、方法
3.1 預(yù)備知識(shí)
擴(kuò)散公式
我們首先回顧擴(kuò)散模型的基本概念 [27,71]。擴(kuò)散模型的特點(diǎn)是前向加噪過(guò)程,該過(guò)程將噪聲逐步注入數(shù)據(jù)樣本x_0。具體而言,前向過(guò)程可表示為:

其中\(zhòng)overline{\alpha}_t是預(yù)定義的超參數(shù)。擴(kuò)散模型的目標(biāo)是學(xué)習(xí)反向過(guò)程:,其中神經(jīng)網(wǎng)絡(luò)對(duì)過(guò)程的均值和協(xié)方差進(jìn)行參數(shù)化。訓(xùn)練涉及優(yōu)化x_0對(duì)數(shù)似然的變分下界,該下界可簡(jiǎn)化為:

為簡(jiǎn)化訓(xùn)練,模型的預(yù)測(cè)均值\mu_\theta可重新參數(shù)化為噪聲預(yù)測(cè)器\epsilon_\theta。目標(biāo)函數(shù)隨后簡(jiǎn)化為預(yù)測(cè)噪聲與真實(shí)噪聲\epsilon_t之間的均方誤差:。遵循 DiT [56],我們使用簡(jiǎn)化損失L_{simple}訓(xùn)練噪聲預(yù)測(cè)器\epsilon_\theta,而協(xié)方差\sum_\theta則使用完整損失進(jìn)行優(yōu)化。
無(wú)分類(lèi)器引導(dǎo)
無(wú)分類(lèi)器引導(dǎo)(CFG)[29] 是一種在條件擴(kuò)散模型中提高樣本質(zhì)量的有效方法。它通過(guò)將采樣過(guò)程引導(dǎo)至與給定條件c密切相關(guān)的輸出來(lái)實(shí)現(xiàn)這一點(diǎn)。具體而言,它修改預(yù)測(cè)噪聲以獲得高p(x|c),如下所示:


其中s\geq1控制引導(dǎo)強(qiáng)度,\epsilon_\theta(x_t,\emptyset)是在訓(xùn)練期間通過(guò)隨機(jī)省略條件信息獲得的無(wú)條件預(yù)測(cè)。遵循先前的工作 [56,90],我們采用該技術(shù)來(lái)提高生成樣本的質(zhì)量。
3.2 網(wǎng)絡(luò)架構(gòu)
當(dāng)前,擴(kuò)散模型主要分為三種架構(gòu)類(lèi)型:(1)無(wú)任何下采樣層的各向同性架構(gòu),如 DiT [56];(2)具有長(zhǎng)跳躍連接的各向同性架構(gòu),以 U-ViT [3] 為例;(3)U 形架構(gòu),如 U-DiT [76]。受圖像去噪中多尺度特征關(guān)鍵作用的啟發(fā) [89,80],我們采用 U 形設(shè)計(jì)來(lái)構(gòu)建分層模型。我們還進(jìn)行了廣泛的消融研究,以系統(tǒng)比較表 3 中這些不同架構(gòu)選擇的性能。
如圖 6(a)所示,DiCo 采用由堆疊 DiCo 塊組成的三階段 U 形架構(gòu)。模型以 VAE 編碼器生成的空間表示z為輸入。對(duì)于大小為 256×256×3 的圖像,對(duì)應(yīng)的z維度為 32×32×4。為處理該輸入,DiCo 應(yīng)用 3×3 卷積,將z轉(zhuǎn)換為具有D通道的初始特征圖z_0。對(duì)于條件信息,即時(shí)間步t和類(lèi)別標(biāo)簽y,我們采用多層感知機(jī)(MLP)和嵌入層,分別作為時(shí)間步和標(biāo)簽嵌入器。在 DiCo 的每個(gè)塊l中,特征圖z_{l-1}通過(guò)第l個(gè) DiCo 塊生成輸出z_l。

在每個(gè)階段內(nèi),編碼器和解碼器之間的跳躍連接促進(jìn)了中間特征之間的高效信息流。 concatenation 后,應(yīng)用 1×1 卷積以降低通道維度。為實(shí)現(xiàn)跨階段的多尺度處理,我們利用像素反洗牌操作進(jìn)行下采樣,利用像素洗牌操作進(jìn)行上采樣。最后,輸出特征z_L經(jīng)過(guò)歸一化,并通過(guò) 3×3 卷積頭傳遞,以預(yù)測(cè)噪聲和協(xié)方差。
3.3 DiCo 塊
動(dòng)機(jī)
如圖 4 所示,DiT 模型中的自注意力計(jì)算(無(wú)論是類(lèi)條件還是文本到圖像生成)均表現(xiàn)出明顯的局部結(jié)構(gòu)和顯著冗余。這一觀察促使我們用硬件效率更高的操作取代 DiT 中的全局自注意力。自然的替代方案是卷積,其以高效建模局部模式而聞名。我們首先嘗試用 1×1 逐點(diǎn)卷積和 3×3 深度卷積的組合替代自注意力。
然而,直接替換會(huì)導(dǎo)致生成性能下降。如圖 5 所示,與 DiT 相比,修改后的模型中許多通道保持不活躍狀態(tài),表明存在顯著的通道冗余。我們假設(shè),這種性能下降源于自注意力(動(dòng)態(tài)且依賴(lài)內(nèi)容)相比卷積(依賴(lài)靜態(tài)權(quán)重)具有更強(qiáng)的表示能力。為解決這一限制,我們引入緊湊通道注意力機(jī)制,以動(dòng)態(tài)激活信息豐富的通道。我們?cè)谙旅嬖敿?xì)描述完整設(shè)計(jì)。
塊設(shè)計(jì)
DiCo 的核心設(shè)計(jì)圍繞卷積模塊展開(kāi),如圖 6(c)所示。我們首先應(yīng)用 1×1 卷積來(lái)聚合逐像素的跨通道信息,然后應(yīng)用 3×3 深度卷積來(lái)捕捉逐通道的空間上下文。采用 GELU 激活進(jìn)行非線性變換。為進(jìn)一步解決通道冗余問(wèn)題,我們引入緊湊通道注意力(CCA)機(jī)制,以激活更多信息豐富的通道。如圖 6(d)所示,CCA 首先通過(guò)跨空間維度的全局平均池化(GAP)聚合特征,然后應(yīng)用可學(xué)習(xí)的 1×1 卷積,接著進(jìn)行 sigmoid 激活以生成逐通道的注意力權(quán)重。一般來(lái)說(shuō),卷積模塊的整個(gè)過(guò)程可描述為:

3.4 架構(gòu)變體
我們建立了四種模型變體 ——DiCo-S、DiCo-B、DiCo-L 和 DiCo-XL—— 其參數(shù)數(shù)量分別與 DiT-S/2、DiT-B/2、DiT-L/2 和 DiT-XL/2 一致。與對(duì)應(yīng)的 DiT 模型相比,我們的 DiCo 模型在計(jì)算成本上顯著降低,Gflops 僅為 DiT 的 70.1% 至 74.6%。此外,為探索我們?cè)O(shè)計(jì)的潛力,我們將 DiCo 擴(kuò)展至 10 億參數(shù),得到 DiCo-H。這些模型的架構(gòu)配置詳見(jiàn)附錄表 5。
4、實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集和指標(biāo)
遵循先前的工作 [56,90, *75],我們?cè)陬?lèi)條件 ImageNet-1K [10] 生成基準(zhǔn)上進(jìn)行了 256×256 和 512×512 分辨率的實(shí)驗(yàn)。我們使用 Fréchet Inception Distance(FID)[26] 作為評(píng)估模型性能的主要指標(biāo)。此外,我們還報(bào)告了 Inception Score(IS)[64]、Precision 和 Recall [43] 作為次要指標(biāo)。所有這些指標(biāo)均使用 OpenAI 的 TensorFlow 評(píng)估工具包 [11] 計(jì)算。
實(shí)現(xiàn)細(xì)節(jié)
對(duì)于 DiCo-S/B/L/XL,我們采用與 DiT 完全相同的實(shí)驗(yàn)設(shè)置。具體來(lái)說(shuō),我們使用恒定學(xué)習(xí)率1?—10^{-4},不使用權(quán)重衰減,批量大小為 256。唯一應(yīng)用的數(shù)據(jù)增強(qiáng)是隨機(jī)水平翻轉(zhuǎn)。在訓(xùn)練過(guò)程中,我們對(duì) DiCo 的權(quán)重進(jìn)行指數(shù)移動(dòng)平均(EMA),衰減率為 0.9999。使用預(yù)訓(xùn)練的 VAE [61] 提取潛在特征。對(duì)于我們最大的模型 DiCo-H,我們遵循 U-ViT [3] 的訓(xùn)練設(shè)置,將學(xué)習(xí)率提高到2?—10^{-4},并將批量大小擴(kuò)展到 1024 以加速訓(xùn)練。更多細(xì)節(jié)見(jiàn)附錄 B 節(jié)。
4.2 主要結(jié)果
4.2.1 在 DiT 設(shè)置下的比較
除了 DiT [56],我們還選擇了最近的最先進(jìn)擴(kuò)散模型 DiG [90] 和 DiC [75] 作為基線,因?yàn)樗鼈兺瑯幼裱?DiT 的實(shí)驗(yàn)設(shè)置。表 1 展示了在 ImageNet 256×256 上的比較結(jié)果。在不同模型規(guī)模下訓(xùn)練 40 萬(wàn)次迭代后,我們的 DiCo 在所有指標(biāo)上始終實(shí)現(xiàn)最佳或次佳性能。此外,當(dāng)使用無(wú)分類(lèi)器引導(dǎo)(CFG)時(shí),我們的 DiCo-XL 實(shí)現(xiàn)了最先進(jìn)的 FID 2.05 和 IS 282.17。除了性能提升,DiCo 相比基線和基于 Mamba 的模型還展示了顯著的效率提升。

表 2 展示了在 ImageNet 512×512 上的結(jié)果。在更高分辨率下,我們的模型在性能和效率上都有更大的提升。具體來(lái)說(shuō),DiCo-XL 實(shí)現(xiàn)了最先進(jìn)的 FID 2.53 和 IS 275.74,同時(shí)將 Gflops 減少了 33.3%,并實(shí)現(xiàn)了比 DiT-XL/2 快 3.1 倍的加速。這些結(jié)果表明,我們的卷積架構(gòu)在高分辨率圖像生成中仍然高效且有效。


4.2.2 模型擴(kuò)展
為了進(jìn)一步探索我們模型的潛力,我們將其擴(kuò)展到 10 億參數(shù)。如表 1 所示,與 DiCo-XL 相比,更大的 DiCo-H 模型在 FID 上進(jìn)一步提升(1.90 vs. 2.05),展示了我們架構(gòu)的強(qiáng)大可擴(kuò)展性。我們?cè)诟戒?C 節(jié)和 D 節(jié)提供了額外的可擴(kuò)展性分析和比較結(jié)果。更多生成樣本可在附錄 E 節(jié)和提交的補(bǔ)充材料中找到。
4.3 消融研究
對(duì)于消融研究,我們使用小規(guī)模模型并在 ImageNet 256×256 基準(zhǔn)上評(píng)估性能。所有模型均訓(xùn)練 40 萬(wàn)次迭代。在本節(jié)中,DiT 中的自注意力未使用 FlashAttention-2 加速,以確保與其他高效注意力機(jī)制公平比較。我們分析了 DiCo 的整體架構(gòu)和各個(gè)組件的貢獻(xiàn),以更好地理解它們對(duì)模型性能的影響。
4.3.1 架構(gòu)消融
我們?cè)u(píng)估了 DiCo 在各種架構(gòu)設(shè)計(jì)下的性能,并與 DiT 進(jìn)行了公平比較。如表 3 所示,DiCo 在所有結(jié)構(gòu)中始終優(yōu)于 DiT,同時(shí)還實(shí)現(xiàn)了顯著的效率提升。這些結(jié)果凸顯了 DiCo 作為 DiT 的強(qiáng)大高效替代方案的潛力。
4.3.2 組件消融
我們對(duì) DiCo 進(jìn)行了組件級(jí)分析,考察了激活函數(shù)、卷積核大小、緊湊通道注意力(CCA)和卷積模塊(CM)的影響。整體消融結(jié)果總結(jié)在表 4 中。增大卷積核尺寸會(huì)帶來(lái)進(jìn)一步的性能提升,但以降低效率為代價(jià),突顯了性能和計(jì)算成本之間的權(quán)衡。引入 CCA 導(dǎo)致 FID 提升 4.81 點(diǎn)。如圖 7 的特征可視化所示,CCA 顯著增強(qiáng)了特征多樣性,證明了其在提高模型表示能力方面的有效性。我們還將 CCA 與 SE 模塊 [34] 和通道自注意力 [89] 進(jìn)行了比較;盡管簡(jiǎn)單,CCA 仍實(shí)現(xiàn)了更優(yōu)的性能和更高的效率。對(duì)于卷積模塊,我們將其與幾種先進(jìn)的高效注意力機(jī)制(窗口注意力 [50]、聚焦線性注意力 [22]、代理注意力 [59])進(jìn)行了基準(zhǔn)測(cè)試。結(jié)果表明,我們的 CM 在性能和計(jì)算效率上均更優(yōu)。


5、結(jié)論
我們提出了一種新的擴(kuò)散模型主干架構(gòu) —— 擴(kuò)散卷積網(wǎng)絡(luò)(DiCo),作為擴(kuò)散 Transformer(DiT)的有力替代方案。DiCo 用 1×1 逐點(diǎn)卷積和 3×3 深度卷積的組合取代了自注意力,并引入了緊湊通道注意力機(jī)制以減少通道冗余并增強(qiáng)特征多樣性。作為全卷積網(wǎng)絡(luò),DiCo 在 ImageNet 256×256 和 512×512 基準(zhǔn)上超越了最先進(jìn)的擴(kuò)散模型,同時(shí)實(shí)現(xiàn)了顯著的效率提升。我們期待進(jìn)一步擴(kuò)展 DiCo 并將其應(yīng)用于更廣泛的生成任務(wù),如文本到圖像生成。
?
本文轉(zhuǎn)載自??AIRoobt?? ,作者:Yuang Ai1等


















