偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR

發(fā)布于 2024-10-14 14:57
瀏覽
0收藏

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.04671
項(xiàng)目鏈接:https://github.com/MiracleDance/CAR

亮點(diǎn)直擊

  • CAR是首個(gè)為自回歸模型家族設(shè)計(jì)的靈活、高效且即插即用的可控框架。
  • CAR基于預(yù)訓(xùn)練的自回歸模型,不僅保留了原有的生成能力,還能在有限資源的情況下實(shí)現(xiàn)可控生成——所用數(shù)據(jù)量不到預(yù)訓(xùn)練所需數(shù)據(jù)的10%。
  • 設(shè)計(jì)了一個(gè)通用框架來(lái)捕捉多尺度的控制表示,這些表示具有魯棒性,并能無(wú)縫集成到預(yù)訓(xùn)練的基礎(chǔ)模型中。
  • 大量實(shí)驗(yàn)表明,CAR在各種條件信號(hào)下實(shí)現(xiàn)了精確的細(xì)粒度視覺(jué)控制。CAR有效地學(xué)習(xí)了這些條件的語(yǔ)義,能夠在訓(xùn)練集中未見(jiàn)過(guò)的類(lèi)別上實(shí)現(xiàn)魯棒的泛化。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題:

當(dāng)前的視覺(jué)生成模型主要有兩種技術(shù)路徑:擴(kuò)散模型和自回歸模型。擴(kuò)散模型在生成控制上表現(xiàn)出色,但自回歸模型雖然具備強(qiáng)大的生成能力和可擴(kuò)展性,控制性和靈活性方面仍然未被充分探索。

提出的方案:

提出了一種名為可控自回歸建模(CAR) 的全新框架,該框架可作為插件,整合條件控制機(jī)制到多尺度潛變量建模中,允許在預(yù)訓(xùn)練的視覺(jué)自回歸模型中進(jìn)行高效的控制生成。CAR逐步細(xì)化并捕捉控制表示,并將其注入到預(yù)訓(xùn)練模型的每個(gè)自回歸步驟中,以引導(dǎo)生成過(guò)程。

應(yīng)用的技術(shù):

  • 多尺度潛變量建模:用于捕捉和細(xì)化控制表示。
  • 預(yù)訓(xùn)練視覺(jué)自回歸模型:在預(yù)訓(xùn)練模型的基礎(chǔ)上注入控制,逐步指導(dǎo)生成。
  • 條件控制機(jī)制:整合到自回歸生成的每個(gè)步驟中,以實(shí)現(xiàn)細(xì)粒度控制。

達(dá)到的效果:

  • 在各種條件下實(shí)現(xiàn)了出色的控制能力。
  • 在圖像質(zhì)量上優(yōu)于以往的方法。
  • 與預(yù)訓(xùn)練模型相比,CAR在實(shí)現(xiàn)良好泛化能力的同時(shí)顯著減少了訓(xùn)練資源需求。
  • CAR是首個(gè)針對(duì)預(yù)訓(xùn)練自回歸視覺(jué)生成模型的控制框架。

方法

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

首先介紹視覺(jué)自回歸建模中“下一尺度預(yù)測(cè)”范式的基礎(chǔ)概念。接著解釋了CAR框架如何通過(guò)多尺度潛變量建??刂埔曈X(jué)生成。通過(guò)應(yīng)用貝葉斯推理,我們識(shí)別出CAR的學(xué)習(xí)目標(biāo)是獲取一個(gè)魯棒的控制表示。最后詳細(xì)討論了控制表示的表達(dá)以及網(wǎng)絡(luò)優(yōu)化策略。

自回歸建模的基礎(chǔ)知識(shí)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

可控視覺(jué)自回歸建模

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

遵循VAR的“下一尺度預(yù)測(cè)”范式,CAR模型采用了多尺度潛變量框架,其中每個(gè)尺度的潛變量(token圖)捕捉逐步更高分辨率的圖像結(jié)構(gòu)??刂菩畔⑻峁┝祟~外的觀測(cè),用于輔助推斷每個(gè)尺度的潛變量。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

控制表示和優(yōu)化

控制表示表達(dá)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

模型架構(gòu)設(shè)計(jì)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

數(shù)據(jù)集
在 ImageNet數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。首先,為訓(xùn)練集偽標(biāo)記了五個(gè)條件:Canny 邊緣、深度圖、法線圖、HED 圖和草圖,允許 CAR 在不同的條件控制下分別進(jìn)行訓(xùn)練。從總共 1000 個(gè)類(lèi)別中隨機(jī)選擇 100 個(gè)用于訓(xùn)練 CAR,并在剩余的 900 個(gè)未見(jiàn)類(lèi)別上進(jìn)行評(píng)估,以評(píng)估其可泛化的可控性。


評(píng)估指標(biāo)
利用 Fréchet Inception Distance (FID)、Inception Score (IS)、精準(zhǔn)度和召回率指標(biāo)來(lái)評(píng)估生成結(jié)果的質(zhì)量。還與現(xiàn)有的可控生成方法(如 ControlNet和 T2I-Adapter)比較推理速度。


訓(xùn)練細(xì)節(jié)
將預(yù)訓(xùn)練的 VAR 深度設(shè)置為 16、20、24 或 30,并使用 VAR 的前半部分的權(quán)重初始化控制 Transformer T(.),以加速收斂。CAR 模型在 8 個(gè) NVIDIA V100 GPU 上訓(xùn)練 100 輪,推理速度在單個(gè) NVIDIA 4090 GPU 上進(jìn)行評(píng)估。

定量評(píng)估

與以前方法的比較
將 CAR 模型與兩個(gè)經(jīng)典的可控生成基線 ControlNet 和 T2I-Adapter 進(jìn)行了比較。為確保公平,我們?cè)?ImageNet 數(shù)據(jù)集上重新訓(xùn)練了這兩個(gè)模型,并對(duì)每個(gè)模型在所有五個(gè)條件注釋上分別進(jìn)行訓(xùn)練。如下表 1 所示,CAR 顯示出顯著的改進(jìn),F(xiàn)ID 分別在 Canny、深度、法線、HED 和草圖條件下減少了 3.3、2.3、2.3、3.0 和 5.1,相較于 ControlNet。IS 指標(biāo)也觀察到類(lèi)似的改進(jìn)。將這些收益歸因于自回歸模型的最新進(jìn)展,這些模型通過(guò)在生成過(guò)程中逐步擴(kuò)大分辨率,超越了擴(kuò)散模型的圖像生成能力。除了圖像質(zhì)量外,還比較了推理速度,CAR 的速度比 ControlNet 和 T2I-Adapter 快五倍以上,進(jìn)一步凸顯了 CAR 在實(shí)際應(yīng)用中的效率優(yōu)勢(shì)。總體而言,這些令人鼓舞的定量結(jié)果表明,CAR 可以作為一種比基于擴(kuò)散模型的 ControlNet 更高效、可擴(kuò)展的可控生成范式。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

不同類(lèi)型條件的評(píng)估值得注意,HED 圖、深度圖和法線圖顯示出相對(duì)較優(yōu)的指標(biāo),這可能歸因于輸入條件的清晰性和明確的目標(biāo)。這些因素為模型提供了更精確的指導(dǎo),提升了高質(zhì)量圖像的生成。相比之下,草圖條件往往比較簡(jiǎn)單,僅由基本輪廓構(gòu)成,視覺(jué)細(xì)節(jié)較少,使其可控性較差,導(dǎo)致模型生成更自由。這可能導(dǎo)致圖像質(zhì)量波動(dòng)。

規(guī)模法則
評(píng)估 CAR 模型在其深度增加時(shí)的圖像質(zhì)量。如下圖 3 所示,隨著模型深度的增加,CAR 在五種不同條件下生成更高質(zhì)量的圖像,表現(xiàn)出更低的 FID 指標(biāo)以及更高的 IS、精準(zhǔn)度和召回率,這與自回歸生成建模的規(guī)模法則一致。在 HED 圖、深度圖和法線圖中觀察到最高的指標(biāo),而 Canny 邊緣和草圖則相對(duì)較低,這與表 1 的觀察結(jié)果一致。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

用戶研究
研究者們邀請(qǐng)了 30 位參與者進(jìn)行用戶研究,以評(píng)估CAR 在與之前的方法 ControlNet 和 T2I-Adapter 的生成性能比較。對(duì)于五種類(lèi)型的條件,輸入 30 張條件圖像,并為每種方法生成相應(yīng)的結(jié)果,每種方法生成 150 個(gè)結(jié)果。對(duì)于每個(gè)條件輸入,參與者需要根據(jù)三個(gè)標(biāo)準(zhǔn)選擇最佳結(jié)果:1)圖像質(zhì)量,2)條件保真度,3)圖像多樣性。如下表 2 所示,CAR 在這三個(gè)方面均優(yōu)于 ControlNet 和 T2I-Adapter,證明了所提出的可控自回歸建模的有效性。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

消融研究

整體可控性和圖像質(zhì)量
下圖 4 展示了CAR 模型根據(jù)給定的條件控制生成高質(zhì)量和多樣化的結(jié)果。各種條件輸入的視覺(jué)細(xì)節(jié)在生成的圖像中得到了有效反映,確保了圖像與其對(duì)應(yīng)條件之間的強(qiáng)對(duì)齊。值得注意的是,展示的類(lèi)別不在訓(xùn)練期間使用的 100 個(gè)類(lèi)別之內(nèi),但 CAR 仍然能對(duì)這些未見(jiàn)類(lèi)別實(shí)現(xiàn)精確控制,這表明CAR 學(xué)會(huì)了從給定的條件控制中提取一般語(yǔ)義信息,而不是對(duì)訓(xùn)練集進(jìn)行過(guò)擬合。這一優(yōu)勢(shì)突顯了CAR 框架的跨類(lèi)別泛化能力和強(qiáng)大的可控性。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

數(shù)據(jù)分布分析從數(shù)據(jù)分布的角度分析 CAR 的可控性。具體而言,HED 圖被用作一種條件,引導(dǎo)圖像生成過(guò)程,這一條件是從真實(shí)圖像中提取的。我們采用一種不可控的傳統(tǒng)自回歸模型來(lái)生成比較樣本。我們應(yīng)用 t-SNE可視化所有生成圖像的嵌入特征的前兩個(gè)主成分。這些嵌入特征是使用 HED 圖提取方法的主干提取的。


如下圖 5 所示,傳統(tǒng)自回歸模型的生成分布與真實(shí)圖像之間存在顯著的不對(duì)齊,因?yàn)閭鹘y(tǒng)模型缺乏條件控制信息。相比之下,CAR 模型生成結(jié)果的分布與真實(shí)圖像密切對(duì)齊,表明我們的樣本準(zhǔn)確捕捉了 HED 圖的視覺(jué)細(xì)節(jié),使 HED 嵌入特征更接近真實(shí)圖像。這突顯了CAR 模型增強(qiáng)了基于提供的條件控制 C 生成結(jié)果的可控性和準(zhǔn)確性。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

消融研究

在 ImageNet 驗(yàn)證集上進(jìn)行消融研究,以探索 CAR 框架中每個(gè)組件(包括 F(·)、T(·) 和 G(·))不同功能選擇的影響。

F(·) 的不同功能選擇
探討了不同方法引入條件控制 ck 以形成 sk 在 F(·) 中的影響。具體而言,比較了兩種策略:1)使用 VAR 模型的預(yù)訓(xùn)練 VQ-VAE 編碼器直接將條件圖像映射到不同尺度的標(biāo)記圖;2)我們的方法,通過(guò)像素級(jí)調(diào)整條件圖像至不同尺度,使用共享的可學(xué)習(xí)卷積編碼器進(jìn)行控制特征提取。


結(jié)果如表 3 所示,可學(xué)習(xí)編碼器在 IS 分?jǐn)?shù)上顯示出顯著改善,表明圖像質(zhì)量得到提升。我們推測(cè),預(yù)訓(xùn)練的 VQ-VAE 編碼器設(shè)計(jì)用于圖像重建,可能無(wú)法有效捕捉圖像語(yǔ)義,因此不太適合提取控制語(yǔ)義。圖 6 的可視化結(jié)果也證明了這一點(diǎn),使用 VQ-VAE 編碼器的生成圖像存在失真和質(zhì)量差的問(wèn)題。

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺(jué)生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

T(·) 的不同功能選擇
我們?cè)O(shè)計(jì)了 T(·) 的編碼器以提取準(zhǔn)確有效的控制表示 ?sk。具體而言,我們比較了兩種架構(gòu):1)簡(jiǎn)單卷積網(wǎng)絡(luò);2)GPT-2 風(fēng)格的 Transformer。下表 3 和圖 6 顯示,Transformer 相比簡(jiǎn)單卷積網(wǎng)絡(luò)基線在圖像質(zhì)量上顯著更高,這歸因于其強(qiáng)大的表示能力。同時(shí),基于 Transformer 的編碼器與預(yù)訓(xùn)練自回歸模型的架構(gòu)相匹配,可能導(dǎo)致更接近的分布,增強(qiáng)后續(xù)注入過(guò)程。

G(·) 的不同功能選擇
我們比較了不同的注入函數(shù) G(·),在預(yù)訓(xùn)練自回歸模型中將控制表示 ?sk 注入圖像表示 rk,以更新圖像表示 ?rk。具體而言,我們比較了三種技術(shù):1)對(duì)控制表示應(yīng)用零卷積(Zhang et al., 2023),然后加上控制和圖像特征;2)應(yīng)用交叉歸一化,使用圖像表示的均值和方差歸一化控制表示,然后將這兩個(gè)特征相加;3)我們的方法,將兩個(gè)表示進(jìn)行拼接,應(yīng)用可學(xué)習(xí)的 LayerNorm 進(jìn)行歸一化,然后進(jìn)行線性變換以調(diào)整通道維度。如上面表 3 所示,無(wú)論在加法之前是否應(yīng)用零卷積和交叉歸一化,添加圖像和控制特征都會(huì)導(dǎo)致 IS 指標(biāo)下降。這表明這些操作導(dǎo)致的圖像質(zhì)量降低,與我們的方法相比,生成結(jié)果在圖像質(zhì)量和自然性上表現(xiàn)較差。我們將此歸因于兩種不同領(lǐng)域表示的不兼容性。盡管交叉歸一化試圖對(duì)齊領(lǐng)域間的分布差異,但這種操作是不夠的。因此,拼接這兩個(gè)表示,再進(jìn)行 LayerNorm,更有效地協(xié)調(diào)條件特征和主干特征,從而解決數(shù)據(jù)分布中的差異。

結(jié)論

本文提出了可控自回歸建模(CAR),該模型建立了一種新穎的控制 VAR 生成的范式。CAR 捕捉了強(qiáng)大的多尺度控制表示,這些表示可以無(wú)縫集成到預(yù)訓(xùn)練的自回歸模型中。實(shí)驗(yàn)結(jié)果表明,CAR 在可控性和圖像質(zhì)量方面均優(yōu)于現(xiàn)有方法,同時(shí)降低了所需的計(jì)算成本。CAR 代表了自回歸視覺(jué)生成的一個(gè)重要進(jìn)展,為各種可控生成任務(wù)提供了一種靈活、高效且可擴(kuò)展的解決方案。

討論與未來(lái)工作

盡管所提出的 CAR 框架在可控視覺(jué)生成方面表現(xiàn)出色,但仍面臨 VAR 模型固有的一些限制。具體而言,依賴(lài)于順序token預(yù)測(cè)有時(shí)會(huì)限制模型的效率,特別是在處理長(zhǎng)圖像序列或需要在高分辨率下進(jìn)行精細(xì)控制時(shí)。CAR 中使用的多尺度注入機(jī)制也可以擴(kuò)展,以探索替代注入策略,例如基于注意力的或自適應(yīng)注入,以進(jìn)一步增強(qiáng)控制精度。此外,盡管當(dāng)前設(shè)計(jì)在遞歸方式中優(yōu)秀地注入了控制信號(hào),但擴(kuò)展框架以處理更復(fù)雜的任務(wù),如視頻生成,仍然是未來(lái)工作的一個(gè)開(kāi)放挑戰(zhàn)。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Ziyu Yao等


原文鏈接:??https://mp.weixin.qq.com/s/WpjvAMQiRfW8PfnFjH24Pw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄