偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR

發(fā)布于 2024-10-14 14:57

瀏覽

0收藏

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2410.04671
項目鏈接：https://github.com/MiracleDance/CAR

亮點直擊

CAR是首個為自回歸模型家族設(shè)計的靈活、高效且即插即用的可控框架。
CAR基于預(yù)訓(xùn)練的自回歸模型，不僅保留了原有的生成能力，還能在有限資源的情況下實現(xiàn)可控生成——所用數(shù)據(jù)量不到預(yù)訓(xùn)練所需數(shù)據(jù)的10%。
設(shè)計了一個通用框架來捕捉多尺度的控制表示，這些表示具有魯棒性，并能無縫集成到預(yù)訓(xùn)練的基礎(chǔ)模型中。
大量實驗表明，CAR在各種條件信號下實現(xiàn)了精確的細粒度視覺控制。CAR有效地學(xué)習(xí)了這些條件的語義，能夠在訓(xùn)練集中未見過的類別上實現(xiàn)魯棒的泛化。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

總結(jié)速覽

解決的問題：

當(dāng)前的視覺生成模型主要有兩種技術(shù)路徑：擴散模型和自回歸模型。擴散模型在生成控制上表現(xiàn)出色，但自回歸模型雖然具備強大的生成能力和可擴展性，控制性和靈活性方面仍然未被充分探索。

提出的方案：

提出了一種名為可控自回歸建模（CAR） 的全新框架，該框架可作為插件，整合條件控制機制到多尺度潛變量建模中，允許在預(yù)訓(xùn)練的視覺自回歸模型中進行高效的控制生成。CAR逐步細化并捕捉控制表示，并將其注入到預(yù)訓(xùn)練模型的每個自回歸步驟中，以引導(dǎo)生成過程。

應(yīng)用的技術(shù)：

多尺度潛變量建模：用于捕捉和細化控制表示。
預(yù)訓(xùn)練視覺自回歸模型：在預(yù)訓(xùn)練模型的基礎(chǔ)上注入控制，逐步指導(dǎo)生成。
條件控制機制：整合到自回歸生成的每個步驟中，以實現(xiàn)細粒度控制。

達到的效果：

在各種條件下實現(xiàn)了出色的控制能力。
在圖像質(zhì)量上優(yōu)于以往的方法。
與預(yù)訓(xùn)練模型相比，CAR在實現(xiàn)良好泛化能力的同時顯著減少了訓(xùn)練資源需求。
CAR是首個針對預(yù)訓(xùn)練自回歸視覺生成模型的控制框架。

方法

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

首先介紹視覺自回歸建模中“下一尺度預(yù)測”范式的基礎(chǔ)概念。接著解釋了CAR框架如何通過多尺度潛變量建?？刂埔曈X生成。通過應(yīng)用貝葉斯推理，我們識別出CAR的學(xué)習(xí)目標(biāo)是獲取一個魯棒的控制表示。最后詳細討論了控制表示的表達以及網(wǎng)絡(luò)優(yōu)化策略。

自回歸建模的基礎(chǔ)知識

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

可控視覺自回歸建模

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

遵循VAR的“下一尺度預(yù)測”范式，CAR模型采用了多尺度潛變量框架，其中每個尺度的潛變量（token圖）捕捉逐步更高分辨率的圖像結(jié)構(gòu)?？刂菩畔⑻峁┝祟~外的觀測，用于輔助推斷每個尺度的潛變量。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

控制表示和優(yōu)化

控制表示表達

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

實驗

實驗設(shè)置

模型架構(gòu)設(shè)計

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

數(shù)據(jù)集
在 ImageNet數(shù)據(jù)集上進行實驗。首先，為訓(xùn)練集偽標(biāo)記了五個條件：Canny 邊緣、深度圖、法線圖、HED 圖和草圖，允許 CAR 在不同的條件控制下分別進行訓(xùn)練。從總共 1000 個類別中隨機選擇 100 個用于訓(xùn)練 CAR，并在剩余的 900 個未見類別上進行評估，以評估其可泛化的可控性。

評估指標(biāo)
利用 Fréchet Inception Distance (FID)、Inception Score (IS)、精準(zhǔn)度和召回率指標(biāo)來評估生成結(jié)果的質(zhì)量。還與現(xiàn)有的可控生成方法（如 ControlNet和 T2I-Adapter）比較推理速度。

訓(xùn)練細節(jié)
將預(yù)訓(xùn)練的 VAR 深度設(shè)置為 16、20、24 或 30，并使用 VAR 的前半部分的權(quán)重初始化控制 Transformer T（.），以加速收斂。CAR 模型在 8 個 NVIDIA V100 GPU 上訓(xùn)練 100 輪，推理速度在單個 NVIDIA 4090 GPU 上進行評估。

定量評估

與以前方法的比較
將 CAR 模型與兩個經(jīng)典的可控生成基線 ControlNet 和 T2I-Adapter 進行了比較。為確保公平，我們在 ImageNet 數(shù)據(jù)集上重新訓(xùn)練了這兩個模型，并對每個模型在所有五個條件注釋上分別進行訓(xùn)練。如下表 1 所示，CAR 顯示出顯著的改進，F(xiàn)ID 分別在 Canny、深度、法線、HED 和草圖條件下減少了 3.3、2.3、2.3、3.0 和 5.1，相較于 ControlNet。IS 指標(biāo)也觀察到類似的改進。將這些收益歸因于自回歸模型的最新進展，這些模型通過在生成過程中逐步擴大分辨率，超越了擴散模型的圖像生成能力。除了圖像質(zhì)量外，還比較了推理速度，CAR 的速度比 ControlNet 和 T2I-Adapter 快五倍以上，進一步凸顯了 CAR 在實際應(yīng)用中的效率優(yōu)勢。總體而言，這些令人鼓舞的定量結(jié)果表明，CAR 可以作為一種比基于擴散模型的 ControlNet 更高效、可擴展的可控生成范式。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

不同類型條件的評估值得注意，HED 圖、深度圖和法線圖顯示出相對較優(yōu)的指標(biāo)，這可能歸因于輸入條件的清晰性和明確的目標(biāo)。這些因素為模型提供了更精確的指導(dǎo)，提升了高質(zhì)量圖像的生成。相比之下，草圖條件往往比較簡單，僅由基本輪廓構(gòu)成，視覺細節(jié)較少，使其可控性較差，導(dǎo)致模型生成更自由。這可能導(dǎo)致圖像質(zhì)量波動。

規(guī)模法則
評估 CAR 模型在其深度增加時的圖像質(zhì)量。如下圖 3 所示，隨著模型深度的增加，CAR 在五種不同條件下生成更高質(zhì)量的圖像，表現(xiàn)出更低的 FID 指標(biāo)以及更高的 IS、精準(zhǔn)度和召回率，這與自回歸生成建模的規(guī)模法則一致。在 HED 圖、深度圖和法線圖中觀察到最高的指標(biāo)，而 Canny 邊緣和草圖則相對較低，這與表 1 的觀察結(jié)果一致。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

用戶研究
研究者們邀請了 30 位參與者進行用戶研究，以評估CAR 在與之前的方法 ControlNet 和 T2I-Adapter 的生成性能比較。對于五種類型的條件，輸入 30 張條件圖像，并為每種方法生成相應(yīng)的結(jié)果，每種方法生成 150 個結(jié)果。對于每個條件輸入，參與者需要根據(jù)三個標(biāo)準(zhǔn)選擇最佳結(jié)果：1）圖像質(zhì)量，2）條件保真度，3）圖像多樣性。如下表 2 所示，CAR 在這三個方面均優(yōu)于 ControlNet 和 T2I-Adapter，證明了所提出的可控自回歸建模的有效性。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

消融研究

整體可控性和圖像質(zhì)量
下圖 4 展示了CAR 模型根據(jù)給定的條件控制生成高質(zhì)量和多樣化的結(jié)果。各種條件輸入的視覺細節(jié)在生成的圖像中得到了有效反映，確保了圖像與其對應(yīng)條件之間的強對齊。值得注意的是，展示的類別不在訓(xùn)練期間使用的 100 個類別之內(nèi)，但 CAR 仍然能對這些未見類別實現(xiàn)精確控制，這表明CAR 學(xué)會了從給定的條件控制中提取一般語義信息，而不是對訓(xùn)練集進行過擬合。這一優(yōu)勢突顯了CAR 框架的跨類別泛化能力和強大的可控性。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

數(shù)據(jù)分布分析從數(shù)據(jù)分布的角度分析 CAR 的可控性。具體而言，HED 圖被用作一種條件，引導(dǎo)圖像生成過程，這一條件是從真實圖像中提取的。我們采用一種不可控的傳統(tǒng)自回歸模型來生成比較樣本。我們應(yīng)用 t-SNE可視化所有生成圖像的嵌入特征的前兩個主成分。這些嵌入特征是使用 HED 圖提取方法的主干提取的。

如下圖 5 所示，傳統(tǒng)自回歸模型的生成分布與真實圖像之間存在顯著的不對齊，因為傳統(tǒng)模型缺乏條件控制信息。相比之下，CAR 模型生成結(jié)果的分布與真實圖像密切對齊，表明我們的樣本準(zhǔn)確捕捉了 HED 圖的視覺細節(jié)，使 HED 嵌入特征更接近真實圖像。這突顯了CAR 模型增強了基于提供的條件控制 C 生成結(jié)果的可控性和準(zhǔn)確性。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

消融研究

在 ImageNet 驗證集上進行消融研究，以探索 CAR 框架中每個組件（包括 F(·)、T(·) 和 G(·)）不同功能選擇的影響。

F(·) 的不同功能選擇
探討了不同方法引入條件控制 ck 以形成 sk 在 F(·) 中的影響。具體而言，比較了兩種策略：1）使用 VAR 模型的預(yù)訓(xùn)練 VQ-VAE 編碼器直接將條件圖像映射到不同尺度的標(biāo)記圖；2）我們的方法，通過像素級調(diào)整條件圖像至不同尺度，使用共享的可學(xué)習(xí)卷積編碼器進行控制特征提取。

結(jié)果如表 3 所示，可學(xué)習(xí)編碼器在 IS 分數(shù)上顯示出顯著改善，表明圖像質(zhì)量得到提升。我們推測，預(yù)訓(xùn)練的 VQ-VAE 編碼器設(shè)計用于圖像重建，可能無法有效捕捉圖像語義，因此不太適合提取控制語義。圖 6 的可視化結(jié)果也證明了這一點，使用 VQ-VAE 編碼器的生成圖像存在失真和質(zhì)量差的問題。

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

T(·) 的不同功能選擇
我們設(shè)計了 T(·) 的編碼器以提取準(zhǔn)確有效的控制表示 ?sk。具體而言，我們比較了兩種架構(gòu)：1）簡單卷積網(wǎng)絡(luò)；2）GPT-2 風(fēng)格的 Transformer。下表 3 和圖 6 顯示，Transformer 相比簡單卷積網(wǎng)絡(luò)基線在圖像質(zhì)量上顯著更高，這歸因于其強大的表示能力。同時，基于 Transformer 的編碼器與預(yù)訓(xùn)練自回歸模型的架構(gòu)相匹配，可能導(dǎo)致更接近的分布，增強后續(xù)注入過程。

G(·) 的不同功能選擇
我們比較了不同的注入函數(shù) G(·)，在預(yù)訓(xùn)練自回歸模型中將控制表示 ?sk 注入圖像表示 rk，以更新圖像表示 ?rk。具體而言，我們比較了三種技術(shù)：1）對控制表示應(yīng)用零卷積（Zhang et al., 2023），然后加上控制和圖像特征；2）應(yīng)用交叉歸一化，使用圖像表示的均值和方差歸一化控制表示，然后將這兩個特征相加；3）我們的方法，將兩個表示進行拼接，應(yīng)用可學(xué)習(xí)的 LayerNorm 進行歸一化，然后進行線性變換以調(diào)整通道維度。如上面表 3 所示，無論在加法之前是否應(yīng)用零卷積和交叉歸一化，添加圖像和控制特征都會導(dǎo)致 IS 指標(biāo)下降。這表明這些操作導(dǎo)致的圖像質(zhì)量降低，與我們的方法相比，生成結(jié)果在圖像質(zhì)量和自然性上表現(xiàn)較差。我們將此歸因于兩種不同領(lǐng)域表示的不兼容性。盡管交叉歸一化試圖對齊領(lǐng)域間的分布差異，但這種操作是不夠的。因此，拼接這兩個表示，再進行 LayerNorm，更有效地協(xié)調(diào)條件特征和主干特征，從而解決數(shù)據(jù)分布中的差異。

結(jié)論

本文提出了可控自回歸建模（CAR），該模型建立了一種新穎的控制 VAR 生成的范式。CAR 捕捉了強大的多尺度控制表示，這些表示可以無縫集成到預(yù)訓(xùn)練的自回歸模型中。實驗結(jié)果表明，CAR 在可控性和圖像質(zhì)量方面均優(yōu)于現(xiàn)有方法，同時降低了所需的計算成本。CAR 代表了自回歸視覺生成的一個重要進展，為各種可控生成任務(wù)提供了一種靈活、高效且可擴展的解決方案。

討論與未來工作

盡管所提出的 CAR 框架在可控視覺生成方面表現(xiàn)出色，但仍面臨 VAR 模型固有的一些限制。具體而言，依賴于順序token預(yù)測有時會限制模型的效率，特別是在處理長圖像序列或需要在高分辨率下進行精細控制時。CAR 中使用的多尺度注入機制也可以擴展，以探索替代注入策略，例如基于注意力的或自適應(yīng)注入，以進一步增強控制精度。此外，盡管當(dāng)前設(shè)計在遞歸方式中優(yōu)秀地注入了控制信號，但擴展框架以處理更復(fù)雜的任務(wù)，如視頻生成，仍然是未來工作的一個開放挑戰(zhàn)。

本文轉(zhuǎn)自 AI生成未來，作者：Ziyu Yao等

原文鏈接:??https://mp.weixin.qq.com/s/WpjvAMQiRfW8PfnFjH24Pw??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。?em>北大&字節(jié)）

angel ? 1.4w瀏覽 ? 0回復(fù)
10倍速度突破質(zhì)量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3620瀏覽 ? 0回復(fù)
上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場景、任意組合！

angel ? 3253瀏覽 ? 0回復(fù)
大語言模型的前世今生：萬字長文完整梳理所有里程碑式大語言模型（LLMs）

angel ? 8018瀏覽 ? 0回復(fù)
ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津

angel ? 2844瀏覽 ? 0回復(fù)
T2I與StlyeGAN2首次聯(lián)手！PreciseControl:單肖像生成精細個性化圖像！

angel ? 2472瀏覽 ? 0回復(fù)
T2I與StlyeGAN2首次聯(lián)手！PreciseControl:單肖像生成精細個性化圖像！

angel ? 2482瀏覽 ? 0回復(fù)
可提示 3D 分割研究里程碑！SAM2Point：SAM2加持泛化任意3D場景、任意提示！

angel ? 2765瀏覽 ? 0回復(fù)
清華&騰訊等重磅發(fā)布MagicMan：單一圖像生成高質(zhì)量人體新突破

angel ? 3430瀏覽 ? 0回復(fù)
首次超越擴散模型和非自回歸Transformer模型！字節(jié)開源RAR：自回歸生成最新SOTA！

angel ? 2605瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開源JanusFlow

angel ? 2976瀏覽 ? 0回復(fù)
超越SDEdit等七大SOTA，免訓(xùn)練多模態(tài)圖像編輯里程碑：HeadRouter帶來精準(zhǔn)語義調(diào)整

angel ? 2539瀏覽 ? 0回復(fù)
多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降

angel ? 2923瀏覽 ? 0回復(fù)
亞馬遜Nova大模型家族：AI技術(shù)的新里程碑 | 1000個人的數(shù)字分身：AI如何精準(zhǔn)模擬人類行為？

sbf_2000 ? 2792瀏覽 ? 0回復(fù)
南大&清華&騰訊聯(lián)合打造IBQ：自回歸生成最強視覺分詞器

angel ? 3570瀏覽 ? 0回復(fù)
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 6294瀏覽 ? 0回復(fù)
告別粗糙AI生成！BlobCtrl帶你玩轉(zhuǎn)元素級視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1722瀏覽 ? 0回復(fù)
Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個里程碑？| 目前還不是業(yè)界焦點，但有潛力是重大基礎(chǔ)創(chuàng)新

后向傳播 ? 2090瀏覽 ? 0回復(fù)
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴散架構(gòu)？北大&中山等開源GPT-ImgEval

angel ? 2354瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：長動畫上色質(zhì)量再創(chuàng)新高！首個基于參考線稿的動畫上色視頻擴散框架LVCD發(fā)布

下一篇：首篇！全面系統(tǒng)解讀高效SAM變體：各種加速策略和核心技術(shù)展示

社區(qū)精華內(nèi)容

目錄

<sub id="hkfl6"><p id="hkfl6"></p></sub>

<sub id="hkfl6"><p id="hkfl6"></p></sub>