偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務

發(fā)布于 2025-2-17 09:32

瀏覽

0收藏

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

論文地址：https://arxiv.org/pdf/2409.04005

項目主頁：https://360cvgroup.github.io/Qihoo-T2X

代碼倉庫：https://github.com/360CVGroup/Qihoo-T2X

?

作者信息：論文一作為來自中山大學的博士生王晶；論文共同一作和項目leader為來自360 AI Research視頻生成方向的負責人馬傲

亮點直擊

提出了Proxy-Tokenized擴散 transformer（Proxy-Tokenized Diffusion Transformer，PT-DiT）。
推出了Qihoo-T2X系列模型，包括文本到圖像（T2I）、文本到視頻（T2V）以及文本到多視圖（T2MV）生成模型。
實驗結(jié)果表明，該方法在保持競爭性能的同時顯著提高了效率。
在標準的3D VAE設置下（8倍空間下采樣率和4倍時間下采樣率），實驗表明，該方法可以在64GB Ascend 910B上訓練PT-DiT/XL（1.1B參數(shù)）模型，用于分辨率為2048×2048的圖像生成或分辨率為512×512×288的視頻生成。

Diffusion Transformer模型由于全局self-attention，其計算復雜度與序列長度平方成正比，導致其在高分辨率圖像和長時間視頻生成任務中面臨計算成本高的問題。

為此，來自中山大學和360 AI Research的研究人員基于Proxy token提出了一種高效的Diffusion Transformer 即PT-DiT, 能夠適用于文本生成圖像、視頻和Multi-View的等多種生成任務。作者基于PT-DiT進一步構(gòu)建了包含Qihoo-T2I，Qihoo-T2V和Qihoo-T2MV等模型的Qihoo-T2X系列實現(xiàn)文本生成任意任務。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

研究動機

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

當前，基于Diffusion Transformer 的模型（Sora , Vidu, Flux等）能夠生成高保真度圖像或視頻并與文本指令具有強一致性，極大的促進了視覺生成的進步。然而，global self-attention關于序列長度的二次復雜度增加了Diffusion Transformer的計算開銷，導致了實際應用時更長的生成時間和更高的訓練成本。

這個問題也阻礙了Diffusion Transformer在高質(zhì)量和長時間視頻生成中的應用。

例如，優(yōu)于2D spatial attention+ 1D temporal attention的3D full attention卻由于計算開銷的限制而難以進行更高分辨率和更長時間視頻生成的探索。

一些視覺理解和識別領域的研究發(fā)現(xiàn)，由于視覺信息的稀疏和重復性質(zhì)，global self-attention具有一定的冗余性。研究團隊通過可視化注意力圖，發(fā)現(xiàn)同一窗口內(nèi)的不同token對于空間上距離較遠的token的關注程度是相似的，對于空間上相近的token的關注程度是不同的。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

這表明計算所有token的注意力是冗余的，而對計算空間相鄰token的注意力至關重要。

所以，研究團隊提出了一種基于proxy token的稀疏注意力策略，從每個窗口采樣有限的proxy token來執(zhí)行自注意力，從而減少冗余并降低復雜性。

Qihoo-T2X方法

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

如圖所示，研究團隊提出的 PT-DiT引入了proxy token來減少計算global self-attention所涉及的token數(shù)量，高效地建立全局視覺信息的關聯(lián)。PT-DiT包含兩個核心的模塊分別是Global Information Interaction Module (GIIM) 和Texture Complement Module (TCM)。

其中，GIIM 使用稀疏proxy token機制促進所有潛在代碼之間的高效交互，而空間相鄰token的關聯(lián)是不可忽略的，特別是對于細節(jié)紋理要求高的圖像生成任務，為此研究團隊設計了TCM，其通過window attention和shift window attention進一步細化局部細節(jié)。

下面將詳細介紹這兩部分：

Global Information Interaction Module

給定一系列l(wèi)atent token，首先根據(jù)空間和時間先驗（即位于同一個空間窗口）通過計算平均token得到一系列proxy tokens。

每個proxy token代表圖像或視頻內(nèi)的一個局部區(qū)域的信息，并與其他局部區(qū)域中的proxy token通過self-attention進行交互以建立全局視覺關聯(lián)。

隨后，proxy tokens中蘊含的信息被通過與latent token的cross-attention傳播到全部latent token中，從而實現(xiàn)高效的全局視覺信息交互。

Texture Complement Module

由于稀疏proxy tokens交互的特點并且缺乏空間鄰近token的相互關聯(lián)，生成模型對于建模細節(jié)紋理的能力有限，難以滿足生成任務的高質(zhì)量需求。

為了解決這個問題，研究團隊引入了局部window attention，補充模型的細節(jié)建模和平滑能力。

僅有window attention 會導致窗口間token缺乏聯(lián)系，導致生成圖像格子現(xiàn)象明顯，如圖所示。因此，TCM 中還引入了shift window attention，緩解局部window attention引起的問題。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

由于計算window attention涉及的token數(shù)量較少，所以模型的計算復雜度并沒有大規(guī)模增加。

壓縮比例

對于圖像生成任務，研究團隊發(fā)現(xiàn)在不同分辨率下保持相同數(shù)量的窗口對于確保一致的語義層次結(jié)構(gòu)至關重要，這有助于從低分辨率到高分辨率的訓練過程。同時，窗口應該維持較多的數(shù)量以防止窗口內(nèi)的語義信息太過豐富導致單個token不足以表示局部區(qū)域完成全局信息建模。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

計算復雜度分析

PT-DiT 僅使用少量的代表性 token 注意力，就降低了原始全 token 自注意力的計算冗余度。研究團隊進一步從理論上分析PT-DiT在計算復雜度方面的優(yōu)勢。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

其中N表示潛在標記的長度，D表示特征維度。

類似地，GIIM 和 TCM 的計算復雜度計算如下：

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

實驗

作者在T2I T2V和T2MV任務上進行了定性和定量是實驗來評估Qihoo-T2X。

定性分析

Text-to-Image：如圖所示。Qihoo-T2I 表現(xiàn)出了極具競爭力的性能，能夠生成與提供的文本提示完美匹配的照片般逼真的圖像。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

Text-to-Video：研究人員將 Qihoo-T2V 與最近發(fā)布的開源文本轉(zhuǎn)視頻模型（即 EasyAnimateV4 和 CogVideoX）在 512 分辨率下進行了比較，取得了更好的效果，如圖所示。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

Text-to-MultiView：作者進一步探索了 PT-DiT 在文本到多視圖 (T2MV) 任務中的有效性。經(jīng)過訓練的 Qihoo-T2MV 能夠根據(jù)提供的文本指令從各個視點生成512x512x24圖像，表現(xiàn)出很強的空間一致性，如圖所示。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

定量分析

研究團隊在MS-COCO FID-30K, UCF-101和MSR-VTT等benchmark上定量評估Qihoo-T2I和Qihoo-T2V，結(jié)果表明Qihoo-T2I和Qihoo-T2V均能實現(xiàn)有競爭力的性能，證明了PT-DiT的有效性。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

計算復雜度分析

如圖所示，無論是圖像或視頻生成任務，在相同參數(shù)規(guī)模下，PT-DiT相比現(xiàn)有Diffusion Transformer方法，均有大幅度的計算復雜度優(yōu)勢。同時對比3D full attention建模的EasyanimateV4，其訓練顯存隨著幀數(shù)的增加而爆炸增長，而PT-DiT的顯存僅有微弱增長，表明PT-DiT有潛力完成更長時間的視頻生成任務。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

消融實驗

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

結(jié)論

鑒于視覺信息的稀疏性和冗余性，本文提出了PT-DiT，它利用代理標記化注意機制來緩解擴散Transformer中自注意力的計算冗余?；跁r間和空間先驗計算出一系列代表性標記，并在它們之間進行全局交互。此外，引入了窗口注意和移位窗口注意來優(yōu)化局部細節(jié)的建模。我們提出的代表性標記機制對于具有冗余信息的視頻任務特別有效，實現(xiàn)了3D時空建模，同時避免了計算復雜度的爆炸。實驗表明，PT-DiT在提供顯著效率的同時實現(xiàn)了具有競爭力的性能。我們進一步基于PT-DiT開發(fā)了Qihoo-T2X系列，包括T2I、T2V和T2MV等模型。希望PT-DiT和Qihoo-T2X能為擴散Transformer領域提供新的見解和參考。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/PL5j54lsAWlZkiJejdhEww??

標簽

贊

收藏

回復

舉報

回復

相關推薦

“梗王”大模型，靠講笑話登上CVPR | 中山大學

Crystalcxt ? 2943瀏覽 ? 0回復
邁向統(tǒng)一擴散框架！Adobe提出RGB?X：雙重利好下游編輯任務 | SIGGRAPH'24

angel ? 3554瀏覽 ? 0回復
中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024

duhorse ? 2664瀏覽 ? 0回復
10倍速度突破質(zhì)量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3626瀏覽 ? 0回復
AI畫連環(huán)畫角色更一致了！人物之間的復雜互動也能處理｜中山大學&聯(lián)想團隊出品

Crystalcxt ? 3846瀏覽 ? 0回復
T2I與StlyeGAN2首次聯(lián)手！PreciseControl:單肖像生成精細個性化圖像！

angel ? 2486瀏覽 ? 0回復
Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態(tài)擴散模型

sword_hero ? 3104瀏覽 ? 0回復
從噪聲中提取情感：中山大學與騰訊AI實驗室基于元學習的多模態(tài)情感分析新方法

xuxiangda ? 4539瀏覽 ? 0回復
T2I與StlyeGAN2首次聯(lián)手！PreciseControl:單肖像生成精細個性化圖像！

angel ? 2491瀏覽 ? 0回復
中山大學等提出CoRe：任意提示的文本到圖像個性化生成！

angel ? 2646瀏覽 ? 0回復
矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI

angel ? 2713瀏覽 ? 0回復
艾倫人工智能研究所 (AI2) 發(fā)布 OLMo 2：在多達 5T 代幣上訓練的新系列開源 7B 和 13B 語言模型

Halo咯咯 ? 4122瀏覽 ? 0回復
中山大學、美團聯(lián)合團隊推出行為正則化與順序策略優(yōu)化結(jié)合的離線多智能體學習算法

xuxiangda ? 2832瀏覽 ? 0回復
微軟研究院推出的MarS：生成基礎模型時代的統(tǒng)一金融市場模擬引擎

Halo咯咯 ? 4273瀏覽 ? 0回復
智源研究院等提出NOVA：邁向統(tǒng)一的多任務大模型

angel ? 2403瀏覽 ? 0回復
微軟亞洲研究院2025六大預測：AI Agents 將顛覆傳統(tǒng)工作模式

AIGC新知 ? 2550瀏覽 ? 0回復
阿里巴巴AI研究院發(fā)布CosyVoice 2：改進的流式語音合成模型

Halo咯咯 ? 4765瀏覽 ? 0回復
Step-Video-T2V，全方位碾壓開源與商業(yè)模型

AIPaperDaily ? 2509瀏覽 ? 0回復
Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數(shù)減一半，一張H100就能跑，還有巨獸2萬億參數(shù)模型！

51CTO技術棧 ? 1697瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

多領域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

AI Agents開源工具棧全解析~ 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

上一篇：多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機視覺？

下一篇：高分辨率3D人生成超簡單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

社區(qū)精華內(nèi)容

目錄