偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務

發(fā)布于 2025-2-17 09:32
瀏覽
0收藏

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

論文地址:https://arxiv.org/pdf/2409.04005 

項目主頁:https://360cvgroup.github.io/Qihoo-T2X 

代碼倉庫:https://github.com/360CVGroup/Qihoo-T2X

?

作者信息:論文一作為來自中山大學的博士生王晶;論文共同一作和項目leader為來自360 AI Research視頻生成方向的負責人馬傲


亮點直擊

  • 提出了Proxy-Tokenized擴散 transformer(Proxy-Tokenized Diffusion Transformer,PT-DiT)。
  • 推出了Qihoo-T2X系列模型,包括文本到圖像(T2I)、文本到視頻(T2V)以及文本到多視圖(T2MV)生成模型。
  • 實驗結(jié)果表明,該方法在保持競爭性能的同時顯著提高了效率。
  • 在標準的3D VAE設置下(8倍空間下采樣率和4倍時間下采樣率),實驗表明,該方法可以在64GB Ascend 910B上訓練PT-DiT/XL(1.1B參數(shù))模型,用于分辨率為2048×2048的圖像生成或分辨率為512×512×288的視頻生成。


Diffusion Transformer模型由于全局self-attention,其計算復雜度與序列長度平方成正比,導致其在高分辨率圖像和長時間視頻生成任務中面臨計算成本高的問題。


為此,來自中山大學和360 AI Research的研究人員基于Proxy token提出了一種高效的Diffusion Transformer 即PT-DiT, 能夠適用于文本生成圖像、視頻和Multi-View的等多種生成任務。作者基于PT-DiT進一步構(gòu)建了包含Qihoo-T2I,Qihoo-T2V和Qihoo-T2MV等模型的Qihoo-T2X系列實現(xiàn)文本生成任意任務。


ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

研究動機

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

當前,基于Diffusion Transformer 的模型(Sora , Vidu, Flux等)能夠生成高保真度圖像或視頻并與文本指令具有強一致性,極大的促進了視覺生成的進步。然而,global self-attention關于序列長度的二次復雜度增加了Diffusion Transformer的計算開銷,導致了實際應用時更長的生成時間和更高的訓練成本。


這個問題也阻礙了Diffusion Transformer在高質(zhì)量和長時間視頻生成中的應用。


例如,優(yōu)于2D spatial attention+ 1D temporal attention的3D full attention卻由于計算開銷的限制而難以進行更高分辨率和更長時間視頻生成的探索。


一些視覺理解和識別領域的研究發(fā)現(xiàn),由于視覺信息的稀疏和重復性質(zhì),global self-attention具有一定的冗余性。研究團隊通過可視化注意力圖,發(fā)現(xiàn)同一窗口內(nèi)的不同token對于空間上距離較遠的token的關注程度是相似的,對于空間上相近的token的關注程度是不同的。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

這表明計算所有token的注意力是冗余的,而對計算空間相鄰token的注意力至關重要。

所以,研究團隊提出了一種基于proxy token的稀疏注意力策略,從每個窗口采樣有限的proxy token來執(zhí)行自注意力,從而減少冗余并降低復雜性。

Qihoo-T2X方法

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

如圖所示,研究團隊提出的 PT-DiT引入了proxy token來減少計算global self-attention所涉及的token數(shù)量,高效地建立全局視覺信息的關聯(lián)。PT-DiT包含兩個核心的模塊分別是Global Information Interaction Module (GIIM) 和Texture Complement Module (TCM)。

其中,GIIM 使用稀疏proxy token機制促進所有潛在代碼之間的高效交互,而空間相鄰token的關聯(lián)是不可忽略的,特別是對于細節(jié)紋理要求高的圖像生成任務,為此研究團隊設計了TCM,其通過window attention和shift window attention進一步細化局部細節(jié)。

下面將詳細介紹這兩部分:

Global Information Interaction Module

給定一系列l(wèi)atent token,首先根據(jù)空間和時間先驗(即位于同一個空間窗口)通過計算平均token得到一系列proxy tokens。


每個proxy token代表圖像或視頻內(nèi)的一個局部區(qū)域的信息,并與其他局部區(qū)域中的proxy token通過self-attention進行交互以建立全局視覺關聯(lián)。


隨后,proxy tokens中蘊含的信息被通過與latent token的cross-attention傳播到全部latent token中,從而實現(xiàn)高效的全局視覺信息交互。

Texture Complement Module

由于稀疏proxy tokens交互的特點并且缺乏空間鄰近token的相互關聯(lián),生成模型對于建模細節(jié)紋理的能力有限,難以滿足生成任務的高質(zhì)量需求。


為了解決這個問題,研究團隊引入了局部window attention,補充模型的細節(jié)建模和平滑能力。


僅有window attention 會導致窗口間token缺乏聯(lián)系,導致生成圖像格子現(xiàn)象明顯,如圖所示。因此,TCM 中還引入了shift window attention,緩解局部window attention引起的問題。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

由于計算window attention涉及的token數(shù)量較少,所以模型的計算復雜度并沒有大規(guī)模增加。

壓縮比例

對于圖像生成任務,研究團隊發(fā)現(xiàn)在不同分辨率下保持相同數(shù)量的窗口對于確保一致的語義層次結(jié)構(gòu)至關重要,這有助于從低分辨率到高分辨率的訓練過程。 同時,窗口應該維持較多的數(shù)量以防止窗口內(nèi)的語義信息太過豐富導致單個token不足以表示局部區(qū)域完成全局信息建模。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

計算復雜度分析

PT-DiT 僅使用少量的代表性 token 注意力,就降低了原始全 token 自注意力的計算冗余度。研究團隊進一步從理論上分析PT-DiT在計算復雜度方面的優(yōu)勢。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

其中N表示潛在標記的長度,D表示特征維度。


類似地,GIIM 和 TCM 的計算復雜度計算如下:

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

實驗

作者在T2I T2V和T2MV任務上進行了定性和定量是實驗來評估Qihoo-T2X。

定性分析

Text-to-Image:如圖所示。Qihoo-T2I 表現(xiàn)出了極具競爭力的性能,能夠生成與提供的文本提示完美匹配的照片般逼真的圖像。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

Text-to-Video:研究人員將 Qihoo-T2V 與最近發(fā)布的開源文本轉(zhuǎn)視頻模型(即 EasyAnimateV4 和 CogVideoX)在 512 分辨率下進行了比較,取得了更好的效果,如圖所示。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

Text-to-MultiView:作者進一步探索了 PT-DiT 在文本到多視圖 (T2MV) 任務中的有效性。經(jīng)過訓練的 Qihoo-T2MV 能夠根據(jù)提供的文本指令從各個視點生成512x512x24圖像,表現(xiàn)出很強的空間一致性,如圖所示。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

定量分析

研究團隊在MS-COCO FID-30K, UCF-101和MSR-VTT等benchmark上定量評估Qihoo-T2I和Qihoo-T2V,結(jié)果表明Qihoo-T2I和Qihoo-T2V均能實現(xiàn)有競爭力的性能,證明了PT-DiT的有效性。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

計算復雜度分析

如圖所示,無論是圖像或視頻生成任務,在相同參數(shù)規(guī)模下,PT-DiT相比現(xiàn)有Diffusion Transformer方法,均有大幅度的計算復雜度優(yōu)勢。同時對比3D full attention建模的EasyanimateV4,其訓練顯存隨著幀數(shù)的增加而爆炸增長,而PT-DiT的顯存僅有微弱增長,表明PT-DiT有潛力完成更長時間的視頻生成任務。

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

消融實驗

ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務-AI.x社區(qū)

結(jié)論

鑒于視覺信息的稀疏性和冗余性,本文提出了PT-DiT,它利用代理標記化注意機制來緩解擴散Transformer中自注意力的計算冗余?;跁r間和空間先驗計算出一系列代表性標記,并在它們之間進行全局交互。此外,引入了窗口注意和移位窗口注意來優(yōu)化局部細節(jié)的建模。我們提出的代表性標記機制對于具有冗余信息的視頻任務特別有效,實現(xiàn)了3D時空建模,同時避免了計算復雜度的爆炸。實驗表明,PT-DiT在提供顯著效率的同時實現(xiàn)了具有競爭力的性能。我們進一步基于PT-DiT開發(fā)了Qihoo-T2X系列,包括T2I、T2V和T2MV等模型。希望PT-DiT和Qihoo-T2X能為擴散Transformer領域提供新的見解和參考。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/PL5j54lsAWlZkiJejdhEww??

收藏
回復
舉報
回復
相關推薦