偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!

發(fā)布于 2025-6-10 07:19
瀏覽
0收藏

由香港科技大學、快手科技提出的UNIC(統(tǒng)一上下文視頻編輯)是一個簡單而有效的框架,它以上下文的方式統(tǒng)一單個模型中的各種視頻編輯任務。從此,視頻編輯用著一個工具就夠了!

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

ID插入

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

ID交換

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

刪除ID

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

相機控制

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

風格化

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

第一幀傳播

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

緊急任務組合

UNIC 還表現(xiàn)出了新興任務組合能力。

重新拍攝+風格化

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

ID+風格化

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

相關鏈接

  • 論文:https://arxiv.org/pdf/2506.04216
  • 主頁:https://zixuan-ye.github.io/UNIC

論文介紹

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

UNIC:框架和設計

動機

  • 基于DDIM反轉的方法(例如Video-P2P、FLATTEN):性能欠佳。 附加階段,使推理步驟和總體成本加倍。
  • 基于適配器的方法:需要修改模型架構。通過添加適配器模塊引入?yún)?shù)冗余。

它們通常是針對特定任務的,需要針對每個不同的條件信號訓練單獨的模塊。這嚴重阻礙了任務的可擴展性和各種編輯功能的統(tǒng)一。

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

統(tǒng)一上下文框架

UNIC 通過將所有輸入(含噪視頻潛伏信號、參考視頻標記以及各種多模態(tài)條件標記)處理為一個組合序列來統(tǒng)一視頻編輯。這使得擴散變換器 (DiT) 的原生注意力機制能夠“在上下文中”學習復雜的編輯任務,從而提供靈活性和簡便性。

  • 針對不同任務的統(tǒng)一模型。
  • 將輸入標記定義為三種類型。
  • 沒有特定任務的適配器模塊。
  • 港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

任務感知 RoPE

根據(jù)任務類型和視頻長度動態(tài)分配唯一的旋轉位置嵌入 (RoPE) 幀索引。這確保了在不同條件下對時間的理解和正確對齊。

條件偏差

為條件標記添加特定于任務的可學習嵌入。這有助于模型在模態(tài)重疊時區(qū)分目標任務,從而有效解決歧義。

港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務一網(wǎng)打盡,還可進行多項任務組合!-AI.x社區(qū)

結論

論文提出的統(tǒng)一的上下文內(nèi)視頻編輯UNIC是一個簡單而有效的框架,它以上下文內(nèi)的方式將不同的視頻編輯任務統(tǒng)一到一個模型中。為此,我們將不同視頻編輯任務的輸入表示為三種類型的標記,并將它們集成為一個統(tǒng)一的標記序列,并與擴散變換器 (Diffusion Transformer) 的原始全注意力機制聯(lián)合建模。憑借設計的任務感知 RoPE 和條件偏差,該方法可以靈活地執(zhí)行不同的編輯任務并支持它們的組合。為了便于評估,論文還構建了一個統(tǒng)一的視頻編輯基準。在六個代表性視頻編輯任務上進行的大量實驗表明,該模型在每項任務上都表現(xiàn)出卓越的性能,并展現(xiàn)出新興的任務組合能力。

本文轉載自???????AIGC Studio???????,作者:AIGC Studio 

收藏
回復
舉報
回復
相關推薦