有效提高視頻編輯一致性,美圖&國科大提出基于文生圖模型新方法EI2
背景
作為當前炙手可熱的前沿技術(shù)之一,生成式 AI 被廣泛應(yīng)用于各類視覺合成任務(wù),尤其是在圖像生成和編輯領(lǐng)域獲得了令人贊嘆的生成效果。對比靜態(tài)圖像,視頻擁有更豐富的動態(tài)變化和語義信息,而現(xiàn)有的視覺生成任務(wù)主要基于變分自編碼器(VAE)和生成對抗網(wǎng)絡(luò)(GAN),但通常會受限于特定場景和數(shù)據(jù),很難提供普適的解決方案。因此,近年來基于擴散模型(Diffusion Models)在分布式學習上表現(xiàn)出的卓越能力,擴散模型也開始被拓展到視頻領(lǐng)域,并在視頻生成與編輯領(lǐng)域展現(xiàn)出了巨大的潛力。
在研究初期,基于擴散模型的視頻生成和編輯任務(wù)利用文本 - 視頻數(shù)據(jù)集直接訓練文生視頻模型以達到目標。然而,由于缺少高質(zhì)量的視頻數(shù)據(jù),這類工作泛化能力通常較差,此外,它們也需要耗費大量的計算資源。為避免上述問題,近期工作更傾向于將基于大規(guī)模數(shù)據(jù)集上預訓練的文生圖模型拓展到視頻領(lǐng)域。此類任務(wù)通過引入可學習的時序模塊使文生圖模型具備視頻生成和編輯能力,從而減少對視頻數(shù)據(jù)的需求以及計算量,并提供了簡單易用的方案。因此,這類任務(wù)在近期引起了廣泛的關(guān)注。然而,以上基于文生圖模型的視頻生成方案也面臨著兩個關(guān)鍵問題:一是時序不一致問題,即生成視頻幀間內(nèi)容的不一致,例如閃爍和主體變化等;二是語義不一致問題,即生成視頻未能按照給定文本進行修改。解決上述兩個核心問題將極大地推動基于文本的視頻編輯與生成技術(shù)在實際場景中的應(yīng)用和落地。
美圖影像研究院(MT Lab)與中國科學院大學在 NeurIPS 2023 上共同提出一種基于文生圖模型的視頻編輯方法 EI2, 從理論上分析和論證了現(xiàn)有方案出現(xiàn)不一致的原因,并提出了有效的解決方案。
論文鏈接:https://arxiv.org/abs/2208.02646
EI2:基于文生圖模型的視頻一致性編輯解決方案
EI2 首先對語義不一致問題進行了分析,發(fā)現(xiàn)該問題不是由微調(diào)策略或過擬合現(xiàn)象出現(xiàn)所導致的,而是由新引入的時序模塊造成的。這些模塊雖然能提升文生圖模型的時序連續(xù)性,但會減弱甚至消除其原有的生成和編輯能力。
EI2 方案將這一現(xiàn)象的出現(xiàn)歸因于生成特征空間出現(xiàn)協(xié)變量偏移:由于時序模塊只在目標視頻上進行訓練,其輸出特征的分布與源模型的分布存在差異。此外,現(xiàn)有空間注意力機制為減小計算量,通常會忽略特定元素進行局部計算,從而導致次優(yōu)解的出現(xiàn)。因此,高效地融合全局上的空間和時序注意力信息也是取得時序一致性編輯的關(guān)鍵。
圖 1 本文提出的 EI2 方案與已有方案在視頻編輯任務(wù)上的結(jié)果對比
基于上述分析,EI2 設(shè)計了更為合理的時序模塊并將其與文生圖模型相結(jié)合,用于增強生成能力,以更好地解決視頻編輯任務(wù)。具體而言,EI2 采用一次微調(diào)框架(One-shot Tuning),從理論和實踐兩方面對現(xiàn)有方法進行了改進。
首先,EI2 設(shè)計了偏移控制時序注意力模塊,用于解決視頻編輯過程中出現(xiàn)的語義不一致問題。EI2 從理論上證明了在特定假設(shè)下,協(xié)變量偏移與微調(diào)無關(guān),是由時序注意力機制新引入的參數(shù)造成,這為解決語義不一致問題提供了有價值的指導。
通過上述論證,EI2 定位層歸一化(Layer Norm)模塊是協(xié)變量偏移出現(xiàn)的重要原因。為了解決這一問題,EI2 提出了簡單有效的實例中心化模塊以控制分布偏移。此外,EI2 也對原時序注意力模塊中的權(quán)值進行歸一化,從而限制方差的偏移。其次,EI2 設(shè)計了粗細力度幀間注意力模塊來緩解視頻編輯過程中出現(xiàn)的時序不一致問題。EI2 創(chuàng)新性地提出了一種粗細力度交互機制,用于更為有效地建立時空注意力機制,從而使得低成本的視頻全局信息交互成為可能。與現(xiàn)有丟棄空間信息的方案相比,EI2 在空間維度上進行采樣,這不僅保持了時空數(shù)據(jù)的整體結(jié)構(gòu),也減少了需要考慮的數(shù)據(jù)規(guī)模。
具體而言,粗細力度幀間注意力模塊對于當前幀保留細粒度信息,而對于其他幀則進行下采樣以獲得粗粒度信息來做交互。這種方式使得 EI2 在有效學習時序信息的同時,保證了與現(xiàn)有時空交互方案接近的計算量?;谝陨显O(shè)計,實驗結(jié)果表明 EI2 可以有效地解決視頻編輯過程中出現(xiàn)的語義不一致問題并保證時序上的一致性,取得了超越現(xiàn)有方案的視頻編輯效果。
圖 2 EI2 的訓練和推理流程
實驗結(jié)果
表 1 與基線方法的量化對比
圖 3 與基線方法的可視化對比
圖 4 協(xié)變量偏移控制的消融實驗
圖 5 時空注意力機制的消融實驗
總結(jié)
該論文創(chuàng)新性地提出了基于文生圖模型的視頻編輯新方案 EI2,有效地解決了現(xiàn)有方案遇到的語義和時序不一致問題。其中,EI2 從理論上證明了語義不一致問題由引入的時序模塊產(chǎn)生的協(xié)變量偏移造成,并設(shè)計了偏移控制時序注意力進行改進。另外,EI2 提出了粗細力度幀間注意力模塊,在提升視頻編輯效果的同時也保證了較低的計算復雜度。與現(xiàn)有方案相比,EI2 在量化和可視化的分析中都表現(xiàn)出了明顯的優(yōu)勢。
研究團隊
本論文由美圖影像研究院(MT Lab)和中國科學院大學的研究者們共同提出。
美圖影像研究院成立于 2010 年,致力于計算機視覺、深度學習、計算機圖形學等人工智能(AI)相關(guān)領(lǐng)域的研發(fā)。曾先后參與 CVPR、ICCV、ECCV 等計算機視覺國際頂級會議,并斬獲 ISIC Challenge 2018 皮膚癌病灶分割賽道冠軍,ECCV 2018 圖像增強技術(shù)比賽冠軍,CVPR-NTIRE2019 圖像增強比賽冠軍,ICCV2019 服飾關(guān)鍵點估計比賽冠軍等十余項冠亞軍,在 AAAI、CVPR、ICCV、ECCV、NIPS 等國際頂級會議及期刊上累計發(fā)表 48 篇學術(shù)論文。
在美圖影像研究院(MT Lab)的支持下,美圖公司擁有豐富的 AIGC 場景落地經(jīng)驗。2010 年開始人工智能領(lǐng)域的相關(guān)探索,2013 年開始布局深度學習,2016 年推出 AIGC 雛形產(chǎn)品 “手繪自拍”,2022 年 AIGC 產(chǎn)品全面進入爆發(fā)期,2023年6月發(fā)布自研AI視覺大模型MiracleVision(奇想智能),2023年12月MiracleVision迭代至4.0 版本,主打AI設(shè)計與AI視頻。