偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠" 精華

發(fā)布于 2024-7-26 10:00
瀏覽
0收藏

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2407.16655
項(xiàng)目主頁:https://aim-uofa.github.io/MovieDreamer/
github鏈接:https://github.com/aim-uofa/MovieDreamer

亮點(diǎn)直擊

  • MovieDreamer,一個(gè)新穎的分層框架,將自回歸模型與擴(kuò)散渲染結(jié)合起來,平衡長時(shí)間敘事連貫性與短時(shí)間視覺保真度。該方法大幅延長了生成視頻內(nèi)容的時(shí)長,達(dá)到數(shù)千個(gè)關(guān)鍵幀。
  • 使用多模態(tài)自回歸模型生成視覺token序列。自回歸模型支持zero-shotfew-shot的個(gè)性化生成場景,并支持可變長度的關(guān)鍵幀預(yù)測。
  • 使用了一種新穎的多模態(tài)腳本,對場景和角色身份進(jìn)行分層結(jié)構(gòu)化豐富描述。這種方法不僅促進(jìn)了視頻不同片段之間的敘事連貫性,還增強(qiáng)了角色控制和身份保持能力。
  • 方法展示了卓越的生成質(zhì)量,具有詳細(xì)的視覺連續(xù)性、高保真度的視覺細(xì)節(jié)以及角色身份保持能力。


超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

最近的視頻生成技術(shù)進(jìn)展主要利用擴(kuò)散模型來生成短時(shí)內(nèi)容。然而,這些方法在處理復(fù)雜敘事和保持角色一致性方面常常不足,而這些對于電影等長篇視頻制作至關(guān)重要。本文提出了MovieDreamer,一個(gè)新穎的分層框架,將自回歸模型的優(yōu)勢與基于擴(kuò)散的渲染相結(jié)合,開創(chuàng)了具有復(fù)雜情節(jié)進(jìn)展和高視覺保真度的長時(shí)視頻生成。本文的方法利用自回歸模型來保持整體敘事連貫性,預(yù)測視覺token序列,然后通過擴(kuò)散渲染將其轉(zhuǎn)換為高質(zhì)量的視頻幀。這種方法類似于傳統(tǒng)的電影制作過程,將復(fù)雜的故事分解為可管理的場景拍攝。


此外,本文采用多模態(tài)腳本,豐富了場景描述,提供詳細(xì)的角色信息和視覺風(fēng)格,增強(qiáng)了場景間的連續(xù)性和角色身份一致性。本文在各種電影類型中進(jìn)行了廣泛的實(shí)驗(yàn),證明本文的方法不僅在視覺和敘事質(zhì)量上取得了優(yōu)異的成績,而且有效地將生成內(nèi)容的時(shí)長顯著延長,超越了當(dāng)前的能力。

方法

概覽

本文提出了一種新穎的框架,用于生成擴(kuò)展的視頻序列,該框架利用自回歸模型在長期時(shí)間一致性方面的優(yōu)勢和擴(kuò)散模型在高質(zhì)量圖像渲染方面的優(yōu)勢。本文的方法以多模態(tài)腳本作為條件,以自回歸方式預(yù)測關(guān)鍵幀tokens,并使用這些幀作為anchor生成完整的視頻。本文的方法提供了靈活性,支持zero-shot生成以及需要遵循給定風(fēng)格的few-shot場景。本文特別注意在多模態(tài)腳本設(shè)計(jì)、自回歸訓(xùn)練和擴(kuò)散渲染過程中保持角色身份的一致性。下圖2中展示了整體框架。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

通過擴(kuò)散自編碼器進(jìn)行關(guān)鍵幀tokens

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

自回歸關(guān)鍵幀tokens生成

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

傳統(tǒng)的 LLM 通常使用交叉熵?fù)p失進(jìn)行訓(xùn)練,這適用于離散輸出。然而,本文的模型處理的是連續(xù)實(shí)值圖像tokens,使得交叉熵不適用。


受 GIVT的啟發(fā),本文采用 k-混合高斯混合模型(GMM)來有效地建模這些實(shí)值tokens的分布。這涉及用 2kd 個(gè)均值、2kd 個(gè)方差和 k 個(gè)混合系數(shù)來參數(shù)化 GMM。


這些參數(shù)是通過自回歸模型的一個(gè)修改后的線性輸出層獲得的,從而能夠從 GMM 中采樣連續(xù)tokens。模型通過最小化負(fù)對數(shù)似然進(jìn)行訓(xùn)練:

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

為了解決自回歸模型在長視頻關(guān)鍵幀生成中的過擬合問題,本文實(shí)施了幾種關(guān)鍵策略:

  • 數(shù)據(jù)增強(qiáng):為了最大限度地利用本文的訓(xùn)練數(shù)據(jù),本文應(yīng)用了隨機(jī)水平翻轉(zhuǎn)和隨機(jī)反轉(zhuǎn)視頻幀的時(shí)間順序。這種訓(xùn)練數(shù)據(jù)增強(qiáng)大大增加了訓(xùn)練數(shù)據(jù)的多樣性。
  • 面部embedding隨機(jī)化:為了防止身份泄露,本文隨機(jī)檢索同一角色在不同幀中的面部embedding。否則,模型會簡單地通過面部embedding輸入記住訓(xùn)練幀。
  • 激進(jìn)的Dropout:本文使用了異常高的50%的Dropout率,這對于從有限的訓(xùn)練數(shù)據(jù)中進(jìn)行廣泛學(xué)習(xí)至關(guān)重要。
  • tokens mask:本文以0.15的概率隨機(jī)mask輸入tokens,這適用于因果注意力mask。這迫使模型根據(jù)可用的上下文(如面部ID)推斷缺失的信息,進(jìn)一步增強(qiáng)了其從部分?jǐn)?shù)據(jù)中進(jìn)行泛化的能力。

自回歸條件下的多模態(tài)腳本。本文開發(fā)了一種結(jié)構(gòu)良好的多模態(tài)腳本格式,作為自回歸模型的輸入,如下圖14所示。本文的腳本整合了多個(gè)維度:角色、場景元素和敘述弧線。僅使用文本來準(zhǔn)確表示角色外貌是具有挑戰(zhàn)性的;因此,本文將文本描述與面部embedding結(jié)合起來,以提供每個(gè)角色的更詳細(xì)表示。為了便于自回歸模型的處理,本文將腳本格式結(jié)構(gòu)化,以明確區(qū)分這些元素。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

對于非文本模態(tài)(如面部embedding和壓縮tokens),本文使用多層感知器將其投射到LLaMA的embedding空間中。主要的挑戰(zhàn)在于文本數(shù)據(jù),它往往會產(chǎn)生長序列,從而消耗過多的tokens空間并限制模型的上下文廣度。為了解決這個(gè)問題,本文將文本視為一種單獨(dú)的模態(tài),將其分為“標(biāo)識符”和“描述”(見上圖2)。標(biāo)識符是簡潔的陳述,用于建立腳本的結(jié)構(gòu)。相比之下,描述則詳細(xì)說明了生成的屬性,每個(gè)描述都使用CLIP編碼為一個(gè)單獨(dú)的[CLS]tokens,然后投射到統(tǒng)一的輸入空間中。


這種方法通過將整個(gè)句子壓縮成單個(gè)tokens,顯著延長了訓(xùn)練期間可用的上下文長度。本文使用LongCLIP作為描述的文本編碼器,支持最多248個(gè)tokens的輸入,這增強(qiáng)了本文處理詳細(xì)敘述內(nèi)容的能力。因此,時(shí)間步t的多模態(tài)腳本及其之前的歷史數(shù)據(jù)表示為:

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

個(gè)性化生成的few-shot訓(xùn)練。 為了促進(jìn)個(gè)性化電影內(nèi)容生成,本文提出了一種利用上下文學(xué)習(xí)的few-shot學(xué)習(xí)方法。在訓(xùn)練過程中,本文從一集中隨機(jī)選擇10個(gè)幀,將它們編碼為視覺tokens,并隨機(jī)將這些tokens添加到該集的視覺tokens之前。這一策略不僅促進(jìn)了上下文學(xué)習(xí),使模型能夠根據(jù)參考幀定制內(nèi)容,還作為一種數(shù)據(jù)增強(qiáng)技術(shù),有效減輕了過擬合問題。


本文的模型具有多功能性,支持zero-shot和few-shot生成模式。在zero-shot模式下,模型僅根據(jù)文本提示生成內(nèi)容。在few-shot模式下,模型利用一小組用戶提供的參考圖像,使生成的內(nèi)容更符合用戶的偏好,而無需進(jìn)一步訓(xùn)練。這一功能確保用戶能夠高效地生成高質(zhì)量、定制化的視覺內(nèi)容,符合他們期望的主題和風(fēng)格。

保留 ID 的擴(kuò)散渲染

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

為了進(jìn)一步提升模型對關(guān)鍵細(xì)節(jié)的關(guān)注能力,本文引入了一種隨機(jī)mask策略,該策略會遮蔽一部分輸入token。這種技術(shù)鼓勵(lì)解碼器更有效地利用現(xiàn)有的面部和文本線索,以更高的保真度重建圖像,特別是在保持身份特征方面。這種身份保留渲染也彌補(bǔ)了在自回歸建模過程中身份丟失的問題,如下圖3所示,顯著提高了身份感知質(zhì)量。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

基于關(guān)鍵幀的視頻生成

在獲得電影中的關(guān)鍵幀后,本文可以基于這些關(guān)鍵幀生成電影片段。一種直接的方法是利用現(xiàn)有的圖像到視頻模型,例如Stable Video Diffusion (SVD),來生成這些片段。具體來說,SVD將輸入圖像轉(zhuǎn)化為用于條件的潛在特征,并通過交叉注意力引入與輸入圖像的CLIP特征的交互。雖然SVD能夠生成高質(zhì)量的短視頻,例如25幀,但在生成更長的電影片段時(shí)會遇到困難。


為了生成更長的電影片段,一種直接的方法是利用前一個(gè)視頻的最后一幀作為生成后續(xù)視頻的初始幀。這個(gè)過程可以迭代進(jìn)行,以獲得較長的視頻序列。然而,本文通過實(shí)驗(yàn)證明,這會導(dǎo)致嚴(yán)重的錯(cuò)誤積累:隨著時(shí)間的推移,視頻幀的質(zhì)量會逐漸惡化。


為了解決這個(gè)問題,本文提出了一種簡單而有效的解決方案。本文的動機(jī)是始終使用第一幀的特征作為視頻擴(kuò)展過程中的“錨”,以增強(qiáng)模型對原始圖像分布的感知。在實(shí)際操作中,本文在生成后續(xù)視頻時(shí),使用原始輸入圖像的CLIP特征,而不是前一個(gè)視頻的最后一幀進(jìn)行交叉注意力交互。

實(shí)驗(yàn)

與最先進(jìn)的模型比較

故事生成。 許多現(xiàn)有的故事生成方法專注于使用小數(shù)據(jù)集進(jìn)行微調(diào),表現(xiàn)出較差的泛化能力。因此,本文僅與那些展示出高泛化能力的方法進(jìn)行比較,即StoryDiffusion和 StoryGen。如下圖4所示,StoryDiffusion無法保持長期一致性。例如,角色的頭發(fā)不一致,關(guān)鍵幀77中的角色與關(guān)鍵幀968中的角色不一致。類似地,StoryGen也未能保持一致性并生成了異常結(jié)果。相比之下,本文的方法在生成極長內(nèi)容的同時(shí),能夠在多個(gè)角色之間保持短期和長期的一致性。這個(gè)觀察也通過下表1中的定量結(jié)果得到了證實(shí),本文的方法在LT和ST指標(biāo)上均取得了高分。此外,更高的CLIP得分反映了本文生成的結(jié)果與故事情節(jié)很好地契合。更好的IS、AS和FID得分表明本文的方法生成了高質(zhì)量的圖像。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

視頻結(jié)果。 本文對生成長視頻的方法進(jìn)行了詳細(xì)比較。對于文本到視頻的方法,本文使用測試集中準(zhǔn)備的詳細(xì)描述作為輸入。對于圖像到視頻的方法,本文采用由本文的方法生成的關(guān)鍵幀作為輸入。如下表2所示,本文的方法在質(zhì)量方面顯著優(yōu)于現(xiàn)有的開源模型,展示了強(qiáng)大的泛化能力。最重要的是,本文的方法能夠生成持續(xù)數(shù)小時(shí)的視頻,且質(zhì)量幾乎沒有妥協(xié),達(dá)到了最先進(jìn)的水平。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

分析

反過擬合策略。 大型自回歸模型是強(qiáng)大的學(xué)習(xí)器,這使得它們很容易對數(shù)據(jù)集過擬合。如下圖6的第一行所示,生成的內(nèi)容主要由輸入字符主導(dǎo)。即使給出不同的文本提示,模型也會生成相似的視覺內(nèi)容。本文的反過擬合策略旨在削弱字符ID與目標(biāo)幀之間的對應(yīng)關(guān)系,從而避免簡單的記憶。如第二行所示,這有助于生成與文本描述高度一致的多樣化高質(zhì)量結(jié)果。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

多模態(tài)電影腳本。 多模態(tài)腳本引入了面部embedding,以更好地保持一致性。下圖5有力地展示了這種設(shè)計(jì)的有效性。具體來說,移除面部embedding會導(dǎo)致模型保持角色一致性的能力下降。面部embedding攜帶了比單純文本更細(xì)致和精確的信息。使用面部embedding后,短期和長期的一致性都得到了很好的保持。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

ID保持渲染。 在啟用ID保持渲染之前,本文的解碼器已經(jīng)顯示出重建目標(biāo)圖像的能力。然而,對于訓(xùn)練集外的圖像,由于壓縮token中細(xì)微面部特征的丟失,重建的角色外觀可能與預(yù)期目標(biāo)略有不同。應(yīng)用ID保持渲染后,本文的解碼器在保持角色身份方面表現(xiàn)出顯著增強(qiáng)的能力。實(shí)驗(yàn)結(jié)果如上圖3所示,清楚地展示了后處理步驟的有效性。


few-shot個(gè)性化生成。 本文的方法作為一個(gè)強(qiáng)大的上下文學(xué)習(xí)者,能夠根據(jù)用戶提供的少量參考生成與風(fēng)格或角色一致的結(jié)果。結(jié)果展示在下圖7中。本文的模型在few-shot場景下能夠生成與參考風(fēng)格和角色更一致的結(jié)果。

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

超燃!純AI生成《泰坦尼克號》大片!浙大&阿里發(fā)布MovieDreamer:超長電影生成"夢工廠"-AI.x社區(qū)

結(jié)論

本文提出了MovieDreamer,以應(yīng)對生成具有復(fù)雜敘事的長時(shí)間視覺內(nèi)容的挑戰(zhàn)。該方法巧妙地結(jié)合了自回歸和擴(kuò)散的優(yōu)勢,能夠生成長視頻。此外,本文設(shè)計(jì)了多模態(tài)腳本,旨在保持生成序列中角色的一致性。本文進(jìn)一步引入了身份保持渲染,以更好地保持角色身份,并通過上下文建模支持few-shot電影創(chuàng)作。這項(xiàng)工作有望為自動化長時(shí)間視頻制作的未來發(fā)展開辟令人興奮的可能性。


本文轉(zhuǎn)自 AI生成未來 ,作者:Canyu Zhao等


原文鏈接:??https://mp.weixin.qq.com/s/bR0AwBo9Hy5KmChdcKXrIQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦