偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

人人都是電影「導(dǎo)演」!MSRA聯(lián)合北大等高校提出:視頻、電影、短視頻生成模型

人工智能 新聞
近期以ChatGPT為代表的一大批大語言模型(LLM)的大火,將AIGC領(lǐng)域推向了一個(gè)熱潮,也讓更多的用戶感受到了AIGC技術(shù)對于工作效率上的提升。除了圍繞著文本生成的大語言模型之外,AIGC在圖像生成上也大放異彩。

自從Stable Diffusion和Midjourney爆火之后,人們見識到了人工智能技術(shù)在圖片生成領(lǐng)域的強(qiáng)大實(shí)力。

而Stable Diffusion的開源,又進(jìn)一步促進(jìn)了定制化生成模型社區(qū)的建立,使得圖片生成得到了長足的發(fā)展。

然而,在更復(fù)雜、表達(dá)內(nèi)容更豐富的視頻生成領(lǐng)域,卻缺乏一個(gè)有能力生成高質(zhì)量視頻內(nèi)容的模型,對于下游不同類型的視頻例如電影和短視頻的創(chuàng)作也更是「天方夜譚」。

為了打破這一窘境,微軟亞洲研究院(MSRA)聯(lián)合多所高校在視頻生成領(lǐng)域提出了一系列工作,涵蓋基礎(chǔ)生成模型和實(shí)現(xiàn)下游視頻生成任務(wù)的應(yīng)用模型。

其中,有兩篇工作已經(jīng)被ACM Multimedia 2023接收。

基礎(chǔ)模型

首先,北大和MSRA組成的聯(lián)合團(tuán)隊(duì)針對將圖片生成模型拓展至視頻生成這一問題展開了細(xì)致的研究,提出了視頻生成基礎(chǔ)模型 VideoFactory。

圖片

作者列表:汪文靖,楊歡,拓子曦,何匯國,朱俊臣,傅建龍,劉家瑛

論文地址:https://arxiv.org/abs/2305.10874

1. 背景和動(dòng)機(jī)

相較于圖像生成,視頻生成更為困難,其既包含空間域的單幀畫面建模,也包含時(shí)間域的跨幀運(yùn)動(dòng)建模。

然而,相較于大規(guī)模高質(zhì)量圖像數(shù)據(jù),現(xiàn)有視頻數(shù)據(jù)集的質(zhì)量和規(guī)模均存在嚴(yán)重缺陷。

受限于數(shù)據(jù)集,從零構(gòu)建高質(zhì)量視頻生成模型十分困難,因此大部分工作采用了將預(yù)訓(xùn)練的圖像生成模型拓展至視頻生成的方案,更加便利高效。

在此背景下,如何將時(shí)序信息有效融入預(yù)訓(xùn)練的圖像生成模型成為了研究的重點(diǎn)。

現(xiàn)有工作通常將獨(dú)立的一維卷積和注意力模塊分散地添加到視頻生成模型中,這會(huì)導(dǎo)致時(shí)空信息的交互不足。

同時(shí),當(dāng)前可用的視頻數(shù)據(jù)集質(zhì)量也不令人滿意,從而導(dǎo)致現(xiàn)有工作的生成質(zhì)量受限。

其中具有代表性的WebVid-10M數(shù)據(jù)集分辨率不足(360P),且畫面含明顯水印。

2. 方法和貢獻(xiàn)

2.1 基于交換式時(shí)空交叉注意力機(jī)制的模型設(shè)計(jì)

圖片

傳統(tǒng)的時(shí)空交互模塊設(shè)計(jì)如圖(a)-(c)所示,這些架構(gòu)獨(dú)立地處理每個(gè)幀上的空域操作,而時(shí)域操作考慮每個(gè)空間位置的多個(gè)幀,這種方式忽略了時(shí)空信息的重要交互。

區(qū)別于(a)-(c)中的自注意力機(jī)制(self-attention),文章作者提出在空域和時(shí)域模塊之間引入交叉注意力機(jī)制:時(shí)域和空域特征會(huì)交替(swapped)地作為注意力機(jī)制中的Query和Key,以此充分將兩者的信息進(jìn)行融合和交互。為減少計(jì)算開銷,進(jìn)一步采用了3D窗口化的計(jì)算模式(3DW-MCA)。

這種設(shè)計(jì)鼓勵(lì)了更多的時(shí)空信息交互,強(qiáng)化了時(shí)空域特征,完整的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

圖片

實(shí)驗(yàn)結(jié)果表明,交替交叉注意力機(jī)制極大地提升了網(wǎng)絡(luò)對時(shí)空信息的建模能力,同時(shí)3D窗口的注意力優(yōu)化將計(jì)算開銷(包括運(yùn)行時(shí)間和顯存消耗)顯著降低,并進(jìn)一步提升了網(wǎng)絡(luò)的生成性能。

圖片

2.2 首個(gè)超大規(guī)模的高質(zhì)量視頻生成數(shù)據(jù)集

豐富的文本-視頻數(shù)據(jù)對是訓(xùn)練開放域文本到視頻生成模型的先決條件。

然而,現(xiàn)有的文本視頻數(shù)據(jù)集在規(guī)?;蛸|(zhì)量上總是受到限制,影響了高質(zhì)量視頻生成模型的構(gòu)建。

文章作者詳細(xì)分析了現(xiàn)有數(shù)據(jù)集的規(guī)模和質(zhì)量,并提出了業(yè)內(nèi)首個(gè)同時(shí)滿足:高畫質(zhì)、大規(guī)模、強(qiáng)標(biāo)注的文本視頻對數(shù)據(jù)集HD-VG-130M。

圖片

該工作首先根據(jù)HD-VILA-100M[2]的視頻標(biāo)簽進(jìn)行采樣,從YouTube上收集原始高清視頻。

由于原始視頻具有復(fù)雜的場景轉(zhuǎn)換,不利于生成模型學(xué)習(xí)時(shí)間相關(guān)性,因此使用PySceneDetect檢測并分割這些原始視頻中的場景,最終得到130M個(gè)單場景視頻片段。

進(jìn)一步,文章作者提取每個(gè)視頻片段的中心幀作為關(guān)鍵幀,使用BLIP-2為關(guān)鍵幀加上描述文本作為每個(gè)視頻片段的文本描述。

HD-VG-130M中的所有視頻片段都是單一場景,這確保了關(guān)鍵幀的描述在大多數(shù)情況下具有足夠的代表性,可以描述整個(gè)片段的內(nèi)容。

圖片

該工作從視頻類型、視頻時(shí)長和描述文本長度三個(gè)方面對數(shù)據(jù)集進(jìn)行了全面分析,確保了該數(shù)據(jù)集中的視頻具有豐富的多樣性,且時(shí)長與文本長度都利于視頻生成模型的訓(xùn)練。

圖片

通過使用提出的大規(guī)模高質(zhì)量數(shù)據(jù)集HD-VG-130M進(jìn)行訓(xùn)練,網(wǎng)絡(luò)在數(shù)值指標(biāo)上得到了顯著的提升,同時(shí)在生成視覺效果得到了顯著的優(yōu)化,例如生成的樣本不再帶有水印。

3. 實(shí)驗(yàn)結(jié)果

該工作以LDM作為預(yù)訓(xùn)練的圖像生成網(wǎng)絡(luò),使用了公開的WebVid-10M和HD-VG-130M進(jìn)行聯(lián)合訓(xùn)練。

推理時(shí),聯(lián)合4x的預(yù)訓(xùn)練的超分辨率網(wǎng)絡(luò),最終生成1376 x 768的高清視頻。

3.1 數(shù)值指標(biāo)

該工作在多個(gè)數(shù)據(jù)集上進(jìn)行了與Zero-Shot和非Zero-Shot方法相比較的豐富實(shí)驗(yàn)。

圖片

在UCF-101的實(shí)驗(yàn)中,VideoFactory在Zero-Shot的設(shè)定下,顯著超越了其它同類型的模型,提升了FVD指標(biāo)。

圖片

在MSR-VTT的實(shí)驗(yàn)中,該方法證明了其生成的樣本與輸入的文本具有極高的匹配程度。

圖片

在WebVid-10M中,文章作者選取了5K的獨(dú)立測試集進(jìn)行性能評估,該方法在生成指標(biāo)上顯著領(lǐng)先于現(xiàn)有的其它方法。

圖片

最后,該方法進(jìn)行了人工評測,測評指標(biāo)包含:視頻畫面質(zhì)量、文本和視頻內(nèi)容的匹配程度、綜合視頻效果三個(gè)維度。

在與開源方法的對比中,VideoFactory以壓倒性(綜合偏好度93%)的優(yōu)勢獲得了測評人員的認(rèn)可。

同時(shí)VideoFactory也嘗試了與當(dāng)前的超大型閉源模型進(jìn)行了性能的對比,該工作以超小的模型規(guī)模(僅12%~21%的參數(shù)量),在與這些模型公布的優(yōu)秀樣本對比中,取得了可匹敵的性能。

3.2 視覺效果

該工作也展示了與Imagen Video[3]、Make-A-Video[4]和Video LDM[5]的視覺效果對比。

值得注意的是,對比的方法均為當(dāng)前未開源的超大模型,對比的樣本均為各方法對應(yīng)主頁的優(yōu)秀展示樣本。

圖片

Make-A-Video只生成1:1的視頻,這限制了用戶體驗(yàn)。

與Imagen Video和Video LDM相比,該工作的模型生成的熊貓和金毛犬具有更生動(dòng)的細(xì)節(jié)。

圖片

同時(shí)該工作也展示了與現(xiàn)有的其它開源模型的生成樣本對比,可以明顯看出,在畫面構(gòu)圖、時(shí)序連貫性等方面,該工作有顯著的效果領(lǐng)先。

圖片

圖片

更多生成樣本展示了該工作高質(zhì)量的泛化性和穩(wěn)定性。

雖然目前該工作暫未公開項(xiàng)目主頁,但小編發(fā)現(xiàn)作者搭建了一個(gè)數(shù)據(jù)集GitHub項(xiàng)目https://github.com/daooshee/HD-VG-130M),其中數(shù)據(jù)集可以通過郵件作者的方式申請。

應(yīng)用模型

基于基礎(chǔ)模型,團(tuán)隊(duì)實(shí)現(xiàn)了兩個(gè)下游視頻的生成任務(wù),用以完全釋放基礎(chǔ)模型的性能,并直接能夠與用戶交互,實(shí)現(xiàn)良好的體驗(yàn)。

1. 電影生成模型MovieFactory

電子科技大學(xué)和MSRA等機(jī)構(gòu)的研究人員提出了全自動(dòng)化的電影生成模型。

用戶只需要給出一句簡單的電影主題,模型就可以幫用戶生成電影級畫質(zhì)(3072 x 1280)、電影風(fēng)格(多場景)和帶有音樂的高質(zhì)量電影。

目前,該論文已被ACM Multimedia 2023 Brave New Idea(BNI)接收。

圖片

作者列表:朱俊臣,楊歡,何匯國,汪文靖,拓子曦,鄭文皇,高聯(lián)麗,宋井寬,傅建龍

論文地址:https://arxiv.org/abs/2306.07257

1.1 方法設(shè)計(jì)

作者結(jié)合了現(xiàn)有的語言和圖像生成大模型,構(gòu)建出了可生成多幕場景的視頻生成器,并采用了檢索模型助力音頻部分的生成。

圖片

由于要生成高質(zhì)量的多幕場景,視覺生成模型需要多個(gè)引導(dǎo)文本。

為了讓用戶輸入的簡單且高度概括化的文本變成電影所需要的詳細(xì)「劇本」,該工作采用了ChatGPT對文本進(jìn)行擴(kuò)充豐富。

作者設(shè)計(jì)了一套提示詞(prompts)用以實(shí)現(xiàn)該功能。這些提示詞引導(dǎo)ChatGPT形成一系列劇本,并且使得這些劇本能符合編劇的準(zhǔn)則,同時(shí)能為用戶指定的主題引入創(chuàng)新和獨(dú)特的元素。此外,劇本也能有效地發(fā)揮視頻生成模型的能力。

有了劇本之后,視頻生成模型即可完成各幕的生成了。

考慮到電影與普通視頻域之間存在的差異,例如:超寬屏畫面和畫面風(fēng)格。而高質(zhì)量的電影的相關(guān)數(shù)據(jù)卻十分稀少,因此需要將預(yù)訓(xùn)練的基礎(chǔ)模型快速遷移至電影生成上。



圖片

模型大體上與前文介紹的基礎(chǔ)模型VideoFactory保持一致,并設(shè)計(jì)了新的模塊用于實(shí)現(xiàn)快速的視頻域遷移。

從圖像生成模型拓展至視頻生成模型時(shí),不同于之前的工作會(huì)訓(xùn)練所有網(wǎng)絡(luò)參數(shù),該工作固定了預(yù)訓(xùn)練的所有參數(shù),并添加了新的層對視頻的空間信息進(jìn)行擬合。

這種設(shè)計(jì)有兩個(gè)優(yōu)點(diǎn):

1)可以完全保留預(yù)訓(xùn)練中的全部知識,從而生成訓(xùn)練數(shù)據(jù)集中不包括的內(nèi)容和場景,這對于電影奇幻場景的生成尤為重要;

2)可以在新的模塊中擬合多個(gè)視頻域分布,這使得對于任何視頻域數(shù)據(jù)的訓(xùn)練都不會(huì)產(chǎn)生數(shù)據(jù)域偏離的問題,并保持了網(wǎng)絡(luò)生成高質(zhì)量畫面的能力。

基于這種設(shè)計(jì),MovieFactory能夠快速地從預(yù)訓(xùn)練視頻遷移到電影畫面的生成。

有了豐富的畫面,電影還需要音樂和聲效。對此,作者提出了采用檢索模型依據(jù)畫面和電影腳本為視頻匹配合適的音頻。

圖片

該工作同時(shí)采用了文本到音頻和視頻到音頻的檢索模型,以保證音效的豐富性和合理性。

同時(shí)對于背景音樂的選取,作者利用ChatGPT總結(jié)了故事情節(jié)和基調(diào),然后將推薦的基調(diào)類別與音樂信息檢索技術(shù)相結(jié)合,以識別合適的音樂曲目。

1.2 視頻生成

作者選擇Stable Diffusion 2.0作為基礎(chǔ)圖像生成模型,采用WebVid-10M和基礎(chǔ)模型中提出的HD-VG-130M聯(lián)合訓(xùn)練基礎(chǔ)生成模型,并使用了少量的電影數(shù)據(jù)集進(jìn)行畫面的擬合。最后采用了4x視頻超分辨率模型獲得3072×1280的高清超寬屏電影視頻。


圖片


視頻部分的生成結(jié)果展現(xiàn)了模型能夠生成具有清晰畫面(沒有任何水?。┖推交矬w運(yùn)動(dòng)的高質(zhì)量視頻。生成的視頻涵蓋真實(shí)與科幻的場景,并展示出了豐富的細(xì)節(jié)。

用戶僅需給出簡短的電影主題,例如一個(gè)宇航員的太空冒險(xiǎn)(An Astronaut Space Adventure),該模型會(huì)自動(dòng)生成電影的腳本,并由此生成多幕的帶有音頻的高質(zhì)量電影。

2. 短視頻生成模型MobileVidFactory

另一篇來自電子科技大學(xué)、MSRA,以及羅切斯特大學(xué)等機(jī)構(gòu)的工作,提出了全自動(dòng)化的移動(dòng)設(shè)備短視頻生成模型。

只需與用戶進(jìn)行簡單的自然語言交互,模型即可生成豎屏、帶有定制化內(nèi)容和帶有音樂的短視頻。

目前,該論文已被ACM Multimedia 2023 Demo接收。

圖片

作者列表:朱俊臣,楊歡,汪文靖,何匯國,拓子曦,喻永生,鄭文皇,高聯(lián)麗,宋井寬,傅建龍,羅杰波

鏈接:https://arxiv.org/abs/2307.16371

值得注意的是,作為共同作者的羅杰波教授也是之前的視頻生成工作latent-shift[1]的作者。

2.1 方法設(shè)計(jì)

該工作直擊當(dāng)前最火熱的短視頻,借助高效的視頻生成模型和音頻檢索模型,結(jié)合基于文本的語音合成技術(shù),構(gòu)建出符合當(dāng)前短視頻風(fēng)格的生成框架。

圖片


該框架分為兩部分,分別是基礎(chǔ)生成部分和可選擇的定制化生成部分。

在基礎(chǔ)生成中,該工作與MovieFactory一致,獨(dú)立地生成視覺和聽覺內(nèi)容。不同的是,該工作添加了可選擇的視頻插幀模型來提升整個(gè)模型輸出視頻的連貫性。

在定制化生成中,作者為用戶設(shè)計(jì)了兩個(gè)可選的自定義功能。

首先,模型支持在視頻中添加自定義的文本貼圖,以輔助作者概括視頻內(nèi)容和表達(dá)創(chuàng)作想法。特別的,文本覆蓋還促進(jìn)了聽力障礙者的無障礙性,并迎合了不同的受眾。

除此之外,為了增加個(gè)人風(fēng)格,增強(qiáng)短視頻的故事性和提升整體真實(shí)感和互動(dòng)性,模型允許用戶在視頻中添加配音。

依據(jù)用戶提供的文本,模型使用預(yù)訓(xùn)練好的TTS(Text-To- Speech)將文本轉(zhuǎn)換為配音。在這個(gè)過程中,用戶可以選擇自己喜歡的語音,并且很好地支持各種語言,如英語和漢語。

2.2 短視頻生成

該工作在生成畫面的質(zhì)量上符合短視頻的構(gòu)圖和美感。

圖片

在最終的短視頻生成上,達(dá)到了豐富的創(chuàng)作表達(dá),和實(shí)現(xiàn)了短視頻的趣味性。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-03-11 00:50:00

AI框架數(shù)據(jù)

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2025-05-12 08:25:00

2023-02-06 09:31:07

視頻圖像

2025-04-22 09:17:00

模型生成開源

2025-01-26 10:50:00

模型視頻生成

2025-08-07 07:56:52

2025-02-11 11:10:51

電影導(dǎo)演AI人工智能

2023-10-14 13:06:11

AI視頻

2023-04-03 10:04:44

開源模型

2024-11-04 14:40:00

AI視頻生成

2025-07-29 09:12:00

2025-10-20 08:36:21

2023-10-20 12:54:00

數(shù)據(jù)訓(xùn)練

2024-10-21 12:40:00

視頻生成模型

2025-10-20 08:58:00

2025-09-23 12:48:36

AGI模型框架

2024-07-08 08:47:00

2012-07-10 16:31:56

快牙
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號