偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架

發(fā)布于 2024-8-26 10:10
瀏覽
0收藏

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.11788

亮點直擊

  • 多agent協(xié)作與關(guān)鍵幀迭代:提出了DreamFactory框架,模擬AI虛擬電影制作團隊,利用多agent協(xié)作進行腳本編寫、角色設(shè)計等,并引入關(guān)鍵幀迭代設(shè)計方法以保持視頻段落的一致性。
  • 監(jiān)控機制與圖像數(shù)據(jù)庫:通過引入監(jiān)控角色和集成圖像向量數(shù)據(jù)庫,確保了長視頻生成過程中的圖像一致性和穩(wěn)定性。
  • 優(yōu)異的評估結(jié)果:在UTF-101和HMDB51數(shù)據(jù)集上測試,DreamFactory生成的視頻在質(zhì)量上顯著優(yōu)于傳統(tǒng)方法,同時超越了網(wǎng)絡(luò)上現(xiàn)有AI生成短視頻的平均質(zhì)量。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

目前的視頻生成模型在創(chuàng)建短小、逼真的片段方面表現(xiàn)出色,但在生成較長的多場景視頻時存在困難。本文介紹了DreamFactory,這是一種基于大語言模型(LLM)的框架,旨在解決這一挑戰(zhàn)。DreamFactory利用了多智能體協(xié)作的原則,并采用關(guān)鍵幀迭代設(shè)計方法,確保長視頻中的一致性和風格。它使用了鏈式思維(COT)來解決大語言模型中固有的不確定性問題。DreamFactory能夠生成長度較長、風格一致且復雜的視頻。對這些長視頻的評估也是一個挑戰(zhàn)。同時提出了新的指標,如跨場景人臉距離評分和跨場景風格一致性評分。為了進一步推動這一領(lǐng)域的研究,本文貢獻了包含150多個經(jīng)過人工評分的視頻的多場景視頻數(shù)據(jù)集。DreamFactory為在視頻生成中利用多智能體系統(tǒng)開辟了道路。

DreamFactory

DreamFactory框架利用多個大語言模型(LLM)來構(gòu)建一個模擬的動畫公司,分配CEO、導演和創(chuàng)作者等角色。給定一個故事后,這些角色通過社交互動和合作來創(chuàng)建視頻。該框架使LLM能夠通過使用小型視頻生成模型作為工具來完成龐大的任務(wù),從而模擬現(xiàn)實世界。

角色定義

在模擬動畫公司DreamFactory的架構(gòu)中,包含以下角色:CEO、電影導演、制片人、編劇、制片人和評論員。在DreamFactory框架內(nèi),這些角色與現(xiàn)實世界中的相似,承擔確定電影風格、編寫劇本和繪畫等職責。


角色定義提示主要包括三部分:職位、任務(wù)和要求。例如,電影創(chuàng)作者的定義提示包括以下內(nèi)容:(a)你是電影美術(shù)總監(jiān)。現(xiàn)在,都在Dream Factory工作……(b)你的工作是根據(jù)導演給出的場景生成圖片……以及(c)你必須遵守現(xiàn)實世界的規(guī)則,如顏色不變……。對于情節(jié)討論等任務(wù),也限制其討論輪次不能超過特定數(shù)量(根據(jù)用戶的設(shè)置和公司的規(guī)模定義)。使用以下提示來確保這一點:"你告訴我你的想法和故事,應(yīng)該集思廣益并互相批評對方的想法。在討論超過5個想法后,任何一方都必須主動終止討論,選擇最佳風格,并以一個單詞<INFO>回復,后跟最新的風格決定,例如卡通風格。"


在下圖3的面板(a)和(b)中,展示了角色被定義和啟動角色扮演的示意圖。整個公司的完整架構(gòu)在圖8中得到了全面介紹。對于每個角色,定義了一張角色卡片,包括:

1)角色名稱放在每張卡片的左上角;
2)角色所涉及的階段放在卡片的右上角;
3)在每張角色卡片上,展示了角色所參與的對話和協(xié)作角色;
4)在卡片的右側(cè)展示了角色的中間輸出;
5)最后,將對話之外的相應(yīng)文件或內(nèi)容放在卡片的底部。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

DreamFactory框架流程

本節(jié)介紹DreamFactory的具體流程。下圖2展示了主要階段并指出了哪些agent參與了對話。在深入探討整個流程之前,有必要首先概述其基本組成部分:階段和對話。如上圖3所示,階段代表一個完整的過程,它以一些文本或圖像內(nèi)容作為輸入。由GPT組成的agent通過角色扮演、討論和協(xié)作來處理這些輸入,最終產(chǎn)生一些輸出。對話是一個階段的基本單元,通常一個階段包含多輪對話。在固定的對話輪次之后,一個階段接近結(jié)束,此時DreamFactory會保存該階段生成的某些中間結(jié)論,這些結(jié)論是希望保留的。例如,在“風格決策”階段,最終的結(jié)論將被保留。此外,在后續(xù)的階段中,DreamFactory將提供必要的前期成果,例如在后續(xù)設(shè)計關(guān)鍵幀時調(diào)用之前的風格和腳本。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

最近發(fā)現(xiàn),大語言模型的能力受限于有限的推理能力,就像在現(xiàn)實生活中,過于復雜的情況會導致粗心和混亂。因此,該框架在視頻領(lǐng)域的主要思想是將長視頻的創(chuàng)作分解為特定的階段,允許特定的大型模型扮演指定的角色,發(fā)揮其在分析具體問題上的強大能力。就像現(xiàn)實生活中的電影制作公司一樣,DreamFactory采用經(jīng)典的工作流程,從劇本創(chuàng)作開始,隨后是繪圖??傮w而言,框架涵蓋了六個主要階段:任務(wù)定義、風格決策、故事提示、腳本設(shè)計和關(guān)鍵幀設(shè)計。最后一個階段,即關(guān)鍵幀迭代設(shè)計的方法將在下一節(jié)介紹;此方法用于保持各階段生成圖像的一致性和連續(xù)性。在前四個階段中,角色是通過對話進行的。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

關(guān)鍵幀迭代設(shè)計

在生成長視頻時,最具挑戰(zhàn)性的問題是視頻由一系列長序列的圖像集合組成。因此,在生成時,模型需要保持長期一致的記憶,以確保模型生成的每一幀都能連貫地組成一致的視頻。這種記憶包括兩種類型:短期記憶知識和長期記憶系統(tǒng)。


短期記憶知識 嵌入在固定場景的視頻中。在相鄰幀之間,每一幀中的動畫應(yīng)保持連貫,角色應(yīng)統(tǒng)一,顏色、風格等不應(yīng)有顯著變化。目前,最新的視頻模型在短期記憶方面表現(xiàn)非常好。然而,仍然添加了一個監(jiān)控器,以監(jiān)督視頻模型是否表現(xiàn)足夠出色。如下圖4所示,每一幀生成后都有一個審查過程。因此,為了保持短期一致性,引入的監(jiān)督機制解決了這個問題。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長期記憶系統(tǒng) 則是困擾大多數(shù)當前模型的挑戰(zhàn),也是當今視頻生成領(lǐng)域最緊迫的問題。特別是在基于GPT的全自動多智能體框架中,大語言模型固有的隨機性和漂移現(xiàn)象使得這一問題難以解決。長期記憶意味著在場景轉(zhuǎn)換之間,模型應(yīng)能夠保持繪圖風格、角色連續(xù)性和敘事流程的一致性。為了維持長期記憶,引入了關(guān)鍵幀迭代設(shè)計方法,通過指導生成連續(xù)一致的圖像,將長期記憶轉(zhuǎn)化為短期記憶,并在每一步中迭代前進生成。如上圖4所示,展示了每次迭代的過程。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

在實際應(yīng)用中,控制角色的細節(jié)是最具挑戰(zhàn)性的方面。因此,在研究者們精心修改的提示下,特別強調(diào)了在多次實驗中表現(xiàn)不佳的部分,關(guān)鍵幀迭代方法現(xiàn)在能夠生成非常一致且具有實際價值的一系列圖像。

實驗

傳統(tǒng)視頻質(zhì)量評估

評估指標 - 為了驗證關(guān)鍵幀的連續(xù)性和框架生成視頻的質(zhì)量,在架構(gòu)中嵌入了各種工具模型(如Runway、Diffusion、GPT)來評估由不同工具生成的視頻的質(zhì)量。在實驗中,主要采用了以下評估指標:

(1) Fréchet Inception Distance (FID) 分數(shù):衡量生成圖像與真實圖像之間的相似性。

(2) Inception Score (IS):評估生成圖像的質(zhì)量和多樣性。
(3) CLIP 分數(shù):評估生成圖像的文本描述準確性。
(4) Fréchet Video Distance (FVD) 分數(shù):FID在視頻上的擴展,通過Fréchet距離比較真實視頻與合成視頻的特征分布。
(5) Kernel Video Distance (KVD):利用核函數(shù)比較真實視頻與合成視頻的特征分布。


在常規(guī)階段,數(shù)據(jù)集包括由實驗人員從COCO數(shù)據(jù)集中隨機選擇的70個關(guān)鍵詞和簡短句子的常規(guī)提示。這被用于評估基本工具模型生成的圖像質(zhì)量以及圖像與文本之間的對齊程度。在腳本階段,腳本填充階段使用了從提供的數(shù)據(jù)集中隨機提取的70個任務(wù)相關(guān)的腳本。這引導了模型根據(jù)相關(guān)情節(jié)生成內(nèi)容,以評估DreamFactory框架中“動畫部門”的功能。DreamFactory標簽表示框架生成的與腳本對應(yīng)的關(guān)鍵幀圖像。


輸出質(zhì)量統(tǒng)計 - 使用DALL·E和Diffusion等模型生成的圖像質(zhì)量較高,達到了各項指標的最新水平。為了定量分析生成圖像的質(zhì)量,將與原始提示對應(yīng)的圖像輸入GPT以獲得GPT腳本,然后使用原始提示或GPT腳本作為提示生成1400張圖像,從中計算FID、IS和CLIP分數(shù)。至于FVD和KVD,從多場景視頻數(shù)據(jù)集中選擇了100個樣本,并手動提取了每個樣本的10個關(guān)鍵幀,這些關(guān)鍵幀可用于生成多尺度視頻。


下表1中的數(shù)據(jù)表明,使用腳本生成的圖像質(zhì)量平均比使用普通提示詞生成的圖像更為精細。這可能歸因于GPT作為提示的有效性,并且當代模型通常擅長處理較長的提示。然而,在DreamFactory框架中,關(guān)鍵幀迭代設(shè)計與故事板創(chuàng)建、角色詳細描述、場景設(shè)置、光照和風格確定的結(jié)合應(yīng)用,顯著提高了圖像生成的質(zhì)量。下表2中也顯示出視頻質(zhì)量的類似提升。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

多場景視頻評估得分

跨場景面部距離得分 (Cross-Scene Face Distance Score, CSFD Score) - 在連續(xù)視頻的生成中,角色一致性是首要問題。角色外觀的不一致不僅會導致糟糕的視覺效果,還可能讓觀眾難以理解劇情和內(nèi)容。保持角色的一致性確保了圍繞角色展開的故事情節(jié)的連貫性,并增強了視頻的視覺吸引力。尤其是在長時長視頻領(lǐng)域,一個視頻通常由多個場景組成。這是一個前所未有的研究領(lǐng)域,迫切需要強有力的評估指標來評估跨復雜多場景視頻中角色出現(xiàn)的一致性。在此背景下,實驗性地引入了跨場景面部距離得分(CSFD Score)的概念,旨在驗證不同場景中角色面部特征一致性的問題。在計算過程中,每個關(guān)鍵幀對應(yīng)一個面部,并使用dlib庫提取面部位置。通過面部識別庫可以計算相似度得分。對于每一幀的面部部分,可以計算其與后續(xù)所有幀的相似度,然后取平均值。通過這種方法,可以準確地確定視頻中的面部是否一致。相關(guān)的示意圖和計算的偽代碼在下面算法1中提供。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

跨場景風格一致性得分 (Cross-Scene Style Consistency Score, CSSC Score) - 在長視頻的制作中,保持風格一致性同樣重要。一個一致的風格使視頻看起來像一個連貫的整體?;谶@一概念,研究者們引入了跨場景風格一致性得分(CSSC Score)。然而,目前還沒有成熟的方法來快速確定視頻的風格,因此在這一階段,將依賴于大語言視覺模型的輔助。本質(zhì)上,將視頻分為幾類,包括:動畫、插畫、折紙、油畫、寫實主義、賽博朋克和水墨畫。


跨場景風格 - 一致性分數(shù)的計算方法如下:對于每個關(guān)鍵幀,使用由GPT-4V扮演的分類器來確定分類。一旦所有場景都被明確分為不同類別,計算最多數(shù)量類別的關(guān)鍵幀占總關(guān)鍵幀數(shù)的比例。下圖6展示了一個部分輸出,輸入為“現(xiàn)實生活中一位老人制作傳統(tǒng)的中國燈籠”。場景4展示了一個使用Dalle生成的動畫燈籠,由GPT-4V擔任分類器??梢杂^察到,在四個場景中,前三個被歸類為寫實風格,而第四個場景被分類為動漫風格。因此,不同風格的最大數(shù)量為三,導致跨場景風格一致性分數(shù)為75%。其他相關(guān)的示意圖和計算的偽代碼在算法2中提供。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

平均關(guān)鍵幀CLIP分數(shù) - 在生成多場景的長視頻時,評估每個場景的關(guān)鍵幀與對應(yīng)文本的一致性至關(guān)重要。為確保一致性,它們?nèi)谌肓舜罅款~外信息,這可能在生成過程中導致與文本的偏差。這可能導致整體視頻未能遵循腳本。因此,本節(jié)提出了平均關(guān)鍵幀CLIP分數(shù),以確保關(guān)鍵幀場景與腳本的一致性。計算方法很簡單:計算每個關(guān)鍵幀相對于場景提示期間生成場景的CLIP分數(shù),并取平均值。


結(jié)果 - 在下表3中,本文的數(shù)據(jù)選擇包括來自多場景視頻數(shù)據(jù)集的70個以角色為中心的條目,這些條目由DreamFactory框架、GPT-4和DALL-E 3生成?;鶞誓P褪褂昧薉ALL-E 3,并輸入了來自相同數(shù)據(jù)段的腳本。評估主要集中在以下三個指標上:

(1)跨場景面部距離分數(shù)(CSFD)
(2)跨場景風格一致性分數(shù)(CSSC)
(3)平均關(guān)鍵幀CLIP分數(shù)。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

這些指標用于評估框架內(nèi)面部特征的一致性、場景屬性的一致性以及框架生成的提示與敘事和圖像之間的對齊情況。


在跨場景人臉距離評分實驗中,使用了??face-recognition???庫中的面部定位方法,來定位68個面部標志點,從而將肖像照片集中在面部區(qū)域。在圖像編碼階段,使用了來自??openai-clip??庫的ViT模型對面部區(qū)域進行輸入,并計算向量表示。隨后,通過向量點積操作來確定最終的面部距離分數(shù)。由于面部圖像之間的固有相似性,所有的分數(shù)大多都在0.5以上。具體的參考面部匹配分數(shù)對如下圖7所示。在對CSSC分數(shù)和平均CLIP分數(shù)的分析中,使用了相同的一組隨機選取的七十個樣本作為數(shù)據(jù)。CSSC分數(shù)使用了GPT-4版本作為風格分析器。

長視頻生成又有重大突破!DreamFactory:一致、連貫且引人入勝的長視頻生成框架-AI.x社區(qū)

結(jié)論

本文引入了DreamFactory:一個基于多agent的長視頻生成框架。DreamFactory將多agent的理念引入視頻生成領(lǐng)域,能夠生成一致、連貫且引人入勝的長視頻。DreamFactory引入了關(guān)鍵幀迭代設(shè)計方法,以確保不同幀之間風格、角色和場景的一致性,并且可以基于任何圖像或視頻生成工具構(gòu)建。此外,DreamFactory還提出了新的評估指標,通過跨場景面部和風格一致性以及文本到視覺的對齊來驗證其能力。在測試集上,DreamFactory框架能夠?qū)崿F(xiàn)高度一致的連續(xù)故事生成,標志著這一領(lǐng)域的重大突破。


本文轉(zhuǎn)自 AI生成未來 ,作者:Zhifei Xie等


原文鏈接:??https://mp.weixin.qq.com/s/U9VH7j6sc2vswFyqflk_sA??

收藏
回復
舉報
回復
相關(guān)推薦