偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源

發(fā)布于 2024-6-17 10:40
瀏覽
0收藏

如何生成高難度、指令超復(fù)雜的視頻呢?


北大與快手AI有解了,他們提出新框架VideoTetris,就像拼俄羅斯方塊一樣,輕松組合各種細(xì)節(jié)~


在復(fù)雜視頻生成任務(wù)中,超過了Pika,Gen-2等一眾商用模型。

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)

這個(gè)框架不僅能夠直接增強(qiáng)現(xiàn)有模型的組合生成,還能夠支持涵蓋多復(fù)雜指令、多場(chǎng)景變更等更高難度的長(zhǎng)視頻生成。

首次定義組合視頻生成

文生圖領(lǐng)域,RPG、Omost等項(xiàng)目已經(jīng)實(shí)現(xiàn)了復(fù)雜的組合式多物體多場(chǎng)景圖片生成。而在文生視頻領(lǐng)域,組合生成自然地?cái)U(kuò)展到時(shí)間和空間維度,這樣的場(chǎng)景還未被廣泛探索。


團(tuán)隊(duì)首次定義了組合視頻生成任務(wù),包括兩個(gè)子任務(wù):


1、跟隨復(fù)雜組合指令的視頻生成。2、跟隨遞進(jìn)的組合式多物體指令的長(zhǎng)視頻生成。

目前經(jīng)團(tuán)隊(duì)測(cè)試發(fā)現(xiàn),幾乎所有開源模型,包括商用模型在內(nèi)都未能生成正確的視頻。


比如輸入“左邊一個(gè)可愛的棕色狗狗,右邊一只打盹的貓?jiān)陉?yáng)光下小憩”,結(jié)果生成的都是融合了兩個(gè)物體信息的奇怪視頻。

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)

而使用VideoTetris,生成出的視頻是這樣,成功保留了所有的位置信息和細(xì)節(jié)特征。

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)

在長(zhǎng)視頻生成中,目前的方法支持的可變指令目前還停留在“春夏秋冬”的轉(zhuǎn)化,或單物體從走到跑到騎馬的場(chǎng)景變化階段。


團(tuán)隊(duì)輸入一個(gè)簡(jiǎn)單的多指令:“從一只可愛的棕色松鼠在一堆榛子上過渡到一只可愛的棕色松鼠和一只可愛的白色松鼠在一堆榛子上”。


結(jié)果VideoTetris成功搞定,出現(xiàn)順序也與Prompt一致,最后兩只松鼠還在自然地交換食物。

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)

使用了時(shí)空組合擴(kuò)散方法

這樣的效果是如何做到的呢?該團(tuán)隊(duì)的 VideoTetris 框架使用了時(shí)空組合擴(kuò)散方法

他們將一個(gè)提示詞首先按照時(shí)間解構(gòu),為不同的視頻幀指定好不同的提示信息。

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)

隨后,在每一幀上進(jìn)行空間維度的解構(gòu),將不同物體對(duì)應(yīng)不同的視頻區(qū)域。


最后,通過時(shí)空交叉注意力進(jìn)行組合,通過這個(gè)過程實(shí)現(xiàn)高效的組合指令生成。


而為了生成更高質(zhì)量的長(zhǎng)視頻,該團(tuán)隊(duì)還提出了一種增強(qiáng)的訓(xùn)練數(shù)據(jù)預(yù)處理方法。使得長(zhǎng)視頻生成更加動(dòng)態(tài)穩(wěn)定。

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)

此外,還引入了一個(gè)參考幀注意力機(jī)制,使用原生VAE對(duì)之前的幀信息編碼,區(qū)別于StreamingT2V,Vlogger,IPAdapter等使用CLIP 編碼的方式,這樣使得參考信息的表示空間和噪聲完全一致,輕松獲取更好的內(nèi)容一致性。


這樣優(yōu)化的結(jié)果是,長(zhǎng)視頻從此不再有大面積偏色的現(xiàn)象,能夠更好地適應(yīng)復(fù)雜指令,并且生成的視頻更具有動(dòng)感,更符合自然。


對(duì)于這種組合生成的結(jié)果評(píng)測(cè)工作,該團(tuán)隊(duì)引入了新的評(píng)測(cè)指標(biāo)VBLIP-VQA和VUnidet,將組合生成評(píng)價(jià)方法首次擴(kuò)展到視頻維度。


實(shí)驗(yàn)測(cè)試表明,在組合視頻生成能力上,該模型的表現(xiàn)超過了所有開源模型,甚至是商用模型如Gen-2和Pika。

北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)


北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開源-AI.x社區(qū)

據(jù)介紹,該代碼將完全開源。


論文地址:
???https://arxiv.org/abs/2406.04277???

項(xiàng)目主頁(yè):
???https://videotetris.github.io/???

GitHub地址:https://github.com/YangLing0818/VideoTetris


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/nsSTckp5xsk1VhyV--t_Sw??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦