騰訊開源視頻生成新工具,論文還沒發(fā)先上代碼的那種
想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:
先上代碼再發(fā)論文,騰訊新開源文生視頻工具火了。
名為MuseV,主打基于視覺條件并行去噪的無限長度和高保真虛擬人視頻生成。
老規(guī)矩,先看效果。
靜態(tài)的金克絲秒秒鐘就能動(dòng)起來朝你拋媚眼:
畫中詩圣也“活”了過來:
各種風(fēng)格都能駕馭,風(fēng)景圖也不在話下:
更有搞笑風(fēng)《微笑的騎士》:
再上難度,復(fù)雜些的彈唱也處理得比較自然:
此外,加入“骨架”控制動(dòng)作、姿勢也可以:
騰訊這次論文還沒發(fā)直接放出訓(xùn)練好的模型和部署運(yùn)行的代碼的操作讓網(wǎng)友眼前一亮。主頁顯示訓(xùn)練代碼也即將推出。
不少人已趁熱碼住,GitHub獲星500+。
還有網(wǎng)友已經(jīng)玩上了:
圍觀網(wǎng)友直呼距離成為視頻達(dá)人只差一個(gè)AI。
嘴唇也能同步
除了直接放出模型代碼,目前MuseV還有demo可體驗(yàn)。
demo界面有兩種玩法。
一種可以上傳一張圖然后加上Prompt在這張圖的基礎(chǔ)上進(jìn)行視頻生成;另一種是上傳一個(gè)參考視頻和一張圖,使圖片中的內(nèi)容按照視頻中的動(dòng)作運(yùn)動(dòng)起來。
緊接著下方還有一些參數(shù)可以調(diào)整??梢宰远x視頻的時(shí)長以及視頻的尺寸。
此外值得一提的是,文本、圖像到視頻的生成結(jié)果的所有幀直接由MuseV生成,沒有時(shí)序超分辨、空間超分辨等任何后處理。
而輸入視頻控制姿態(tài)的生成模式下,開發(fā)團(tuán)隊(duì)表示需要參考視頻的首幀條件和參考圖像的首幀條件對(duì)齊,不然會(huì)破壞首幀的信息,效果會(huì)更差。所以一般生成流程是:
- 確定參考視頻;
- 用參考視頻的首幀走圖生圖、controlnet流程,可以使用MJ等各種平臺(tái);
- 拿第二步中的生成圖、參考視頻用MuseV生成視頻。
除MuseV,開發(fā)團(tuán)隊(duì)還表示即將發(fā)布一個(gè)實(shí)時(shí)高質(zhì)量的唇同步模型——MuseTalk,可與MuseV一起搭配使用。
用上它,蒙娜麗莎也能對(duì)嘴型唱歌。
MuseV里面長啥樣?
技術(shù)方面,據(jù)了解MuseV是在去年7月左右基于擴(kuò)散模型實(shí)現(xiàn)的技術(shù)進(jìn)展,受到Sora啟發(fā),開發(fā)團(tuán)隊(duì)決定開源MuseV,之后將轉(zhuǎn)向擴(kuò)散+Transformer方案。
也就是說,MuseV是基于擴(kuò)散模型的虛擬人視頻生成框架。
模型架構(gòu)如下圖所示:
總的來說,MuseV具有以下特點(diǎn):
首先是支持使用新穎的視覺條件并行去噪方案進(jìn)行無限長度生成,不會(huì)再有誤差累計(jì)的問題,尤其適用于固定相機(jī)位的場景。
并行去噪算法示意圖如下:
其次,MuseV提供了基于人物類型數(shù)據(jù)集訓(xùn)練的虛擬人視頻生成預(yù)訓(xùn)練模型。
而且支持圖像到視頻、文本到圖像到視頻、視頻到視頻的生成;兼容Stable Diffusion文圖生成生態(tài)系統(tǒng),包括base_model、lora、controlnet等。
還支持多參考圖像技術(shù),包括IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。