中科大提出新視頻流制作動(dòng)畫解決方案RAIN,可實(shí)現(xiàn)真人表情移植和動(dòng)漫實(shí)時(shí)動(dòng)畫
中科大提出了一種新的視頻流制作動(dòng)畫解決方案RAIN,能夠使用單個(gè)RTX 4090 GPU 實(shí)時(shí)低延遲地為無限視頻流制作動(dòng)畫。RAIN 的核心思想是有效地計(jì)算不同噪聲水平和長(zhǎng)時(shí)間間隔的幀標(biāo)記注意力,同時(shí)對(duì)比以前基于流的方法多得多的幀標(biāo)記進(jìn)行去噪。這種設(shè)計(jì)允許 RAIN 生成具有更短延遲和更快速度的視頻幀,同時(shí)保持對(duì)擴(kuò)展視頻流的遠(yuǎn)程注意力,從而增強(qiáng)連續(xù)性和一致性。
下面展示跨領(lǐng)域人臉變形生成結(jié)果。實(shí)現(xiàn)了動(dòng)漫人物的實(shí)時(shí)動(dòng)畫。真人表情可以成功移植到動(dòng)漫人物上,且生成穩(wěn)定、一致、無限長(zhǎng)。
RAIN可以在客戶級(jí)設(shè)備上制作實(shí)時(shí)動(dòng)畫。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.19489v1
- 主頁:https://pscgylotti.github.io/pages/RAIN
論文介紹
RAIN:無限視頻流的實(shí)時(shí)動(dòng)畫
實(shí)時(shí)動(dòng)畫因增強(qiáng)在線參與度而廣受歡迎,但使用擴(kuò)散模型實(shí)現(xiàn)高質(zhì)量、實(shí)時(shí)和穩(wěn)定的動(dòng)畫仍然具有挑戰(zhàn)性,尤其是在消費(fèi)級(jí) GPU 上?,F(xiàn)有方法難以有效地生成長(zhǎng)而一致的視頻流,通常受到延遲問題和長(zhǎng)時(shí)間內(nèi)視覺質(zhì)量下降的限制。
在本文中,我們介紹了 RAIN,這是一種管道解決方案,能夠使用單個(gè) RTX 4090 GPU 實(shí)時(shí)低延遲地為無限視頻流制作動(dòng)畫。RAIN 的核心思想是有效地計(jì)算不同噪聲水平和長(zhǎng)時(shí)間間隔的幀標(biāo)記注意力,同時(shí)對(duì)比以前基于流的方法多得多的幀標(biāo)記進(jìn)行去噪。這種設(shè)計(jì)允許 RAIN 生成具有更短延遲和更快速度的視頻幀,同時(shí)保持對(duì)擴(kuò)展視頻流的遠(yuǎn)程注意力,從而增強(qiáng)連續(xù)性和一致性。因此,使用 RAIN 在短短幾個(gè)時(shí)期內(nèi)進(jìn)行微調(diào)的穩(wěn)定擴(kuò)散模型可以實(shí)時(shí)、低延遲地生成視頻流,而不會(huì)在質(zhì)量或一致性方面做出太大妥協(xié),最長(zhǎng)可達(dá)無限長(zhǎng)。盡管 RAIN 擁有先進(jìn)的功能,但它僅引入了一些額外的 1D 注意力模塊,因此額外負(fù)擔(dān)很小。在基準(zhǔn)數(shù)據(jù)集中進(jìn)行的實(shí)驗(yàn)和生成的超長(zhǎng)視頻表明,RAIN 可以實(shí)時(shí)為角色制作動(dòng)畫,并且質(zhì)量、準(zhǔn)確性和一致性遠(yuǎn)高于競(jìng)爭(zhēng)對(duì)手,同時(shí)延遲更低。所有代碼和模型都將公開發(fā)布。
框架
RAIN采用流水線式設(shè)計(jì),用于流式視頻推理。潛在狀態(tài)由階梯式噪聲水平的幀填充。每次對(duì)一組幀進(jìn)行去噪處理。因此RAIN支持生成無限長(zhǎng)的視頻。
為了加速,RAIN采用了多種加速方法。我們對(duì) UNet 模型進(jìn)行 LCM Distillation,并采用TAESDV作為 VAE 解碼器。在 TensorRT 加速下,RAIN在單個(gè) RTX 4090 上以 18 fps 的速度運(yùn)行,延遲約為 1.5 秒,分辨率為 512x512,使用 DWPose 作為特征提取器。
全身動(dòng)畫
來自 UBC-Fashion 數(shù)據(jù)集的測(cè)試示例,該模型僅在訓(xùn)練數(shù)據(jù)集中的 500 個(gè)視頻片段上進(jìn)行訓(xùn)練。
跨域人臉變形
臉部變形示例,真實(shí)臉部的表情和頭部位置被映射到動(dòng)漫臉部中。
未來
RAIN提供了一種使用 AI 渲染實(shí)時(shí)動(dòng)畫的可能方式。期待未來可以將 AI 與 CG 結(jié)合起來渲染游戲、直播和虛擬現(xiàn)實(shí)??梢猿浞掷?AI 的泛化能力來渲染無數(shù)新場(chǎng)景和對(duì)象,并提供一種更具互動(dòng)性的方式來參與合成的世界。