偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

360度無死角!UC伯克利華人發(fā)布3DHM框架:一張圖片即可模仿任意視頻動作

人工智能
無需標(biāo)注數(shù)據(jù),3DHM框架即可讓照片動起來,模仿目標(biāo)視頻動作,衣服動起來也真實(shí)!

輸入一張任意姿勢的照片,想讓照片里的人跟隨「指定視頻」來進(jìn)行動作模仿并不簡單,除了肢體動作的模仿外,模型還需要對運(yùn)動過程中衣服、人物外觀的變化進(jìn)行建模。

圖片圖片

如果輸入圖像是正面的,而模仿的視頻動作包括轉(zhuǎn)身的話,模型還需要「想象」出衣服的背面樣子,以及衣服在轉(zhuǎn)動過程中飄起的樣子。

為了解決這個問題,來自加州大學(xué)伯克利分校的研究人員提出了一個兩階段的、基于擴(kuò)散模型的框架3DHM,通過從單個圖像完成紋理圖來合成3D人體運(yùn)動,然后渲染3D人體以模仿視頻中actor的動作。

圖片圖片

論文地址:https://arxiv.org/abs/2401.10889

3DHM模型中包含兩個核心組件:

1. 學(xué)習(xí)人體和服裝中不可見部分的先驗(yàn)知識。

研究人員使用填充擴(kuò)散(in-filling diffusion)模型,在給定的單張圖像中想象(hallucinate)出不可見部分,然后在紋理圖空間(texture map space)上訓(xùn)練該模型,在姿勢和視點(diǎn)不變的條件下提升采樣效率。

2. 使用適當(dāng)?shù)姆b和紋理渲染出不同的身體姿勢。

研究人員開發(fā)了一個基于擴(kuò)散模型的渲染pipeline,由3D人體姿勢控制,從而可以生成目標(biāo)人物在不同姿勢下的逼真渲染,包括衣服、頭發(fā)和看不見區(qū)域下的合理填充。

該方法可以生成一系列忠實(shí)于目標(biāo)運(yùn)動的3D姿態(tài)、在視覺上與輸入更相似的圖像;3D控件還能夠使用各種合成相機(jī)軌跡來渲染人物。

實(shí)驗(yàn)結(jié)果表明,相比以前的方法,該方法在生成長時間運(yùn)動和各種高難度的姿勢上更有彈性(resilient)。

合成運(yùn)動中的人物

圖片圖片

紋理貼圖涂色(Texture map Inpainting)

第一階段模型的目標(biāo)是通過涂色模仿者的不可見區(qū)域,生成可信的完整紋理貼圖。

研究人員首先將三維網(wǎng)格渲染到輸入圖像上,然后按照4DHumans的方法對每個可見三角形進(jìn)行顏色采樣,從而提取部分可見的紋理圖。

輸入(input)

先利用一種常用的方法來推斷像素到表面的對應(yīng)關(guān)系,從而建立一個不完整的UV紋理圖,用于從單張RGB圖像中提取三維網(wǎng)格紋理。同時計(jì)算可見性掩碼,以顯示哪些像素在3D中可見,哪些不可見。

目標(biāo)(target)

由于建模的目的是生成完整的紋理貼圖,因此使用視頻數(shù)據(jù)生成偽完整紋理貼圖。

由于4DHumans可以隨著時間的推移追蹤人物,因此會不斷更新其內(nèi)部紋理圖,將其表示為可見區(qū)域的移動平均值。

但為了生成更清晰的圖像,研究人員發(fā)現(xiàn)中值濾波比移動平均法更適合生成任務(wù);雖然該技術(shù)可以應(yīng)用于任何視頻中,但在本階段使用的是2,205個人類視頻,對于每段人類視頻,首先從每幀視頻中提取部分紋理圖。

由于每段視頻都包含360度的人類視角,因此從整段視頻中計(jì)算出一個偽完整紋理圖,并將其設(shè)置為第1階段的目標(biāo)輸出,具體來說是提取視頻紋理圖可見部分的整體中值。

模型(Model)

研究人員直接在Stable Diffusion Inpainting模型上進(jìn)行微調(diào),該模型在圖像補(bǔ)全任務(wù)中表現(xiàn)出色。

圖片圖片

輸入部分紋理貼圖和相應(yīng)的可見度掩碼,然后得到復(fù)原的人類預(yù)測貼圖;鎖定文本編碼器分支,并始終將「真人」(real human)作為固定穩(wěn)定擴(kuò)散模型的輸入文本。訓(xùn)練好的模型稱為 Inpainting Diffusion

人體渲染(Human Rendering)

第二階段的目標(biāo)是獲得一個模仿actor動作的人的逼真渲染效果。

雖然中間渲染(根據(jù)演員的姿勢和階段1中的紋理貼圖渲染)可以反映人體的各種動作,但這些SMPL網(wǎng)格渲染是緊貼人體的,無法表現(xiàn)出服裝、發(fā)型和體形的逼真渲染效果。

例如,如果輸入一個女孩穿著裙子跳舞的場景,中間的渲染可能是「跳舞」,但SMPL網(wǎng)格渲染卻無法將裙子做成動畫。

為了以完全自監(jiān)督的方式訓(xùn)練模型,研究人員假定actor就是模仿者,畢竟一個好的actor應(yīng)該是一個好的模仿者;然后就可以從4DHumans中獲取任意視頻和姿勢序列,再獲取任意單幀,并從階段1中獲取完整的紋理貼圖,通過在三維姿勢上渲染紋理貼圖來獲取中間渲染圖。

有了中間渲染圖和真實(shí)RGB圖像的配對數(shù)據(jù)后,就可以收集大量的配對數(shù)據(jù)作為條件來訓(xùn)練第二階段擴(kuò)散模型。

輸入(Input)

首先將第1階段生成的紋理貼圖(完全完整)應(yīng)用到actor的三維身體網(wǎng)格序列中,并對模仿者執(zhí)行演員動作的過程進(jìn)行中間渲染。

需要注意的是,此時的中間渲染只能反映與三維網(wǎng)格相匹配的服裝(貼身衣物),而無法反映SMPL身體以外的紋理,如裙子、冬季夾克或帽子的膨脹區(qū)域。

為了獲得具有完整服裝紋理的人體,研究人員將獲得的中間渲染圖和人體原始圖像輸入到渲染擴(kuò)散中,以渲染出具有逼真外觀的人體新姿勢。

目標(biāo)(Target)

由于在收集數(shù)據(jù)時假定actor是模仿者,所以基于中間渲染圖和真實(shí)RGB圖像的配對數(shù)據(jù),可以在大量數(shù)據(jù)上訓(xùn)練該模型,而不需要任何直接的3D監(jiān)督信號。

模型(Model)

與ControlNet類似,研究人員直接克隆穩(wěn)定擴(kuò)散模型編碼器的權(quán)重作為可控分支(可訓(xùn)練副本)來處理3D條件。

凍結(jié)預(yù)先訓(xùn)練好的穩(wěn)定擴(kuò)散模型,并輸入噪聲潛點(diǎn)(64×64),同時將時間t的紋理映射三維人體和原始人體照片輸入到固定的VAE編碼器中,得到紋理映射三維人體潛碼(64 × 64)和外觀潛碼(64 × 64)作為條件潛碼(conditioning latents)。

然后將這兩個條件潛碼輸入渲染擴(kuò)散可控分支,該分支的主要設(shè)計(jì)原則是從人類輸入中學(xué)習(xí)紋理,并在訓(xùn)練過程中通過去噪處理將其應(yīng)用于紋理映射的三維人類。

目標(biāo)是從第1階段生成(紋理映射)的三維人體中渲染出具有生動紋理的真人。

圖片圖片

通過擴(kuò)散步驟程序和固定VAE解碼器獲得輸出潛像,并將其處理為像素空間。

與第1階段相同,鎖定了文本編碼器分支,并始終將「真人正在表演」(a real human is acting)作為固定穩(wěn)定擴(kuò)散模型的輸入文本。

將訓(xùn)練好的模型稱為渲染擴(kuò)散(Rendering Diffusion)模型,逐幀預(yù)測輸出。

實(shí)驗(yàn)結(jié)果

對比基線

用于對比的sota模型包括DreamPose、DisCo和ControlNet(姿勢準(zhǔn)確性比較)。

公平起見,所有方法的推理步驟都設(shè)為50步。

幀生成質(zhì)量(Frame-wise Generation Quality)

研究人員在2K2K測試數(shù)據(jù)集上對比了3DHM和其他方法,該數(shù)據(jù)集由50個未見過的人體視頻組成,分辨率為256×256。

每個人物視頻拍攝30幀,代表每個未見者的不同視角,角度范圍涵蓋0度到360度,每12度取一幀,可以更好地評估每個模型的預(yù)測和泛化能力。

圖片圖片

從結(jié)果中可以看到,3DHM在不同指標(biāo)上都優(yōu)于其他基線方法。

視頻級生成質(zhì)量(Video-level Generation Quality)

為了驗(yàn)證3DHM的時間一致性,研究人員還報告了與圖像級評估相同的測試集和基線實(shí)施的結(jié)果。

與圖像級對比不同的是,將每連續(xù)的16個幀串聯(lián)起來,形成每個未見過的人在具有挑戰(zhàn)性的視角上的樣本。

圖片

角度范圍從150度到195度,每3度取一幀,可以更好地評估每個模型的預(yù)測和泛化能力。

根據(jù)50個視頻的總體平均得分結(jié)果中可以看到,盡管3DHM是按每幀進(jìn)行訓(xùn)練和測試的,但與之前的方法相比仍具有顯著優(yōu)勢,也表明3DHM在保持三維控制的時間一致性方面表現(xiàn)出色。

姿勢準(zhǔn)確率(Pose Accuracy)

為了進(jìn)一步評估模型的有效性,研究人員首先通過先進(jìn)的三維姿勢估計(jì)模型 4DHumans從不同方法生成的人類視頻中估計(jì)三維姿勢,然后使用相同的數(shù)據(jù)集設(shè)置,并將提取的姿勢與目標(biāo)視頻中的三維姿勢進(jìn)行比較。

由于ControlNet不輸入圖像,所以研究人員選擇輸入了相同的提示「真人正在活動」(a real human is acting)和相應(yīng)的openpose作為條件。

圖片圖片

從結(jié)果中可以看到,3DHM能夠按照所提供的三維姿勢非常準(zhǔn)確地合成出活動的人;同時,以前的方法可能無法通過直接預(yù)測姿勢到像素的映射達(dá)到同樣的性能。

還可以注意到,即使DisCO和ControlNet由Openpose控制,DreamPose由DensePose控制,3DHM也能在2D指標(biāo)和3D指標(biāo)上取得優(yōu)異的結(jié)果。

參考資料:

https://arxiv.org/abs/2401.10889

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-01-22 15:21:00

2024-03-04 08:15:00

2024-04-07 00:45:00

開源模型

2025-04-10 10:02:43

2023-04-07 09:28:31

模型訓(xùn)練

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2023-05-04 14:55:02

模型AI

2023-12-16 09:49:18

2025-05-09 08:50:00

機(jī)器人訓(xùn)練AI

2022-08-22 14:17:31

3D模型

2023-06-08 11:27:10

模型AI

2023-09-25 12:42:00

AI數(shù)據(jù)

2025-04-18 08:42:52

模型推理AI

2023-04-04 13:17:00

GPUCMU開源

2024-03-25 08:30:00

AI數(shù)據(jù)

2023-08-05 13:45:46

模型AI

2025-05-06 15:31:55

智能模型AI

2025-06-25 16:09:40

機(jī)器人AI訓(xùn)練

2023-05-31 16:15:51

模型圖像

2024-02-05 13:28:14

AI音頻虛擬人像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號