一張照片,一個(gè)3D「你」:計(jì)算所等提出HumanLift,實(shí)現(xiàn)高保真數(shù)字人重建
創(chuàng)建具有高度真實(shí)感的三維數(shù)字人,在三維影視制作、游戲開發(fā)以及虛擬/增強(qiáng)現(xiàn)實(shí)(VR/AR)等多個(gè)領(lǐng)域均有著廣泛且重要的應(yīng)用。
盡管現(xiàn)有技術(shù)在從多視角圖片重建高質(zhì)量、可動(dòng)畫化的三維人體模型任務(wù)中展現(xiàn)出諸多優(yōu)勢(shì),但從單張參考圖像重建真實(shí)感三維數(shù)字人,依舊面臨技術(shù)復(fù)雜、資源消耗大的挑戰(zhàn)。
如何兼顧三維一致性與參考圖像一致性,重建出高質(zhì)量、高真實(shí)感的人物外觀與姿勢(shì),以及如何生成高真實(shí)度且細(xì)節(jié)一致的服飾、人臉等,都是亟待解決的難題。
近期,中國科學(xué)院計(jì)算技術(shù)研究所、香港科技大學(xué)和英國卡迪夫大學(xué)的研究人員合作提出了一項(xiàng)基于單張參考圖像重建高斯網(wǎng)(GaussianMesh [1])數(shù)字人全身的技術(shù) HumanLift [2],相關(guān)技術(shù)論文已被 SIGGRAPH ASIA 2025 接收。

- 項(xiàng)目主頁:http://geometrylearning.com/HumanLift/
該項(xiàng)工作提出了一種融合三維視頻擴(kuò)散模型和人臉增強(qiáng)的單圖高斯網(wǎng)數(shù)字人重建方法。通過此方法,用戶僅需輸入單張人體圖片,就能重建出高質(zhì)量、高逼真度的三維數(shù)字人,不僅能在不可見視角下準(zhǔn)確估計(jì)人物外觀和服飾幾何細(xì)節(jié),還能保持多視角一致性,同時(shí)確保生成的三維模型符合參考圖像中的先驗(yàn)信息。
下圖為基于單張參考圖像重建數(shù)字人方法的結(jié)果展示:

圖1 基于單張參考圖像重建三維高斯網(wǎng)(GaussianMesh)數(shù)字人結(jié)果
Part1 背景
早期單圖數(shù)字人重建方法主要分為顯式與隱式兩類。顯式方法通常依賴參數(shù)化模型,能夠?qū)θ梭w基礎(chǔ)形狀進(jìn)行估計(jì),但由于模板結(jié)構(gòu)固定,難以處理復(fù)雜衣著情況;隱式方法則通過隱式函數(shù)描述復(fù)雜幾何,重建質(zhì)量有所提升,但往往計(jì)算成本較高,且因缺乏有效先驗(yàn),生成紋理的真實(shí)感仍面臨挑戰(zhàn)。
近年來,隨著生成模型(如 Stable Diffusion [3])和神經(jīng)隱式渲染方法(如神經(jīng)輻射場(chǎng) NeRF [4]、三維高斯?jié)姙R 3D-GS [5])的快速發(fā)展,快速構(gòu)建了二維圖像與三維空間之間的聯(lián)系,使得二維生成能力有效助力三維生成。
已有研究在一般物體的單視圖三維重建方面取得顯著進(jìn)展,但受限于三維人體數(shù)據(jù)稀缺以及人物姿勢(shì)、服飾的復(fù)雜性,將這些方法拓展到高真實(shí)感三維人體建模領(lǐng)域,仍面臨諸多困難。
一些方法嘗試從參考圖片提取文本信息,并借助擴(kuò)散模型與可微渲染技術(shù)進(jìn)行建模,但受文本條件模糊性限制,難以準(zhǔn)確還原精細(xì)服裝細(xì)節(jié),且優(yōu)化效率較低。隨著多視圖擴(kuò)散生成技術(shù)的發(fā)展,研究者開始探索從單圖直接生成多視圖人體圖像,避免復(fù)雜優(yōu)化流程。
例如,將多視圖生成 [6] 與 3D 高斯?jié)姙R(3D-GS)結(jié)合為統(tǒng)一優(yōu)化模塊,然而這類方法因缺乏三維先驗(yàn),導(dǎo)致視角不一致問題。另一些方法則引入顯式三維人體先驗(yàn),結(jié)合生成模型以提升多視圖一致性,雖在服裝與姿態(tài)的真實(shí)性上有所提升,但由于面部在全身圖中占比過小,仍存在面部細(xì)節(jié)缺失、一致性與真實(shí)感不足的問題。
Part2 算法原理
HumanLift 的目標(biāo)是:給定一張人物單張圖像 I,創(chuàng)建一個(gè)能夠捕捉逼真外觀和細(xì)微細(xì)節(jié)(如服裝紋理)的 3D 數(shù)字形象,同時(shí)包含清晰的人臉細(xì)節(jié),實(shí)現(xiàn)自由視角瀏覽。該方法通過兩個(gè)階段完成這一任務(wù),其方法框架如下圖所示:

圖2 HumanLift 的方法框架圖
第一階段:多視角圖像生成
此階段旨在從一張日常拍攝的個(gè)人照片中生成逼真的多視角圖像。HumanLift 設(shè)計(jì)了一種具備 3D 感知能力的多視角人體生成方法。
為了確保對(duì)一般圖像的泛化能力,生成器的骨干網(wǎng)絡(luò)是基于目前的視頻生成模型 Wan2.1 [7] 構(gòu)建——該模型在大量 2D 通用視頻上完成訓(xùn)練,具備強(qiáng)大的高保真視頻推斷能力。
HumanLift 基于該模型并引入額外的三維人體先驗(yàn),處理 2D 人體動(dòng)畫任務(wù),并繼承其預(yù)訓(xùn)練權(quán)重。
具體而言,該階段設(shè)計(jì)了兩種專門針對(duì)人體優(yōu)化的模型——HumanWan-DiT(RGB)和 HumanWan-DiT(Normal),以增強(qiáng)不同視角的一致性和幾何細(xì)節(jié)。
同時(shí),引入 SMPL-X 的多視角語義圖像作為 3D 先驗(yàn)條件,并將其嵌入到 Wan2.1 中,提供 3D 引導(dǎo)。為了減少訓(xùn)練內(nèi)存開銷的同時(shí)保持模型生成能力,方法采用低秩適應(yīng)(LoRA)技術(shù)進(jìn)行內(nèi)存高效的參數(shù)微調(diào)。
此外,通過一個(gè)由堆疊 3D 卷積層組成的輕量條件編碼器,對(duì)人體的三維先驗(yàn)信息進(jìn)行編碼,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

圖3 HumanWan-DiT 網(wǎng)絡(luò)架構(gòu)
其中:
- HumanWan-DiT(RGB): 以 SMPL-X 的語義圖像為條件輸入,以人全身的 RGB 圖片為參考輸入,最終輸出人體多視角的 RGB 圖像;
- HumanWan-DiT(Normal): 以 HumanWan-DiT(RGB)生成的多視角圖像為條件輸入,以人預(yù)測(cè)的法向圖片為參考輸入,最終輸出多視角的法向圖像。
第二階段:3D-GS 模型重建
該階段利用第一階段生成的多視角圖像,包括多視角的 Normal 圖片和 RGB 圖片,重建人體的 3D-GS 表示。
首先,該方法借助現(xiàn)有生成模型 [8] 對(duì)超分辨率的面部圖像進(jìn)行多視角圖片生成,生成具有標(biāo)準(zhǔn)空間下相機(jī)姿態(tài)的高質(zhì)量多視角面部圖像。
在重建過程中,以生成的多視角人臉圖像和第一階段生成的多視角人體圖像作為監(jiān)督信號(hào),基于高斯網(wǎng)表示(GaussianMesh [1])對(duì)三維高斯球的參數(shù)進(jìn)行優(yōu)化。
需要特別注意的是,為確保面部渲染的準(zhǔn)確性,需將面部圖像的相機(jī)姿態(tài)(標(biāo)準(zhǔn)空間)轉(zhuǎn)換到 SMPL-X 頭部(世界空間),以監(jiān)督面部部分的高斯球?qū)傩?,獲得高質(zhì)量的人臉細(xì)節(jié)。
由于初始的 SMPL-X 與人體的 3D-GS 的位置上存在誤差,HumanLift 會(huì)根據(jù)每次迭代優(yōu)化后的 SMPL-X 的姿態(tài)參數(shù),從而動(dòng)態(tài)調(diào)整面部相機(jī)姿態(tài),確保面部相機(jī)姿態(tài)與頭部的 3D 高斯球始終保持一致。
Part3 效果展示
In-the-wild 人體圖片重建數(shù)字人
為了展示 HumanLift 在真實(shí)拍攝人物圖片中的效果,對(duì)于每張參考圖像,我們的方法可以預(yù)測(cè)多視角的 RGB 圖片和 Normal 圖片。
結(jié)果表明,HumanLift 生成的多視角 RGB 圖像具有照片級(jí)真實(shí)感,多視角法向圖能精準(zhǔn)反映人物及服飾的幾何細(xì)節(jié),且整體保持了良好的空間一致性。
為進(jìn)一步展示 HumanLift 的泛化能力,圖4 呈現(xiàn)了更多人物的重建結(jié)果,包括不同服飾風(fēng)格、不同拍攝場(chǎng)景下的人物案例。無論參考圖像的人物特征、服飾類型,HumanLift 均能穩(wěn)定生成高質(zhì)量、高一致性的三維數(shù)字人。更多的結(jié)果請(qǐng)?jiān)L問項(xiàng)目主頁。

圖4 不同服飾和衣物下的顏色和法向結(jié)果
消融實(shí)驗(yàn)結(jié)果
為驗(yàn)證各模塊的作用,圖5 展示了 HumanLift 的消融實(shí)驗(yàn)結(jié)果,即對(duì)三種消融方法(禁用面部增強(qiáng)、禁用 SMPL-X 姿態(tài)優(yōu)化和禁用人體多視角法線圖監(jiān)督)的定性對(duì)比分析結(jié)果:
- 禁用面部增強(qiáng): 面部細(xì)節(jié)明顯缺失,真實(shí)感大幅下降;
- 禁用 SMPL-X 姿態(tài)優(yōu)化: 人體姿態(tài)與頭部相機(jī)位姿匹配度降低,頭部渲染效果偏離真實(shí)場(chǎng)景;
- 禁用人體多視角法線圖監(jiān)督: 服飾細(xì)節(jié)丟失嚴(yán)重,幾何結(jié)構(gòu)呈現(xiàn)不準(zhǔn)確。
圖5 的實(shí)驗(yàn)結(jié)果證明,面部增強(qiáng)模塊通過生成先驗(yàn)顯著提升面部細(xì)節(jié)質(zhì)量;SMPL-X 優(yōu)化模塊不僅能有效調(diào)整人體姿態(tài)參數(shù),還能同步更新頭部相機(jī)位姿,引導(dǎo) 3D-GS 模型生成更符合真實(shí)感的頭部渲染效果;基于微調(diào) HumanWan-DiT(Normal)模型提供的法線監(jiān)督,能讓 3D-GS 表征在多視角一致法線圖像的指導(dǎo)下,更好地保留衣物細(xì)節(jié)。

圖5 不同策略下的消融結(jié)果
Part4 結(jié)語
隨著大模型和生成式人工智能的發(fā)展,單圖全身數(shù)字人重建問題迎來了新的解決范式。傳統(tǒng)重建方法存在渲染結(jié)果真實(shí)感不足、復(fù)雜衣物和姿勢(shì)難以精準(zhǔn)重建等問題;而現(xiàn)有生成式方法,也難以在人物姿勢(shì)、服飾細(xì)節(jié)和人臉真實(shí)感與一致性重建之間實(shí)現(xiàn)平衡。
HumanLift 提出了一種有效的解決方案,通過微調(diào)基于三維擴(kuò)散先驗(yàn)的視頻生成模型和專門設(shè)計(jì)的人臉增強(qiáng)模塊。借助該方法,用戶無需進(jìn)行繁瑣的數(shù)據(jù)處理,僅需輸入單張參考圖片,就能重建出高質(zhì)量、高逼真度的三維數(shù)字人——不僅能在新視角下準(zhǔn)確估計(jì)人物外觀和服飾幾何,還能保持多視角一致性,同時(shí)確保生成的三維模型符合輸入圖像中的人物信息。


































