偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

一張照片，一個(gè)3D「你」：計(jì)算所等提出HumanLift，實(shí)現(xiàn)高保真數(shù)字人重建

2025-10-22 09:03:00

人工智能新聞

近期，中國科學(xué)院計(jì)算技術(shù)研究所、香港科技大學(xué)和英國卡迪夫大學(xué)的研究人員合作提出了一項(xiàng)基于單張參考圖像重建高斯網(wǎng)（GaussianMesh [1]）數(shù)字人全身的技術(shù)?HumanLift?[2]，相關(guān)技術(shù)論文已被 SIGGRAPH ASIA 2025 接收。

創(chuàng)建具有高度真實(shí)感的三維數(shù)字人，在三維影視制作、游戲開發(fā)以及虛擬/增強(qiáng)現(xiàn)實(shí)（VR/AR）等多個(gè)領(lǐng)域均有著廣泛且重要的應(yīng)用。

盡管現(xiàn)有技術(shù)在從多視角圖片重建高質(zhì)量、可動(dòng)畫化的三維人體模型任務(wù)中展現(xiàn)出諸多優(yōu)勢(shì)，但從單張參考圖像重建真實(shí)感三維數(shù)字人，依舊面臨技術(shù)復(fù)雜、資源消耗大的挑戰(zhàn)。

如何兼顧三維一致性與參考圖像一致性，重建出高質(zhì)量、高真實(shí)感的人物外觀與姿勢(shì)，以及如何生成高真實(shí)度且細(xì)節(jié)一致的服飾、人臉等，都是亟待解決的難題。

近期，中國科學(xué)院計(jì)算技術(shù)研究所、香港科技大學(xué)和英國卡迪夫大學(xué)的研究人員合作提出了一項(xiàng)基于單張參考圖像重建高斯網(wǎng)（GaussianMesh [1]）數(shù)字人全身的技術(shù) HumanLift [2]，相關(guān)技術(shù)論文已被 SIGGRAPH ASIA 2025 接收。

項(xiàng)目主頁：http://geometrylearning.com/HumanLift/

該項(xiàng)工作提出了一種融合三維視頻擴(kuò)散模型和人臉增強(qiáng)的單圖高斯網(wǎng)數(shù)字人重建方法。通過此方法，用戶僅需輸入單張人體圖片，就能重建出高質(zhì)量、高逼真度的三維數(shù)字人，不僅能在不可見視角下準(zhǔn)確估計(jì)人物外觀和服飾幾何細(xì)節(jié)，還能保持多視角一致性，同時(shí)確保生成的三維模型符合參考圖像中的先驗(yàn)信息。

下圖為基于單張參考圖像重建數(shù)字人方法的結(jié)果展示：

圖1 基于單張參考圖像重建三維高斯網(wǎng)（GaussianMesh）數(shù)字人結(jié)果

Part1 背景

早期單圖數(shù)字人重建方法主要分為顯式與隱式兩類。顯式方法通常依賴參數(shù)化模型，能夠?qū)θ梭w基礎(chǔ)形狀進(jìn)行估計(jì)，但由于模板結(jié)構(gòu)固定，難以處理復(fù)雜衣著情況；隱式方法則通過隱式函數(shù)描述復(fù)雜幾何，重建質(zhì)量有所提升，但往往計(jì)算成本較高，且因缺乏有效先驗(yàn)，生成紋理的真實(shí)感仍面臨挑戰(zhàn)。

近年來，隨著生成模型（如 Stable Diffusion [3]）和神經(jīng)隱式渲染方法（如神經(jīng)輻射場(chǎng) NeRF [4]、三維高斯?jié)姙R 3D-GS [5]）的快速發(fā)展，快速構(gòu)建了二維圖像與三維空間之間的聯(lián)系，使得二維生成能力有效助力三維生成。

已有研究在一般物體的單視圖三維重建方面取得顯著進(jìn)展，但受限于三維人體數(shù)據(jù)稀缺以及人物姿勢(shì)、服飾的復(fù)雜性，將這些方法拓展到高真實(shí)感三維人體建模領(lǐng)域，仍面臨諸多困難。

一些方法嘗試從參考圖片提取文本信息，并借助擴(kuò)散模型與可微渲染技術(shù)進(jìn)行建模，但受文本條件模糊性限制，難以準(zhǔn)確還原精細(xì)服裝細(xì)節(jié)，且優(yōu)化效率較低。隨著多視圖擴(kuò)散生成技術(shù)的發(fā)展，研究者開始探索從單圖直接生成多視圖人體圖像，避免復(fù)雜優(yōu)化流程。

例如，將多視圖生成 [6] 與 3D 高斯?jié)姙R（3D-GS）結(jié)合為統(tǒng)一優(yōu)化模塊，然而這類方法因缺乏三維先驗(yàn)，導(dǎo)致視角不一致問題。另一些方法則引入顯式三維人體先驗(yàn)，結(jié)合生成模型以提升多視圖一致性，雖在服裝與姿態(tài)的真實(shí)性上有所提升，但由于面部在全身圖中占比過小，仍存在面部細(xì)節(jié)缺失、一致性與真實(shí)感不足的問題。

Part2 算法原理

HumanLift 的目標(biāo)是：給定一張人物單張圖像 I，創(chuàng)建一個(gè)能夠捕捉逼真外觀和細(xì)微細(xì)節(jié)（如服裝紋理）的 3D 數(shù)字形象，同時(shí)包含清晰的人臉細(xì)節(jié)，實(shí)現(xiàn)自由視角瀏覽。該方法通過兩個(gè)階段完成這一任務(wù)，其方法框架如下圖所示：

圖2 HumanLift 的方法框架圖

第一階段：多視角圖像生成

此階段旨在從一張日常拍攝的個(gè)人照片中生成逼真的多視角圖像。HumanLift 設(shè)計(jì)了一種具備 3D 感知能力的多視角人體生成方法。

為了確保對(duì)一般圖像的泛化能力，生成器的骨干網(wǎng)絡(luò)是基于目前的視頻生成模型 Wan2.1 [7] 構(gòu)建——該模型在大量 2D 通用視頻上完成訓(xùn)練，具備強(qiáng)大的高保真視頻推斷能力。

HumanLift 基于該模型并引入額外的三維人體先驗(yàn)，處理 2D 人體動(dòng)畫任務(wù)，并繼承其預(yù)訓(xùn)練權(quán)重。

具體而言，該階段設(shè)計(jì)了兩種專門針對(duì)人體優(yōu)化的模型——HumanWan-DiT（RGB）和 HumanWan-DiT（Normal），以增強(qiáng)不同視角的一致性和幾何細(xì)節(jié)。

同時(shí)，引入 SMPL-X 的多視角語義圖像作為 3D 先驗(yàn)條件，并將其嵌入到 Wan2.1 中，提供 3D 引導(dǎo)。為了減少訓(xùn)練內(nèi)存開銷的同時(shí)保持模型生成能力，方法采用低秩適應(yīng)（LoRA）技術(shù)進(jìn)行內(nèi)存高效的參數(shù)微調(diào)。

此外，通過一個(gè)由堆疊 3D 卷積層組成的輕量條件編碼器，對(duì)人體的三維先驗(yàn)信息進(jìn)行編碼，其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

圖3 HumanWan-DiT 網(wǎng)絡(luò)架構(gòu)

其中：

HumanWan-DiT（RGB）： 以 SMPL-X 的語義圖像為條件輸入，以人全身的 RGB 圖片為參考輸入，最終輸出人體多視角的 RGB 圖像；
HumanWan-DiT（Normal）： 以 HumanWan-DiT（RGB）生成的多視角圖像為條件輸入，以人預(yù)測(cè)的法向圖片為參考輸入，最終輸出多視角的法向圖像。

第二階段：3D-GS 模型重建

該階段利用第一階段生成的多視角圖像，包括多視角的 Normal 圖片和 RGB 圖片，重建人體的 3D-GS 表示。

首先，該方法借助現(xiàn)有生成模型 [8] 對(duì)超分辨率的面部圖像進(jìn)行多視角圖片生成，生成具有標(biāo)準(zhǔn)空間下相機(jī)姿態(tài)的高質(zhì)量多視角面部圖像。

在重建過程中，以生成的多視角人臉圖像和第一階段生成的多視角人體圖像作為監(jiān)督信號(hào)，基于高斯網(wǎng)表示（GaussianMesh [1]）對(duì)三維高斯球的參數(shù)進(jìn)行優(yōu)化。

需要特別注意的是，為確保面部渲染的準(zhǔn)確性，需將面部圖像的相機(jī)姿態(tài)（標(biāo)準(zhǔn)空間）轉(zhuǎn)換到 SMPL-X 頭部（世界空間），以監(jiān)督面部部分的高斯球?qū)傩?，獲得高質(zhì)量的人臉細(xì)節(jié)。

由于初始的 SMPL-X 與人體的 3D-GS 的位置上存在誤差，HumanLift 會(huì)根據(jù)每次迭代優(yōu)化后的 SMPL-X 的姿態(tài)參數(shù)，從而動(dòng)態(tài)調(diào)整面部相機(jī)姿態(tài)，確保面部相機(jī)姿態(tài)與頭部的 3D 高斯球始終保持一致。

Part3 效果展示

In-the-wild 人體圖片重建數(shù)字人

為了展示 HumanLift 在真實(shí)拍攝人物圖片中的效果，對(duì)于每張參考圖像，我們的方法可以預(yù)測(cè)多視角的 RGB 圖片和 Normal 圖片。

結(jié)果表明，HumanLift 生成的多視角 RGB 圖像具有照片級(jí)真實(shí)感，多視角法向圖能精準(zhǔn)反映人物及服飾的幾何細(xì)節(jié)，且整體保持了良好的空間一致性。

為進(jìn)一步展示 HumanLift 的泛化能力，圖4 呈現(xiàn)了更多人物的重建結(jié)果，包括不同服飾風(fēng)格、不同拍攝場(chǎng)景下的人物案例。無論參考圖像的人物特征、服飾類型，HumanLift 均能穩(wěn)定生成高質(zhì)量、高一致性的三維數(shù)字人。更多的結(jié)果請(qǐng)?jiān)L問項(xiàng)目主頁。

圖4 不同服飾和衣物下的顏色和法向結(jié)果

消融實(shí)驗(yàn)結(jié)果

為驗(yàn)證各模塊的作用，圖5 展示了 HumanLift 的消融實(shí)驗(yàn)結(jié)果，即對(duì)三種消融方法（禁用面部增強(qiáng)、禁用 SMPL-X 姿態(tài)優(yōu)化和禁用人體多視角法線圖監(jiān)督）的定性對(duì)比分析結(jié)果：

禁用面部增強(qiáng)： 面部細(xì)節(jié)明顯缺失，真實(shí)感大幅下降；
禁用 SMPL-X 姿態(tài)優(yōu)化： 人體姿態(tài)與頭部相機(jī)位姿匹配度降低，頭部渲染效果偏離真實(shí)場(chǎng)景；
禁用人體多視角法線圖監(jiān)督： 服飾細(xì)節(jié)丟失嚴(yán)重，幾何結(jié)構(gòu)呈現(xiàn)不準(zhǔn)確。

圖5 的實(shí)驗(yàn)結(jié)果證明，面部增強(qiáng)模塊通過生成先驗(yàn)顯著提升面部細(xì)節(jié)質(zhì)量；SMPL-X 優(yōu)化模塊不僅能有效調(diào)整人體姿態(tài)參數(shù)，還能同步更新頭部相機(jī)位姿，引導(dǎo) 3D-GS 模型生成更符合真實(shí)感的頭部渲染效果；基于微調(diào) HumanWan-DiT（Normal）模型提供的法線監(jiān)督，能讓 3D-GS 表征在多視角一致法線圖像的指導(dǎo)下，更好地保留衣物細(xì)節(jié)。

圖5 不同策略下的消融結(jié)果

Part4 結(jié)語

隨著大模型和生成式人工智能的發(fā)展，單圖全身數(shù)字人重建問題迎來了新的解決范式。傳統(tǒng)重建方法存在渲染結(jié)果真實(shí)感不足、復(fù)雜衣物和姿勢(shì)難以精準(zhǔn)重建等問題；而現(xiàn)有生成式方法，也難以在人物姿勢(shì)、服飾細(xì)節(jié)和人臉真實(shí)感與一致性重建之間實(shí)現(xiàn)平衡。

HumanLift 提出了一種有效的解決方案，通過微調(diào)基于三維擴(kuò)散先驗(yàn)的視頻生成模型和專門設(shè)計(jì)的人臉增強(qiáng)模塊。借助該方法，用戶無需進(jìn)行繁瑣的數(shù)據(jù)處理，僅需輸入單張參考圖片，就能重建出高質(zhì)量、高逼真度的三維數(shù)字人——不僅能在新視角下準(zhǔn)確估計(jì)人物外觀和服飾幾何，還能保持多視角一致性，同時(shí)確保生成的三維模型符合輸入圖像中的人物信息。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營