偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一張照片,一個(gè)3D「你」:計(jì)算所等提出HumanLift,實(shí)現(xiàn)高保真數(shù)字人重建

人工智能 新聞
近期,中國科學(xué)院計(jì)算技術(shù)研究所、香港科技大學(xué)和英國卡迪夫大學(xué)的研究人員合作提出了一項(xiàng)基于單張參考圖像重建高斯網(wǎng)(GaussianMesh [1])數(shù)字人全身的技術(shù)?HumanLift?[2],相關(guān)技術(shù)論文已被 SIGGRAPH ASIA 2025 接收。

創(chuàng)建具有高度真實(shí)感的三維數(shù)字人,在三維影視制作、游戲開發(fā)以及虛擬/增強(qiáng)現(xiàn)實(shí)(VR/AR)等多個(gè)領(lǐng)域均有著廣泛且重要的應(yīng)用。

盡管現(xiàn)有技術(shù)在從多視角圖片重建高質(zhì)量、可動(dòng)畫化的三維人體模型任務(wù)中展現(xiàn)出諸多優(yōu)勢(shì),但從單張參考圖像重建真實(shí)感三維數(shù)字人,依舊面臨技術(shù)復(fù)雜、資源消耗大的挑戰(zhàn)。

如何兼顧三維一致性與參考圖像一致性,重建出高質(zhì)量、高真實(shí)感的人物外觀與姿勢(shì),以及如何生成高真實(shí)度且細(xì)節(jié)一致的服飾、人臉等,都是亟待解決的難題。

近期,中國科學(xué)院計(jì)算技術(shù)研究所、香港科技大學(xué)和英國卡迪夫大學(xué)的研究人員合作提出了一項(xiàng)基于單張參考圖像重建高斯網(wǎng)(GaussianMesh [1])數(shù)字人全身的技術(shù) HumanLift [2],相關(guān)技術(shù)論文已被 SIGGRAPH ASIA 2025 接收。

  • 項(xiàng)目主頁:http://geometrylearning.com/HumanLift/

該項(xiàng)工作提出了一種融合三維視頻擴(kuò)散模型和人臉增強(qiáng)的單圖高斯網(wǎng)數(shù)字人重建方法。通過此方法,用戶僅需輸入單張人體圖片,就能重建出高質(zhì)量、高逼真度的三維數(shù)字人,不僅能在不可見視角下準(zhǔn)確估計(jì)人物外觀和服飾幾何細(xì)節(jié),還能保持多視角一致性,同時(shí)確保生成的三維模型符合參考圖像中的先驗(yàn)信息。

下圖為基于單張參考圖像重建數(shù)字人方法的結(jié)果展示:

圖1 基于單張參考圖像重建三維高斯網(wǎng)(GaussianMesh)數(shù)字人結(jié)果

Part1 背景

早期單圖數(shù)字人重建方法主要分為顯式與隱式兩類。顯式方法通常依賴參數(shù)化模型,能夠?qū)θ梭w基礎(chǔ)形狀進(jìn)行估計(jì),但由于模板結(jié)構(gòu)固定,難以處理復(fù)雜衣著情況;隱式方法則通過隱式函數(shù)描述復(fù)雜幾何,重建質(zhì)量有所提升,但往往計(jì)算成本較高,且因缺乏有效先驗(yàn),生成紋理的真實(shí)感仍面臨挑戰(zhàn)。

近年來,隨著生成模型(如 Stable Diffusion [3])和神經(jīng)隱式渲染方法(如神經(jīng)輻射場(chǎng) NeRF [4]、三維高斯?jié)姙R 3D-GS [5])的快速發(fā)展,快速構(gòu)建了二維圖像與三維空間之間的聯(lián)系,使得二維生成能力有效助力三維生成。

已有研究在一般物體的單視圖三維重建方面取得顯著進(jìn)展,但受限于三維人體數(shù)據(jù)稀缺以及人物姿勢(shì)、服飾的復(fù)雜性,將這些方法拓展到高真實(shí)感三維人體建模領(lǐng)域,仍面臨諸多困難。

一些方法嘗試從參考圖片提取文本信息,并借助擴(kuò)散模型與可微渲染技術(shù)進(jìn)行建模,但受文本條件模糊性限制,難以準(zhǔn)確還原精細(xì)服裝細(xì)節(jié),且優(yōu)化效率較低。隨著多視圖擴(kuò)散生成技術(shù)的發(fā)展,研究者開始探索從單圖直接生成多視圖人體圖像,避免復(fù)雜優(yōu)化流程。

例如,將多視圖生成 [6] 與 3D 高斯?jié)姙R(3D-GS)結(jié)合為統(tǒng)一優(yōu)化模塊,然而這類方法因缺乏三維先驗(yàn),導(dǎo)致視角不一致問題。另一些方法則引入顯式三維人體先驗(yàn),結(jié)合生成模型以提升多視圖一致性,雖在服裝與姿態(tài)的真實(shí)性上有所提升,但由于面部在全身圖中占比過小,仍存在面部細(xì)節(jié)缺失、一致性與真實(shí)感不足的問題。

Part2 算法原理

HumanLift 的目標(biāo)是:給定一張人物單張圖像 I,創(chuàng)建一個(gè)能夠捕捉逼真外觀和細(xì)微細(xì)節(jié)(如服裝紋理)的 3D 數(shù)字形象,同時(shí)包含清晰的人臉細(xì)節(jié),實(shí)現(xiàn)自由視角瀏覽。該方法通過兩個(gè)階段完成這一任務(wù),其方法框架如下圖所示:

圖2 HumanLift 的方法框架圖

第一階段:多視角圖像生成

此階段旨在從一張日常拍攝的個(gè)人照片中生成逼真的多視角圖像。HumanLift 設(shè)計(jì)了一種具備 3D 感知能力的多視角人體生成方法。

為了確保對(duì)一般圖像的泛化能力,生成器的骨干網(wǎng)絡(luò)是基于目前的視頻生成模型 Wan2.1 [7] 構(gòu)建——該模型在大量 2D 通用視頻上完成訓(xùn)練,具備強(qiáng)大的高保真視頻推斷能力。

HumanLift 基于該模型并引入額外的三維人體先驗(yàn),處理 2D 人體動(dòng)畫任務(wù),并繼承其預(yù)訓(xùn)練權(quán)重。

具體而言,該階段設(shè)計(jì)了兩種專門針對(duì)人體優(yōu)化的模型——HumanWan-DiT(RGB)和 HumanWan-DiT(Normal),以增強(qiáng)不同視角的一致性和幾何細(xì)節(jié)。

同時(shí),引入 SMPL-X 的多視角語義圖像作為 3D 先驗(yàn)條件,并將其嵌入到 Wan2.1 中,提供 3D 引導(dǎo)。為了減少訓(xùn)練內(nèi)存開銷的同時(shí)保持模型生成能力,方法采用低秩適應(yīng)(LoRA)技術(shù)進(jìn)行內(nèi)存高效的參數(shù)微調(diào)。

此外,通過一個(gè)由堆疊 3D 卷積層組成的輕量條件編碼器,對(duì)人體的三維先驗(yàn)信息進(jìn)行編碼,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

圖3 HumanWan-DiT 網(wǎng)絡(luò)架構(gòu)

中:

  • HumanWan-DiT(RGB): 以 SMPL-X 的語義圖像為條件輸入,以人全身的 RGB 圖片為參考輸入,最終輸出人體多視角的 RGB 圖像;
  • HumanWan-DiT(Normal): 以 HumanWan-DiT(RGB)生成的多視角圖像為條件輸入,以人預(yù)測(cè)的法向圖片為參考輸入,最終輸出多視角的法向圖像。

第二階段:3D-GS 模型重建

該階段利用第一階段生成的多視角圖像,包括多視角的 Normal 圖片和 RGB 圖片,重建人體的 3D-GS 表示。

首先,該方法借助現(xiàn)有生成模型 [8] 對(duì)超分辨率的面部圖像進(jìn)行多視角圖片生成,生成具有標(biāo)準(zhǔn)空間下相機(jī)姿態(tài)的高質(zhì)量多視角面部圖像。

在重建過程中,以生成的多視角人臉圖像和第一階段生成的多視角人體圖像作為監(jiān)督信號(hào),基于高斯網(wǎng)表示(GaussianMesh [1])對(duì)三維高斯球的參數(shù)進(jìn)行優(yōu)化。

需要特別注意的是,為確保面部渲染的準(zhǔn)確性,需將面部圖像的相機(jī)姿態(tài)(標(biāo)準(zhǔn)空間)轉(zhuǎn)換到 SMPL-X 頭部(世界空間),以監(jiān)督面部部分的高斯球?qū)傩?,獲得高質(zhì)量的人臉細(xì)節(jié)。

由于初始的 SMPL-X 與人體的 3D-GS 的位置上存在誤差,HumanLift 會(huì)根據(jù)每次迭代優(yōu)化后的 SMPL-X 的姿態(tài)參數(shù),從而動(dòng)態(tài)調(diào)整面部相機(jī)姿態(tài),確保面部相機(jī)姿態(tài)與頭部的 3D 高斯球始終保持一致。

Part3 效果展示

In-the-wild 人體圖片重建數(shù)字人

為了展示 HumanLift 在真實(shí)拍攝人物圖片中的效果,對(duì)于每張參考圖像,我們的方法可以預(yù)測(cè)多視角的 RGB 圖片和 Normal 圖片。

結(jié)果表明,HumanLift 生成的多視角 RGB 圖像具有照片級(jí)真實(shí)感,多視角法向圖能精準(zhǔn)反映人物及服飾的幾何細(xì)節(jié),且整體保持了良好的空間一致性。

為進(jìn)一步展示 HumanLift 的泛化能力,圖4 呈現(xiàn)了更多人物的重建結(jié)果,包括不同服飾風(fēng)格、不同拍攝場(chǎng)景下的人物案例。無論參考圖像的人物特征、服飾類型,HumanLift 均能穩(wěn)定生成高質(zhì)量、高一致性的三維數(shù)字人。更多的結(jié)果請(qǐng)?jiān)L問項(xiàng)目主頁。

圖4 不同服飾和衣物下的顏色和法向結(jié)果

消融實(shí)驗(yàn)結(jié)果

為驗(yàn)證各模塊的作用,圖5 展示了 HumanLift 的消融實(shí)驗(yàn)結(jié)果,即對(duì)三種消融方法(禁用面部增強(qiáng)、禁用 SMPL-X 姿態(tài)優(yōu)化和禁用人體多視角法線圖監(jiān)督)的定性對(duì)比分析結(jié)果:

  • 禁用面部增強(qiáng): 面部細(xì)節(jié)明顯缺失,真實(shí)感大幅下降;
  • 禁用 SMPL-X 姿態(tài)優(yōu)化: 人體姿態(tài)與頭部相機(jī)位姿匹配度降低,頭部渲染效果偏離真實(shí)場(chǎng)景;
  • 禁用人體多視角法線圖監(jiān)督: 服飾細(xì)節(jié)丟失嚴(yán)重,幾何結(jié)構(gòu)呈現(xiàn)不準(zhǔn)確。

圖5 的實(shí)驗(yàn)結(jié)果證明,面部增強(qiáng)模塊通過生成先驗(yàn)顯著提升面部細(xì)節(jié)質(zhì)量;SMPL-X 優(yōu)化模塊不僅能有效調(diào)整人體姿態(tài)參數(shù),還能同步更新頭部相機(jī)位姿,引導(dǎo) 3D-GS 模型生成更符合真實(shí)感的頭部渲染效果;基于微調(diào) HumanWan-DiT(Normal)模型提供的法線監(jiān)督,能讓 3D-GS 表征在多視角一致法線圖像的指導(dǎo)下,更好地保留衣物細(xì)節(jié)。

圖5 不同策略下的消融結(jié)果

Part4 結(jié)語

隨著大模型和生成式人工智能的發(fā)展,單圖全身數(shù)字人重建問題迎來了新的解決范式。傳統(tǒng)重建方法存在渲染結(jié)果真實(shí)感不足、復(fù)雜衣物和姿勢(shì)難以精準(zhǔn)重建等問題;而現(xiàn)有生成式方法,也難以在人物姿勢(shì)、服飾細(xì)節(jié)和人臉真實(shí)感與一致性重建之間實(shí)現(xiàn)平衡。

HumanLift 提出了一種有效的解決方案,通過微調(diào)基于三維擴(kuò)散先驗(yàn)的視頻生成模型和專門設(shè)計(jì)的人臉增強(qiáng)模塊。借助該方法,用戶無需進(jìn)行繁瑣的數(shù)據(jù)處理,僅需輸入單張參考圖片,就能重建出高質(zhì)量、高逼真度的三維數(shù)字人——不僅能在新視角下準(zhǔn)確估計(jì)人物外觀和服飾幾何,還能保持多視角一致性,同時(shí)確保生成的三維模型符合輸入圖像中的人物信息。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-20 16:26:21

2019-11-21 08:57:31

GPS信息定位

2024-09-30 09:35:55

圖像生成AI

2025-01-27 09:32:23

2022-03-02 13:44:10

3D模型數(shù)據(jù)

2023-12-05 13:49:00

AI模型

2023-12-13 13:06:30

2024-07-16 12:02:11

2025-05-21 13:51:12

AI工具模型

2024-12-23 15:46:59

2024-10-12 12:32:39

2019-06-23 17:30:07

AI 數(shù)據(jù)人工智能

2025-01-14 10:30:00

3D生成AI

2016-09-13 23:05:47

2025-01-26 10:19:21

2023-05-08 15:44:23

3D數(shù)字人

2024-11-26 09:43:37

2024-03-25 08:00:00

3DAI

2024-05-16 09:24:17

3D技術(shù)

2020-01-14 10:39:00

網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全技術(shù)周刊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)