偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

HumanGaussian開源:基于Gaussian Splatting,高質(zhì)量 3D 人體生成新框架

人工智能 新聞
為了引入人體結(jié)構(gòu)先驗(yàn),最近的文本驅(qū)動 3D 人體生成研究將 SDS 與 SMPL 等模型結(jié)合起來。具體來說,一個常見的做法是將人體先驗(yàn)集成到網(wǎng)格(mesh)和神經(jīng)輻射場(NeRF)等表示中,或者通過將身體形狀作為網(wǎng)格 / 神經(jīng)輻射場密度初始化,或者通過學(xué)習(xí)基于線性混合蒙皮(Linear Blend Skinning)的形變場。

在 3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷一系列人工制作的過程,如 3D 人體模型回歸、綁定、蒙皮、紋理貼圖和驅(qū)動等。為了自動化 3D 內(nèi)容生成,此前的一些典型工作(比如 DreamFusion [1] )提出了分?jǐn)?shù)蒸餾采樣 (Score Distillation Sampling),通過優(yōu)化 3D 場景的神經(jīng)表達(dá)參數(shù),使其在各個視角下渲染的 2D 圖片符合大規(guī)模預(yù)訓(xùn)練的文生圖模型分布。然而,盡管這一類方法在單個物體上取得了不錯的效果,我們還是很難對具有復(fù)雜關(guān)節(jié)的細(xì)粒度人體進(jìn)行精確建模。

為了引入人體結(jié)構(gòu)先驗(yàn),最近的文本驅(qū)動 3D 人體生成研究將 SDS 與 SMPL 等模型結(jié)合起來。具體來說,一個常見的做法是將人體先驗(yàn)集成到網(wǎng)格(mesh)和神經(jīng)輻射場(NeRF)等表示中,或者通過將身體形狀作為網(wǎng)格 / 神經(jīng)輻射場密度初始化,或者通過學(xué)習(xí)基于線性混合蒙皮(Linear Blend Skinning)的形變場。然而,它們大多在效率和質(zhì)量之間進(jìn)行權(quán)衡:基于 mesh 的方法很難對配飾和褶皺等精細(xì)拓?fù)溥M(jìn)行建模;而基于 NeRF 的方法渲染高分辨率結(jié)果對時間和顯存的開銷非常大。如何高效地實(shí)現(xiàn)細(xì)粒度生成仍然是一個未解決的問題。

最近,3D Gaussian Splatting(3DGS)[2] 的顯式神經(jīng)表達(dá)為實(shí)時場景重建提供了新的視角。它支持多粒度、多尺度建模,對 3D 人體生成任務(wù)非常適用。然而,想要使用這種高效的表達(dá)仍有兩個挑戰(zhàn):1) 3DGS 通過在每個視錐體中排序和 alpha - 混合各向異性的高斯來表征基于圖塊的光柵化,這僅會反向傳播很少一部分的高置信度高斯。然而,正如 3D 表面 / 體積渲染研究所證實(shí)的那樣,稀疏的梯度可能會阻礙幾何和外觀的網(wǎng)絡(luò)優(yōu)化。因此,3DGS 需要結(jié)構(gòu)引導(dǎo),特別是對于需要層次化建模和可控生成的人體領(lǐng)域。2)樸素的 SDS 需要一個較大的無分類器指導(dǎo)(Classifier-Free Guidance)來進(jìn)行圖像文本對齊(例如,在 DreamFusion [1] 中使用的 100)。但它會因過度飽和而犧牲視覺質(zhì)量,使真實(shí)的人類生成變得困難。此外,由于 SDS 損失的隨機(jī)性,3DGS 中原始的基于梯度的密度控制會變得不穩(wěn)定,導(dǎo)致模糊的結(jié)果和浮動偽影。

在最近的一項(xiàng)工作中,香港中文大學(xué)、騰訊 AI Lab、北京大學(xué)、香港大學(xué)、南洋理工大學(xué)團(tuán)隊(duì)推出最新有效且快速的 3D 人體生成模型 HumanGaussian,通過引入顯式的人體結(jié)構(gòu)引導(dǎo)與梯度規(guī)范化來輔助 3D 高斯的優(yōu)化過程,能夠生成多樣且逼真的高質(zhì)量 3D 人體模型。目前,代碼與模型均已開源。

圖片


  • arXiv: https://arxiv.org/abs/2311.17061
  • Webpage: https://alvinliu0.github.io/projects/HumanGaussian
  • Demo: https://www.youtube.com/watch?v=S3djzHoqPKY
  • Github&Code: https://github.com/alvinliu0/HumanGaussian

圖片

核心方法

(1)Structure-Aware SDS

研究者基于 SMPL-X 網(wǎng)格形狀初始化 3D 高斯中心位置:1)以前的研究使用運(yùn)動結(jié)構(gòu)點(diǎn)(Structure-from-Motion)或 Shap-E [3] 和 Point-E [4] 等通用文本到點(diǎn)云先驗(yàn)。然而,此類方法通常在人體類別中存在點(diǎn)過于稀疏或身體結(jié)構(gòu)不連貫等問題。2)作為 SMPL 的擴(kuò)展,SMPL-X 補(bǔ)充了人臉和手部的形狀拓?fù)?,有利于進(jìn)行具有細(xì)粒度細(xì)節(jié)的復(fù)雜人體建模?;谶@些觀察,研究者提出了在 SMPL-X 網(wǎng)格表面均勻采樣點(diǎn)作為 3DGS 初始化。他們對 3DGS 進(jìn)行縮放和變換,使其達(dá)到合理的人體尺寸并位于 3D 空間的中心。

由于 SMPL-X 先驗(yàn)僅用作初始化,因此需要更全面的指導(dǎo)來促進(jìn) 3DGS 訓(xùn)練。研究者提出使用一個同時捕獲紋理和結(jié)構(gòu)聯(lián)合分布的 SDS 源模型,而不是從僅學(xué)習(xí)外觀或幾何形狀的單一模態(tài)擴(kuò)散模型中學(xué)習(xí) 3D 場景。他們使用結(jié)構(gòu)專家分支擴(kuò)展預(yù)訓(xùn)練的 Stable Diffusion 模型,以同時對圖像 RGB 和深度圖進(jìn)行去噪:

圖片

借助這種方式,研究者獲得了一個統(tǒng)一的模型,可以捕獲外觀的圖像紋理和前景 / 背景關(guān)系的結(jié)構(gòu),該模型可以在 SDS 中用于促進(jìn) 3DGS 學(xué)習(xí)。

通過生成空間對齊圖像 RGB 和深度的擴(kuò)展擴(kuò)散模型,可以從結(jié)構(gòu)和紋理方面同時指導(dǎo) 3DGS 優(yōu)化過程:

圖片

這種結(jié)構(gòu)正則化有助于減少幾何失真,從而有利于具有稀疏梯度信息的 3DGS 優(yōu)化。

(2)Annealed Negative Prompt Guidance

為了促進(jìn)文本與 3D 生成內(nèi)容之間的對齊,DreamFusion [1] 使用較大的無分類器引導(dǎo)尺度來更新 3D 場景優(yōu)化的分?jǐn)?shù)匹配差異項(xiàng):


圖片

在這個公式中,可以自然地將分?jǐn)?shù)匹配差異分解為兩部分,其中前一項(xiàng)是將圖像推向更真實(shí)的流形的生成分?jǐn)?shù);后一項(xiàng)是將樣本與隱式分類器對齊的分類器分?jǐn)?shù)。然而,由于生成分?jǐn)?shù)包含高方差的高斯噪聲,它提供了損害訓(xùn)練穩(wěn)定性的隨機(jī)梯度信息。為了解決這個問題,DreamFusion 特地使用較大的無分類器引導(dǎo)尺度,使分類器分?jǐn)?shù)主導(dǎo)優(yōu)化,導(dǎo)致模式過度飽和。相反,研究者僅利用更清晰的分類器分?jǐn)?shù)作為 SDS 損失。

在文生圖和文生 3D 領(lǐng)域中,負(fù)文本被廣泛用于避免生成不需要的屬性。基于此,研究者提出增加負(fù)文本分類器分?jǐn)?shù)以實(shí)現(xiàn)更好的 3DGS 學(xué)習(xí)。

根據(jù)經(jīng)驗(yàn),研究者發(fā)現(xiàn)負(fù)文本分類器分?jǐn)?shù)會在小時間步長內(nèi)損害質(zhì)量,因此使用退火的負(fù)文本引導(dǎo)來結(jié)合兩個分?jǐn)?shù)進(jìn)行監(jiān)督:

圖片

實(shí)驗(yàn)結(jié)果

研究者與通用的文生 3D 和 3D 人體生成領(lǐng)域的模型進(jìn)行對比。可以看到,HumanGaussian 取得了優(yōu)越的性能,渲染出更真實(shí)的人體外觀、更連貫的身體結(jié)構(gòu)、更好的視圖一致性、更細(xì)粒度的細(xì)節(jié)捕捉:

圖片

此外,研究者還通過消融實(shí)驗(yàn)驗(yàn)證了各個模塊的有效性??梢钥闯?,SMPL-X 提供的人體結(jié)構(gòu)先驗(yàn)可以給 3DGS 優(yōu)化提供初始化信息;負(fù)文本引導(dǎo)可以確保逼真的人體紋理外觀;圖像 RGB 與深度圖雙分支的 SDS 監(jiān)督約束可以同時對人體的幾何和紋理進(jìn)行優(yōu)化;最后根據(jù)高斯大小進(jìn)行剪枝可以去除霧狀的偽影:

圖片

以下是一些高清的多視角 3D 人體生成結(jié)果圖:

圖片

圖片

更多樣本請參考文章的項(xiàng)目主頁以及 demo 視頻。

總結(jié)與未來工作

本文提出 HumanGaussian,一種有效且快速的框架用于生成具有細(xì)粒度幾何形狀和逼真外觀的高質(zhì)量 3D 人體。HumanGaussian 提出兩點(diǎn)核心貢獻(xiàn):

(1)設(shè)計(jì)了結(jié)構(gòu)感知的 SDS,可以顯式地引入人體結(jié)構(gòu)先驗(yàn),并同時優(yōu)化人體外觀和幾何形狀;

(2)設(shè)計(jì)了退火的負(fù)文本引導(dǎo),保證真實(shí)的結(jié)果而不會過度飽和并消除浮動偽影??傮w來說,HumanGaussian 能夠生成多樣且逼真的高質(zhì)量 3D 人體模型,渲染出更真實(shí)的人體外觀、更連貫的身體結(jié)構(gòu)、更好的視圖一致性、更細(xì)粒度的細(xì)節(jié)捕捉。

未來工作:

1. 由于現(xiàn)有的文生圖模型對于手部和腳部生成的性能有限,研究者發(fā)現(xiàn)它有時無法高質(zhì)量地渲染這些部分;

2. 后背視圖的渲染紋理可能看起來模糊,這是因?yàn)?2D 姿勢條件模型大多是在人類正面視圖上訓(xùn)練的,而人類后視圖的先驗(yàn)知識很少。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-01-11 09:55:00

AI訓(xùn)練

2024-12-23 15:46:59

2025-01-07 13:19:48

模型AI訓(xùn)練

2024-03-06 14:57:13

火山引擎

2025-01-14 09:24:46

2023-05-09 09:35:22

2024-01-18 12:37:31

SOTA3D方法

2024-10-08 09:25:00

3D模型生成

2023-05-29 10:39:00

AI算法

2023-12-07 10:37:55

3D框架AI

2024-10-09 09:42:26

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2024-12-31 07:15:00

2015-08-19 08:54:23

Android開發(fā)框架

2023-08-21 10:57:17

3D模型

2025-02-08 09:23:08

2024-02-20 13:44:00

AI數(shù)據(jù)

2022-11-09 13:43:59

中小企業(yè)

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數(shù)程序
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號