無需昂貴設(shè)備,單目方案生成超逼真3D頭像,清華&IDEA新研究入選CVPR2025
在數(shù)字人、虛擬主播、AR/VR等場景快速發(fā)展背景下,如何高效生成真實、可動、可重光照的3D頭像成為關(guān)鍵。
來自清華和IDEA的研究團(tuán)隊,聯(lián)合開發(fā)了HRAvatar(High-Quality and Relightable Gaussian Head Avatar),一種基于單目視頻的3D高斯頭像重建方法。采用可學(xué)習(xí)形變基和線性蒙皮技術(shù),實現(xiàn)靈活且精確的幾何變形,并通過精準(zhǔn)的表情編碼器減少追蹤誤差,提升重建質(zhì)量。

相關(guān)研究論文已成功被國際計算機(jī)視覺與模式識別會議CVPR 2025錄用。

HRAvatar:從單目視頻到可重光照頭像化身的突破
創(chuàng)建3D頭像化身對于電影、游戲、沉浸式會議、AR/VR等領(lǐng)域至關(guān)重要。在這些應(yīng)用中,頭像化身必須滿足幾個要求:可動畫化、實時、高質(zhì)量和視覺上逼真。
然而,從易獲取的單目視頻中創(chuàng)建高度逼真且可動畫化的頭像仍然具較大的挑戰(zhàn)性。盡管基于3D 高斯(3DGS)的方法在可動畫性和實時渲染方面取得進(jìn)展,但其重建質(zhì)量仍受三方面限制。
幾何變形靈活性不足:現(xiàn)有方法依賴通用參數(shù)模型(3DMM)驅(qū)動高斯點變形,難以準(zhǔn)確捕捉個性化表情變化;
表情追蹤不準(zhǔn)確:訓(xùn)練前通過2D關(guān)鍵點擬合獲取表情參數(shù)不夠準(zhǔn)確,直接優(yōu)化表情參數(shù)則泛化性差,需在測試時進(jìn)行后優(yōu)化;
無法實現(xiàn)真實重光照:在單目未知光照下直接擬合頭像外觀顏色,無法解耦頭像本征外觀與環(huán)境光照,而難以在新環(huán)境光下實現(xiàn)重光照渲染。
為解決上述問題,該方法提出HRAvatar,一種基于3D高斯點實現(xiàn)從單目視頻到高質(zhì)量、可重光照且可驅(qū)動的虛擬頭像化身重建。
該方法通過可學(xué)習(xí)的形變基與蒙皮權(quán)重策略,實現(xiàn)高斯點從標(biāo)準(zhǔn)姿態(tài)到各種表情和姿態(tài)的靈活變形。同時,引入端到端的表情編碼器,提升表情參數(shù)提取準(zhǔn)確性,減少預(yù)追蹤參數(shù)誤差對重建的影響,并確保一定的泛化能力。
為實現(xiàn)真實重光照,該方法將頭像外觀分解為反照率、粗糙度、菲涅爾反射等材質(zhì)屬性,并引入反照率偽先驗以更好解耦材質(zhì)信息,使用簡化的BRDF物理模型進(jìn)行著色。
整體方法在保證實時性的前提下,實現(xiàn)了細(xì)節(jié)豐富、表現(xiàn)力強(qiáng)且支持重光照效果的虛擬頭像重建。
HRAvatar架構(gòu)剖析

精確表情追蹤
現(xiàn)有面部跟蹤方法獲取的表情參數(shù)不夠準(zhǔn)確,為解決表情參數(shù)誤差影響面部重建質(zhì)量的問題,該方法提出使用表情編碼器,更精確提取表情參數(shù)。
編碼器與3D頭像重建聯(lián)合優(yōu)化,實現(xiàn)端到端的訓(xùn)練,利用高斯重建損失進(jìn)行監(jiān)督,提高重建準(zhǔn)確性。

幾何變形模型
該方法使用形變模型將高斯點從標(biāo)準(zhǔn)空間變換到姿態(tài)空間,實現(xiàn)基于表情和姿態(tài)參數(shù)的變形。
為解決通用參數(shù)模型難以還原個性化變形的問題,提出自適應(yīng)學(xué)習(xí)每個點的形變基與混合蒙皮權(quán)重,實現(xiàn)更靈活、精確的幾何變形。
類似FLAME模型,采用可學(xué)習(xí)的線性形變基(Linear Blendshapes)建模幾何位移,對每個高斯點引入三個可學(xué)習(xí)屬性:形狀基,表情基,姿態(tài)基。


完成線性位移形變后,通過線性蒙皮將高斯點變換到姿態(tài)空間。每個高斯點配備一個可學(xué)習(xí)的混合權(quán)重屬性,用于適應(yīng)個體的姿態(tài)變形。

為簡化和加速訓(xùn)練收斂,該方法依賴FLAME模型的幾何與形變先驗進(jìn)行初始化:對FLAME網(wǎng)格面進(jìn)行插值,初始化高斯點位置。采用相同插值策略初始化形變基和蒙皮權(quán)重。
外觀建模
相比3DGS使用球諧函數(shù)建模點的外觀,該方法采用一種新的外觀建模方法,將外觀分解為三個屬性:反照率、粗糙度和菲涅爾基礎(chǔ)反射率,并采用BRDF物理渲染模型進(jìn)行著色。
為提升效率,進(jìn)一步引入SplitSum近似技術(shù),對環(huán)境光照圖進(jìn)行預(yù)計算,從而實現(xiàn)高質(zhì)量、可重光照的實時渲染。
該方法使用光柵化器渲染出反照率圖、粗糙度圖、反射率圖和法線圖。接著,計算鏡面反射和漫反射圖:


并使用近似的菲涅爾方程來計算鏡面反射系數(shù) :

最終的著色圖像由漫反射和鏡面反射圖相加得到。
法線估計。平滑且準(zhǔn)確的法線對于物理渲染至關(guān)重要,該方法使用每個高斯點的最短軸作為其法線。為確保方向正確和幾何一致性,該方法通過深度導(dǎo)數(shù)獲得的法線圖來監(jiān)督渲染的法線圖。

材質(zhì)先驗。在恒定未知光照下解耦材質(zhì)屬性具有不適定性,非均勻光照下重建容易誤將局部光照混入反照率,導(dǎo)致不真實重光照結(jié)果。該方法使用現(xiàn)有模型提取偽真實反照率,監(jiān)督渲染反照率,并限制粗糙度和基礎(chǔ)反射率在預(yù)定義范圍內(nèi),以獲得更真實材質(zhì)。

真實細(xì)節(jié)與實時性能兼得:HRAvatar 實驗結(jié)果全維度領(lǐng)先
實驗設(shè)置:
該方法在INSTA數(shù)據(jù)集的10個對象、HDTF數(shù)據(jù)集的8個對象和5個手機(jī)自采集對象上評估了不同方法,使用每個視頻的最后350幀(INSTA)或500幀(HDTF、自采集)作為測試集。所有方法采用相同裁剪和分割流程,確保評估一致性和可靠性。圖像質(zhì)量通過 PSNR、MAE、SSIM 和 LPIPS 指標(biāo)進(jìn)行評估。
實驗結(jié)果:
該方法在所有指標(biāo)上均優(yōu)于現(xiàn)有方法,尤其是在LPIPS上表現(xiàn)突出,表明重建的頭像細(xì)節(jié)更豐富、質(zhì)量更高。
此外,該方法在驅(qū)動和重光照設(shè)定下測試了渲染速度,達(dá)到約155 FPS的實時性能。


應(yīng)用:
重建的頭像化身除了可進(jìn)行驅(qū)動,也可以在新的環(huán)境光圖下進(jìn)行重光照或簡單的材質(zhì)編輯。


消融實驗:
為了驗證方法中各個組件的有效性,論文中進(jìn)行了詳細(xì)的消融實驗。



以上實驗結(jié)果表明,HRAvatar在整體質(zhì)量上優(yōu)于現(xiàn)有方法,支持高質(zhì)量的實時重光照和簡單的材質(zhì)編輯。
HRAvatar的提出拓展了單目高斯虛擬頭像建模的應(yīng)用場景,目前,相關(guān)代碼已全面開源,歡迎關(guān)注與使用。
論文地址: https://arxiv.org/pdf/2503.08224
項目主頁:https://eastbeanzhang.github.io/HRAvatar/
開源代碼:https://github.com/Pixel-Talk/HRAvatar
視頻Demo:https://www.youtube.com/watch?v=ZRwTHoXKtgc















 
 
 


















 
 
 
 