DreamFace:一句話生成 3D 數(shù)字人?
在科技迅速發(fā)展的今天,生成式人工智能和計(jì)算機(jī)圖形學(xué)領(lǐng)域的研究日益引人注目,影視制作、游戲開(kāi)發(fā)等行業(yè)正面臨著巨大的挑戰(zhàn)和機(jī)遇。本文將為您介紹一項(xiàng) 3D 生成領(lǐng)域的研究 ——DreamFace,它是首個(gè)支持 Production-Ready 3D 資產(chǎn)生成的文本指導(dǎo)漸進(jìn)式 3D 生成框架,能夠?qū)崿F(xiàn)文本生成可驅(qū)動(dòng)的 3D 超寫實(shí)數(shù)字人。
這項(xiàng)工作已經(jīng)被計(jì)算機(jī)圖形領(lǐng)域國(guó)際頂級(jí)期刊 Transactions on Graphics 接收,并將在國(guó)際計(jì)算機(jī)圖形頂級(jí)會(huì)議 SIGGRAPH 2023 上展示。
項(xiàng)目網(wǎng)站:https://sites.google.com/view/dreamface
預(yù)印版論文:https://arxiv.org/abs/2304.03117
Web Demo: https://hyperhuman.top
HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
引言
自文本和圖像生成技術(shù)取得巨大突破以來(lái),3D 生成技術(shù)逐漸成為了科研和產(chǎn)業(yè)界關(guān)注的焦點(diǎn)。然而,目前市面上的 3D 生成技術(shù)仍然面臨著許多挑戰(zhàn),包括 CG 管線兼容性問(wèn)題、準(zhǔn)確性問(wèn)題以及運(yùn)行速度問(wèn)題。
為了解決這些問(wèn)題,來(lái)自影眸科技與上海科技大學(xué)的研發(fā)團(tuán)隊(duì)提出了一種文本指導(dǎo)的漸進(jìn)式 3D 生成框架 ——DreamFace。該框架能夠直接生成符合 CG 制作標(biāo)準(zhǔn)的 3D 資產(chǎn),具有更高的準(zhǔn)確性、更快的運(yùn)行速度和較好的 CG 管線兼容性。本文將對(duì) DreamFace 的主要功能進(jìn)行詳細(xì)介紹,并探討其在影視制作、游戲開(kāi)發(fā)等行業(yè)的應(yīng)用前景。
DreamFace 框架概述
DreamFace 框架主要包括三個(gè)模塊:幾何體生成、基于物理的材質(zhì)擴(kuò)散生成和動(dòng)畫能力生成。這三個(gè)模塊相輔相成,共同實(shí)現(xiàn)了一種高效而可靠的 3D 生成技術(shù)。
幾何體生成
幾何體生成模塊的核心任務(wù)是根據(jù)文本提示生成與之一致的幾何模型。DreamFace 采用了基于 CLIP(Contrastive Language-Image Pre-Training)的選擇框架,首先從人臉幾何參數(shù)空間內(nèi)隨機(jī)采樣的候選項(xiàng)中選擇最佳的粗略幾何模型,然后通過(guò)隱式擴(kuò)散模型(LDM)雕刻幾何細(xì)節(jié),使頭部模型更符合文本提示。此外,該框架還支持基于文本提示的發(fā)型和顏色生成。
基于物理的材質(zhì)擴(kuò)散生成
基于物理的材質(zhì)擴(kuò)散生成模塊旨在預(yù)測(cè)與預(yù)測(cè)幾何體和文本提示一致的面部紋理。DreamFace 首先將預(yù)先訓(xùn)練的 LDM 在收集的大規(guī)模 UV 材質(zhì)數(shù)據(jù)集上微調(diào),得到兩個(gè) LDM 擴(kuò)散模型。然后,采用聯(lián)合訓(xùn)練方案協(xié)調(diào)兩個(gè)擴(kuò)散過(guò)程,一個(gè)用于直接去噪 UV 紋理貼圖,另一個(gè)用于監(jiān)督渲染圖像。
為了確保所創(chuàng)建的紋理地圖不含有不良特征或照明情況,同時(shí)仍保持多樣性,設(shè)計(jì)了一種提示學(xué)習(xí)策略。團(tuán)隊(duì)利用兩種方法生成高質(zhì)量的漫反射貼圖:(1)Prompt Tuning。與手工制作的特定領(lǐng)域文本提示不同,DreamFace 將兩個(gè)特定領(lǐng)域的連續(xù)文本提示 Cd 和 Cu 與相應(yīng)的文本提示結(jié)合起來(lái),這將在 U-Net 去噪器訓(xùn)練期間進(jìn)行優(yōu)化,以避免不穩(wěn)定和耗時(shí)的手工撰寫提示。(2)非面部區(qū)域遮罩。LDM 去噪過(guò)程將額外地受到非面部區(qū)域遮罩的限制,以確保生成的漫反射貼圖不含有任何不需要的元素。
最后,通過(guò)超分辨率模塊生成 4K 基于物理的紋理,以進(jìn)行高質(zhì)量渲染。
動(dòng)畫能力生成
DreamFace 生成的模型具備動(dòng)畫能力。通過(guò)預(yù)測(cè)獨(dú)特的變形,為生成的靜息(Neutral)模型賦予動(dòng)畫效果,從而產(chǎn)生個(gè)性化的動(dòng)畫。與使用通用 BlendShapes 進(jìn)行表情控制的方法相比,DreamFace 的神經(jīng)面部動(dòng)畫方法能夠提供更細(xì)致的表情細(xì)節(jié),并且能夠精細(xì)地捕捉表演。
應(yīng)用和展望
DreamFace 框架在名人生成、根據(jù)描述生成角色等方面取得了優(yōu)異的成績(jī)。此外,還支持使用提示和草圖進(jìn)行紋理編輯,實(shí)現(xiàn)全局的編輯效果,如老化和化妝。通過(guò)進(jìn)一步結(jié)合掩模或草圖,可以創(chuàng)建各種效果,如紋身、胡須和胎記。
DreamFace 的漸進(jìn)式生成框架為解決復(fù)雜的 3D 生成任務(wù)提供了一種有效的解決方案,有望推動(dòng)更多類似的研究和技術(shù)發(fā)展。此外,基于物理的材質(zhì)擴(kuò)散生成和動(dòng)畫能力生成將推動(dòng) 3D 生成技術(shù)在影視制作、游戲開(kāi)發(fā)和其他相關(guān)行業(yè)的應(yīng)用,讓我們拭目以待它在未來(lái)的發(fā)展和應(yīng)用。