創(chuàng)建逼真的全身3D人像只需20分鐘,平價(jià)的手機(jī)端方案
在AR/VR社交、娛樂等應(yīng)用中,你常常需要先創(chuàng)建個(gè)性化的3D形象來代表自己,那么如果未來AR/VR發(fā)展到頭號(hào)玩家電影中那樣沉浸的樣子,那么創(chuàng)建一個(gè)外觀接近人類的3D虛擬形象則越來越關(guān)鍵。就目前來講,并沒有一個(gè)通用的3D人像掃描方案,大多數(shù)AR/VR場(chǎng)景可能需要你去容積捕捉工作室去創(chuàng)建自己的3D形象,成本較高因而難以普及。

為了解決這一問題,德國比勒費(fèi)爾德大學(xué)、維爾茨堡大學(xué)和多特蒙德大學(xué)的科研人員研發(fā)了一種利用中端智能手機(jī)就能生成3D虛擬形象的技術(shù),其特點(diǎn)是只需要約20分鐘即可完成掃描,可捕捉到鞋的細(xì)節(jié)、服裝的紋理、亮度、陰影。掃描出的虛擬形象支持骨骼綁定,面部也可以設(shè)置表情變化。
科研人員表示:AR/VR娛樂、社交、互動(dòng)式場(chǎng)景對(duì)于虛擬人像的逼真度要求越來越高,包括外在細(xì)節(jié)、動(dòng)作、行為,通常只能通過幾十顆攝像頭完成的人像捕捉任務(wù),現(xiàn)在通過基于手機(jī)的低成本方案即可完成,效果也足夠優(yōu)秀。
據(jù)青亭網(wǎng)了解,該方案由兩部分組成,分別拍攝身體和頭部,拍攝一個(gè)人只需要12分鐘左右。通常,用手機(jī)進(jìn)行3D建模的時(shí)候,會(huì)一次性對(duì)同一物體進(jìn)行完整掃描和捕捉,德國科研人員的方案的不同之處在于,將頭部和身體分為兩個(gè)部分去拍攝,可捕捉到更多細(xì)節(jié)。

在捕捉頭部的過程中,拍攝者只需要用手機(jī)圍繞被拍攝者的頭部轉(zhuǎn)一圈拍攝,在捕捉身體的過程中,首先對(duì)包括頭部在內(nèi)的上半身轉(zhuǎn)一圈拍攝,接著對(duì)下半身再拍攝一圈。
經(jīng)過對(duì)比實(shí)驗(yàn)顯示,基于智能手機(jī)的方案3D捕捉接近48顆攝像頭容積捕捉的效果。此外,效果也比目前低成本的單目掃描方案更好。
細(xì)節(jié)方面,這組科研人員利用Google Pixel 3的4K分辨率/30Hz攝影模式來進(jìn)行拍攝,該機(jī)型定價(jià)400美元,據(jù)稱市面上同樣支持4K拍攝的手機(jī)也能得到相似的效果。整個(gè)拍攝過程持續(xù)110秒,其中全身視頻捕捉需要80秒,頭部捕捉30秒。
在用手機(jī)拍攝后,算法可從拍攝的視頻中捕捉135個(gè)關(guān)鍵節(jié)點(diǎn),包括25個(gè)全身節(jié)點(diǎn)(用來合成2D骨骼)、42個(gè)雙手勢(shì)節(jié)點(diǎn)、68個(gè)面部節(jié)點(diǎn)。通過多視角3D重建,以及從每一幀圖像實(shí)時(shí)分析光流、預(yù)測(cè)實(shí)時(shí)生成兩組密集的點(diǎn)云數(shù)據(jù)。通過攝影測(cè)量軟件Agisoft Metashape來處理并生成點(diǎn)云數(shù)據(jù),然后結(jié)合bounding box,來優(yōu)化數(shù)據(jù)和算法。
由于通過手機(jī)攝像頭捕捉到的虛擬人像網(wǎng)格存在噪點(diǎn)、異常值、數(shù)據(jù)缺失等問題,于是科研人員將捕捉到的人體節(jié)點(diǎn)與預(yù)設(shè)的模板進(jìn)行匹配,包括對(duì)其位置、方向、比例等參數(shù),模板網(wǎng)格對(duì)識(shí)別到的網(wǎng)格進(jìn)行調(diào)整,填補(bǔ)缺失的數(shù)據(jù),以此來完成3D幾何網(wǎng)格的重建。

接著,科研人員對(duì)重建的3D網(wǎng)格進(jìn)行紋理渲染,通過圖像分割和拼接方式來優(yōu)化紋理渲染的過程。據(jù)悉,圖像分割優(yōu)化減少紋理的數(shù)量,用大塊紋理去替代細(xì)碎的紋理。效果比Agisoft Metashape直接生成的紋理更清晰,細(xì)節(jié)更多。
整個(gè)過程耗時(shí)20分鐘,其中4分鐘進(jìn)行3D捕捉,7分鐘處理和生成點(diǎn)云數(shù)據(jù),2分鐘節(jié)點(diǎn)識(shí)別與模板匹配,7分鐘生成紋理。通過Faceware Studio(無標(biāo)記3D面部動(dòng)捕方案)和Unity Live插件,可以實(shí)時(shí)控制表情。也就是說,掃描出的3D人像可直接通過實(shí)時(shí)姿態(tài)和表情捕捉軟件來控制,應(yīng)用在AR/VR社交場(chǎng)景中足夠方便。
在對(duì)比實(shí)驗(yàn)中,科研人員對(duì)33人進(jìn)行掃描,結(jié)果發(fā)現(xiàn)發(fā)現(xiàn)基于智能手機(jī)的方案3D捕捉接近48顆攝像頭容積捕捉的效。不過深色服裝難以被掃描,被掃描的人需要保持靜止,任何明顯的動(dòng)作可能會(huì)影響掃描數(shù)據(jù)準(zhǔn)確性,而且掃描眼鏡、頭發(fā)、飾品等物品也具有挑戰(zhàn)。
總之,在這個(gè)實(shí)驗(yàn)中科研人員發(fā)現(xiàn),對(duì)頭部的二次掃描可大幅提升面部建模的效果和細(xì)節(jié),未來,還可以對(duì)手臂等其他部位單獨(dú)二次掃描,以提升掃描效果和準(zhǔn)確性。
同時(shí),3D重建的虛擬人輪廓需要匹配細(xì)致的紋理,以及適合的骨骼。市面上的方案成本較高,而本文中的這個(gè)3D掃描方案足夠低成本,使用方面,有望為虛擬形象和交互式媒體帶來更多應(yīng)用。

































