Meta數(shù)字人2代來了!告別VR頭顯,iPhone一掃就行
Meta的逼真數(shù)字人2.0再次進化,現(xiàn)在可以用iPhone生成了,只要拿出手機掃一掃!
早在2019年3月,F(xiàn)acebook就在活動上展示了第一代數(shù)字人形象(Codec Avatar 1.0)。第一代數(shù)字人是利用多重神經(jīng)網(wǎng)絡(luò),用 132 個攝像頭的專用捕獲裝置生成的。
一旦生成,在VR頭顯設(shè)備上的5個攝像頭。每只眼部提供兩個內(nèi)部視角,臉部以下提供三個外部視角。 就像下面這樣。
從那時開始,F(xiàn)acebook一直在不斷改進這些虛擬形象的逼真度,比如只需麥克風(fēng)和眼球追蹤技術(shù),就可以獲得更逼真的形象。最終在2020年8月進化為Codec Avatar 2.0版。 2.0版比1.0版最大的進步在于,攝像頭不再需要掃描跟蹤人臉,而是只要跟蹤眼球的運動就行了。
新的神經(jīng)網(wǎng)絡(luò)將VR頭顯的眼動追蹤數(shù)據(jù)與麥克風(fēng)的音頻饋送相融合,推斷佩戴者可能的面部表情。 將聲音模型和眼動模型數(shù)據(jù)反饋至混合模型,再經(jīng)過融合模型計算處理,由渲染器輸出Avatar形象。
今年5月,團隊更進一步宣布,2.0版的Avatar徹底達成了「完全逼真」的效果。 「我想說的是,未來十年的一個重大挑戰(zhàn)是,我們是否可以實現(xiàn)與面對面互動無法區(qū)分的遠程Avatar互動?!乖擁椖控撠?zé)人之一的 Sheikh 說。
看看上面的對比,a為真人照片,e為最終渲染生成的虛擬人,看起來好像沒有怎么吹牛? 別急,上面這是實驗中的比對結(jié)果,實際上應(yīng)用場景下,目前Meta虛擬人的形象是這樣的。
即使是最右邊「最逼真」的形象,還是卡通形象,這離「完全逼真」怕是還有點遠,不過Meta說的是十年,看看演示中的形象,這個目標實現(xiàn)的希望還是不小的。
而且,虛擬人技術(shù)的進步,也不僅僅體現(xiàn)在逼真度一個方向,大可不必沿著一條路一直走,Meta也在嘗試著其他方向。 比如,摘掉VR頭顯?
以前,生成一個單獨的Codec頭像需要帶一個名為「MUGSY」專門捕捉設(shè)備,上面有171個高分辨率攝像頭,就是上圖這個(密恐退散)。
Meta現(xiàn)在說,不用帶這東西了,有個iPhone就行了! 只要一臺帶正面深度傳感器的智能手機(比如帶FaceID功能的iPhone),直接掃一掃(確切地說,是好幾十掃),就能生成逼真的虛擬人頭像。
首先保持面無表情,掃描一次,然后做出各種不同的表情,最多支持65種不同表情。
Meta稱,用手機完成表情掃描,平均大概需要3-4分鐘。 當(dāng)然這少不了算力的支持,最終生成的逼真虛擬人頭像,在一臺有四個高端GPU的機器上,大概需要6個小時。 當(dāng)然,如果這個技術(shù)用在產(chǎn)品上,這些計算會交給云端GPU,無需用戶自己的算力資源。
那么,為什么之前需要100來個攝像頭才能完成的事,現(xiàn)在只需一臺手機就可以做到了呢? 秘訣就是一種叫做Hypernetwork的通用模型。 這是一種神經(jīng)網(wǎng)絡(luò),可以生成另一個神經(jīng)網(wǎng)絡(luò)的權(quán)值。在上面的例子中,就是生成特定人的Codec Avatar.
研究人員通過掃描255個不同的人臉來訓(xùn)練這個模型,使用的是一種先進的捕捉裝置,很像MUGSY,但是只有90個攝像頭。
雖說別的研究人員已經(jīng)展示過用智能手機掃描生成的人像了,而且Meta表示,生成的結(jié)果是SOTA級別的。
然而,現(xiàn)在的系統(tǒng)還是不能應(yīng)付眼鏡和長頭發(fā)。并且只能到頭,身體的其它部位還不行。
當(dāng)然了,Meta在達到這種保真度之前,還有很長的路要走。 現(xiàn)在Meta的人像都有種卡通風(fēng)格。而那種逼真的感覺隨著時間的推移慢慢降低了。 現(xiàn)在這種形象可能更適合用Quest 2玩兒Horizon Worlds的群體。
然而,Codec Avatar可能最終只會是一個單獨的選項,而不是現(xiàn)在這種卡通風(fēng)格的升級。 Meta的CEO扎克伯格是這么描述未來的:你可能會用一個充滿表現(xiàn)主義的人像玩兒平常的游戲,而用一個更逼真的人像來參加工作會議什么的。
今年4月,負責(zé)Codec Avatar團隊的Yaser Sheikh表示,「現(xiàn)在來預(yù)測Codec Avatar還有多久能投入使用是不太可能的?!?nbsp;不過,他明確表示,他認為項目是有很大進步的。