一個攝像頭就能讓虛擬人唱跳rap,抖音即可玩
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。
全身動作捕捉,現(xiàn)在無需昂貴的動捕設備,只要一個攝像頭就能輕松實現(xiàn)。
并且就在抖音上,人人都能上手體驗。
上面這段虛擬數字形象跳舞的視頻采用了抖音直播伴侶功能背后的全身驅動技術,主播僅需要單個普通攝像頭并開始跳舞,就可以實時、精準地驅動虛擬形象。
相較于以往的輕量化動作捕捉,這項來自字節(jié)跳動智能創(chuàng)作團隊的全身驅動技術具有高真實性,可以體現(xiàn)空間的距離感和地面感。
并且具有更高的魯棒性,能夠在復雜的環(huán)境、穿戴等場景下實現(xiàn)良好的結果。
同時,還具備更高的還原性,人物的姿態(tài)、手勢和動作的姿態(tài)、速度都能更加準確地還原。
值得一提的是,普通的慣性動捕手套在一定時間后就會產生漂移損耗,無法支持長時間的直播,而全身驅動技術則可以有效規(guī)避這一問題,能夠更好地適應直播場景。
據介紹,全身驅動技術的技術方案包含了數據、估計、修正以及驅動四個步驟,具體的實現(xiàn)方案如下:

△全身驅動技術方案全流程
構建高精度3D數據供應鏈
技術團隊使用了混合3D數據構建方式,其來源包括自建多目工裝動捕系統(tǒng)、2D數據、偽標簽3D數據,基于此,團隊構建了包含800萬以上高精3D標簽的數據集。
為了獲取接近業(yè)務場景的高精度3D人體數據,團隊搭建了一套完整的基于多目攝像頭的無標記物視覺動捕系統(tǒng),并基于自研的人體重建算法,實現(xiàn)了對人體的位置,姿態(tài)和體型的準確估計。
盡管在多數情況下,自動化的重建算法能夠給出精度滿足要求的重建結果,但對于一些遮擋嚴重,運動過快導致模糊的樣本,仍需要通過人工篩選修正的方式進行數據清洗。通過搭建3D數據篩選標注系統(tǒng),可以實現(xiàn)高效的半自動化數據生產,并通過將人工審核后的樣本用于相關模型的訓練,持續(xù)優(yōu)化數據產線相關模型的性能,最終實現(xiàn)數據質量的自舉式提升。

△高精度3D數據構建流程
高還原性與高魯棒性的全身估計模型
據介紹,通過上述步驟,團隊積累了樣本量高達近千萬的大規(guī)模數據集。
在此基礎上,團隊訓練了一個基礎特征表示底座進行3D-Aware的共享特征抽取,基于共享特征構建了姿態(tài)估計分支、相機估計分支、Root點估計分支。
其中,姿態(tài)估計分支負責為表演者的關節(jié)點進行局部3D坐標估計,相機估計分支以及Root點估計分支為當前表演者的全局位置進行估計。
基于多分枝的估計模塊結合積累的大量自有數據,人體估計模型可以在較少的計算量下取得高還原性與高魯棒性的結果。
另外,針對全身場景下的手部姿態(tài)估計,團隊統(tǒng)計了手腕關節(jié)旋轉的先驗分布輔助模型訓練,保證模型輸出符合人體結構約束;設計了手腕關節(jié)的時序模型,保證手腕姿態(tài)的穩(wěn)定性;對關鍵點預測進行概率建模從而預測模型輸出的置信度進行難樣本過濾;將以上優(yōu)化點與大量的自有手部數據結合,智能創(chuàng)作團隊的手部姿態(tài)算法模型在復雜遮擋模糊場景下結果仍可有不錯的表現(xiàn)。
以下為人體在復雜遮擋服飾場景下的優(yōu)化對比。左邊為原始預測結果,右邊為異常遮擋優(yōu)化結果。

再來看看手腕在旋轉動作下的優(yōu)化對比。左邊為原始預測結果,右邊為手部姿態(tài)還原性&魯棒性優(yōu)化結果。
時空關聯(lián)建模強化魯棒性
在身體估計模塊獲取了基本的3D關節(jié)點信息后,技術團隊訓練了時序完整性模塊對原始結果進行修正。
在時序完整性模塊中,引入關節(jié)點在時序上的關聯(lián)關系以及同時刻關節(jié)點的空間關聯(lián)關系,同時引入了關節(jié)點位置感知模塊,使得具體關節(jié)點位置可以被顯式編碼為高維向量加入訓練。
在時序建模的基礎上,團隊同時設計了異常檢測模塊對分布外的姿態(tài)結果進行過濾修正。時空關聯(lián)建模的設計保證了人體估計算法可以進一步獲得高魯棒性的驅動信號。
人體在復雜遮擋服飾場景下的優(yōu)化對比(左為原始預測結果,右為時空關聯(lián)建模修正后結果):
自研算法,實現(xiàn)高真實感驅動
在通過一些算法模型計算后,團隊獲得了精準且可靠的人體關節(jié)點輸出,但這距離驅動一個活靈活現(xiàn)的虛擬人仍然還有最后幾個步驟,需要通過IK算法獲取特定虛擬角色的旋轉角以對其完成驅動。
對此,團隊自研了EasyIK算法,其可以對大臂小臂、大腿小腿等容易出現(xiàn)自旋錯誤的關節(jié)提供合理姿態(tài)。
同時,為了保證驅動虛擬角色的真實感,團隊研發(fā)了接地算法,對驅動虛擬角色的地面進行估計,并為單腳以及雙腳姿態(tài)在地面上自然姿態(tài)以及移動的距離進行估計。
EasyIK以及接地算法的引入使得虛擬人驅動可以獲得更好的真實感。
足部穩(wěn)定性優(yōu)化對比(左為原始預測結果,右為高真實感驅動效果):

隨著虛擬數字人技術的發(fā)展和虛擬偶像的興起,虛擬數字人在游戲、虛擬社交,在線健身、在線教育、虛擬主播等領域都將有更加廣闊的應用空間。更加實時、輕量化、低成本的動作捕捉技術也將成為行業(yè)的趨勢。
全身驅動技術方案能大大降低了真人驅動虛擬數字人的應用門檻,助力打造更加趣味、沉浸式的交互體驗。
關于字節(jié)跳動智能創(chuàng)作團隊:
智能創(chuàng)作團隊通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、頭條等公司內眾多產品線;同時通過火山引擎為外部ToB合作伙伴提供業(yè)界前沿的智能創(chuàng)作能力與行業(yè)解決方案。
體驗抖音直播伴侶,可訪問:??https://streamingtool.douyin.com/

































