CVPR'24 Highlight|一個框架搞定人物動作生成,精細(xì)到手部運動
本文作者蔣楠是北京大學(xué)智能學(xué)院二年級博士生,指導(dǎo)教師朱毅鑫教授,與北京通用人工智能研究院黃思遠(yuǎn)博士聯(lián)合開展研究工作。他的研究重點是人-物交互理解和數(shù)字人的動作生成,并于ICCV,CVPR和ECCV等頂會發(fā)表多篇論文。
近年來,人物動作生成的研究取得了顯著的進(jìn)展,在眾多領(lǐng)域,如計算機視覺、計算機圖形學(xué)、機器人技術(shù)以及人機交互等方面獲得廣泛的關(guān)注。然而,現(xiàn)有工作大多只關(guān)注動作本身,以場景和動作類別同時作為約束條件的研究依然處于起步階段。
為了解決這一問題,北京通用人工智能研究院聯(lián)合北京大學(xué)、北京理工大學(xué)的研究員提出了一種使用自回歸條件擴散模型的動作生成框架,實現(xiàn)真實、帶有語義、符合場景且無長度限制的動作生成。此外,文章發(fā)布了大規(guī)模人物 - 場景交互數(shù)據(jù)集 TRUMANS,包含準(zhǔn)確且豐富的針對人物動作以及三維場景的標(biāo)注信息。
- 論文鏈接:https://arxiv.org/pdf/2403.08629
- 項目主頁:https://jnnan.github.io/trumans/
- 代碼、數(shù)據(jù)鏈接:https://github.com/jnnan/trumans_utils
研究概述
圖 1. 人物 - 場景交互動作生成方法和 TRUMANS 數(shù)據(jù)集
與場景物體的交互是人們?nèi)粘;顒拥闹匾M成部分,例如坐在椅子上、拿起瓶子或打開抽屜等動作。如今,仿真人類肢體動作已成為計算機視覺、計算機圖形學(xué)、機器人技術(shù)和人機交互等領(lǐng)域的一項重要任務(wù)。生成人體動作的核心目標(biāo)在于創(chuàng)造自然、逼真且多樣化的動態(tài)模式。深度學(xué)習(xí)技術(shù)的興起使人體動作生成方法得到飛速發(fā)展。人體建模技術(shù)的重大突破也使構(gòu)建龐大的人體動作數(shù)據(jù)庫變得更為便捷?;谶@些進(jìn)展,近年來以數(shù)據(jù)為驅(qū)動的人體動作生成技術(shù)越來越受到研究界的重視。
目前,多數(shù)動作生成的方法以語義作為控制變量,在給定交互物體 [1] 和場景 [2] 的條件下生成動作的研究仍處于起步階段,這主要由于缺乏高質(zhì)量人體動作與場景交互數(shù)據(jù)集?,F(xiàn)有的真實場景數(shù)據(jù)集在人體動作捕捉質(zhì)量方面仍有不足。盡管通過 VICON 等設(shè)備錄制的動作捕捉數(shù)據(jù)集能夠帶來質(zhì)量的提升,但這些數(shù)據(jù)集缺乏多樣化的 3D 場景中人與物體的交互。最近,使用虛擬仿真技術(shù)的合成數(shù)據(jù)集因其低成本和高適應(yīng)性而引起研究者們的關(guān)注。
針對現(xiàn)有方法的不足,本文提出了一種融合場景和語義信息的動作生成框架,由自回歸的擴散模型作為驅(qū)動,能夠在給定動作類別和路徑點的條件下,生成符合場景約束的人物動作。為了獲取場景中的動作數(shù)據(jù),本工作發(fā)布了一個全新的人物 - 場景交互數(shù)據(jù)集 TRUMANS,包含在真實世界捕捉的 15 小時動作數(shù)據(jù),并合成到 3D 虛擬場景中,覆蓋了臥室、餐廳和辦公室等 100 個場景配置。TRUMANS 包含尋路、物體操作、及與剛性和鉸接物體的交互等全面的日常行為。
動作生成框架
圖 2. 本文提出的動作生成框架使用自回歸機制,將場景和動作類別作為條件控制動作的生成。
本研究提出的方法采用自回歸的方式逐段生成動作。段內(nèi)的起始動作源于上一段末尾,后續(xù)動作由擴散模型生成。為了使生成的動作符合場景約束,作者基于空間占有網(wǎng)格提出一個局部場景感知器,將每段動作終點附近環(huán)境的特征編碼,并納入動作生成模型的條件。為了將逐幀的動作標(biāo)簽作為可控條件納入,動作信息編碼器將時間信息整合到動作片段中,使得模型可以在任意時刻接受指令,并生成符合給定動作標(biāo)簽的運動。
本文提出的方法可以支持路徑軌跡約束以及精確的關(guān)節(jié)位置控制。由于本文方法采用了自回歸逐段生成的機制,路徑和關(guān)節(jié)約束可以通過為每段動作生成設(shè)定子目標(biāo)的方式實現(xiàn)。對于行走動作控制,每個子目標(biāo)描述了當(dāng)前段末尾人物骨盆在水平面的預(yù)設(shè)位置。根據(jù)當(dāng)前段的起始和終止位置之間的場景信息,模型生成包含骨盆運動軌跡在內(nèi)的全身動作。例如,當(dāng)子目標(biāo)位于椅子上時,需要讓角色坐下。對于涉及物體抓握的動作,手部的位置控制也使用相同的技術(shù)。例如生成抓取瓶子或推門等動作時,將手部關(guān)節(jié)位置設(shè)為子目標(biāo),并由用戶設(shè)置在物體上的期望位置。模型將關(guān)節(jié)上的噪聲歸零并補全其余部分的人體動作。進(jìn)一步的精細(xì)接觸通過優(yōu)化手與物體的相對位置的方式實現(xiàn)。
本地場景感知器用于獲取本地場景幾何信息,并將其作為運動生成的條件。具體來說,給定一個場景,首先生成一個全局占用網(wǎng)格,每個單元格被分配一個布爾值表示其是否可達(dá),1 表示可達(dá),0 表示不可達(dá)。本地占用網(wǎng)格是以當(dāng)前循環(huán)節(jié)的子目標(biāo)為中心的三維網(wǎng)格,垂直范圍內(nèi)從 0 米到 1.8 米,方向與第一幀中角色骨盆的偏航方向?qū)R。本地占用網(wǎng)格的值通過查詢?nèi)终加镁W(wǎng)格獲取。本文提出使用 Vision Transformer (ViT) 對體素網(wǎng)格進(jìn)行編碼。通過沿 xy 平面劃分本地占用網(wǎng)格,將 z 軸視為特征通道來構(gòu)建 Token,并將這些 Token 輸入到 ViT 模型中。場景經(jīng)過 ViT 編碼后的輸出被用作動作生成模型的條件。
與之前基于單一動作描述生成完整動作序列的方法不同,本文在生成長期動作時逐幀使用動作標(biāo)簽作為條件。在這個模型中,一個特定動作可能會超過一個循環(huán)節(jié),并在多個循環(huán)節(jié)中繼續(xù)。因此模型需要理解動作執(zhí)行的進(jìn)程。為了解決這個問題,本研究引入了一個進(jìn)度標(biāo)識符,用于支持逐幀的動作類別標(biāo)簽。具體實現(xiàn)方式為在原始 multi-hot 動作標(biāo)簽上,對每段完整的交互添加一個 0 到 1 之間隨時間線性增長的數(shù)。這樣的操作使得模型能夠應(yīng)對跨多個循環(huán)節(jié)的動作,增強生成動作序列的語義完整性和連續(xù)性。
數(shù)據(jù)集
數(shù)據(jù)方面,本文發(fā)布了全新的人物 - 場景交互數(shù)據(jù)集 TRUMANS,精確地復(fù)制了 3D 合成場景到物理環(huán)境中,兼具數(shù)據(jù)質(zhì)量與規(guī)模;包括 15 小時的長序列人體動作捕捉,配套 100 個室內(nèi)場景,類別包含臥室,客廳和辦公室等。盡管場景是合成的,作者通過對每個合成場景的細(xì)致還原,確保了人與物體之間的交互保持自然且精確。TRUMANS 動作涵蓋日常人物行為,包括尋路、抓取,以及與剛性和鉸接物體的交互。為了進(jìn)一步提高數(shù)據(jù)的可擴展性,本文應(yīng)用了一種基于現(xiàn)有數(shù)據(jù)進(jìn)行數(shù)據(jù)增強方式,使得數(shù)據(jù)集中的物體可以在一定范圍內(nèi)改變位置和尺寸,并自動更新人物動作以匹配變化。
圖 3. TRUMANS 動作捕捉數(shù)據(jù)集
圖 4. 根據(jù)變化的物體尺寸自動調(diào)整動作,高效擴展數(shù)據(jù)規(guī)模
實驗結(jié)果
下面是本文所提出的動作生成方法的應(yīng)用場景示例。
(1)基于給定的路徑關(guān)鍵點,本文方法能夠生成多樣的場景中行走動作,且人物對場景中的障礙物有自然的反饋。
(2)本文方法適用于手持小物體的抓取和交互動作生成。例如走近并抓取放置于桌子上的水瓶,并做出喝水的動作。完成過程中需要根據(jù)場景布局調(diào)整動作。
(3)基于給定手部運動軌跡,生成滿足該軌跡的全身動作,且不與場景中的物體發(fā)生沖突。
圖 5. 動作生成的多樣性展示
圖 6. 給定手部運動軌跡和場景的全身動作生成
圖 7. 手持小物體的交互動作生成
為了量化本文方法的性能,作者根據(jù)交互物體可動與否構(gòu)建了兩套評價體系。對于靜態(tài)交互物體,本文評測的動作包含坐,躺,以及在場景中的走動。評測指標(biāo)主要針對動作是否與場景發(fā)生穿模,腳部滑動,以及被試對生成質(zhì)量的主觀評價。而對于動態(tài)交互物體,本文關(guān)注抓握的過程以及后續(xù)的交互動作。評價指標(biāo)量化了動作是否符合給定的類別,動作的多樣性,穿模程度,以及被試主觀評價。此外,研究還對比了使用 TRUMANS 以及現(xiàn)有的 PROX 和 GRAB 數(shù)據(jù)集訓(xùn)練得到的動作生成質(zhì)量。實驗結(jié)果證實了本文所提方法的優(yōu)越性,以及 TRUMANS 數(shù)據(jù)對人物 - 場景交互生成任務(wù)帶來的全面質(zhì)量提升。
表 1-2. 動態(tài)與靜態(tài)物體交互動作生成結(jié)果在不同方法和數(shù)據(jù)集訓(xùn)練結(jié)果的比較
