ACMMM 2025 | 北大團(tuán)隊提出 InteractMove:3D場景中人與可移動物體交互動作生成新框架
該論文的第一作者和通訊作者均來自北京大學(xué)王選計算機(jī)研究所,第一作者為博士生蔡鑫豪,通訊作者為博士生導(dǎo)師劉洋。團(tuán)隊近年來在 TPAMI、IJCV、CVPR、ICML 等頂會上有多項代表性成果發(fā)表,多次榮獲國內(nèi)外多模態(tài)理解與生成競賽冠軍,和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。
本文主要介紹來自該團(tuán)隊的最新論文 InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects。
該研究首次提出了含可移動物體的 3D 場景中,基于文本的人 - 物交互生成任務(wù),并構(gòu)建了大規(guī)模數(shù)據(jù)集與創(chuàng)新方法框架,在多個評測指標(biāo)上均取得了領(lǐng)先效果。現(xiàn)有的人 - 場景交互數(shù)據(jù)集存在交互類別不足的問題,并且通常只考慮與靜態(tài)物體的交互。隨著可移動物體的引入,任務(wù)變得更具挑戰(zhàn)性:模型不僅需要準(zhǔn)確識別目標(biāo)交互物體,還要學(xué)會與不同類別和尺寸的物體交互,并避免物體與場景之間的碰撞。
為應(yīng)對這些挑戰(zhàn),該研究提出了一個全新的方法框架:首先利用三維視覺定位模型確定目標(biāo)交互物體;然后提出手 - 物聯(lián)合可達(dá)圖學(xué)習(xí),用于預(yù)測不同手部關(guān)節(jié)與物體部位的接觸區(qū)域,從而實現(xiàn)多樣化物體的精確抓取與操作;最后,通過局部場景建模與碰撞約束優(yōu)化交互,確保動作物理合理,避免物體與場景之間的穿模。
大量實驗表明,該方法在生成物理合理且符合文本描述的交互方面優(yōu)于現(xiàn)有方法。
目前該研究已被 ACMMM 2025 正式接收,相關(guān)代碼與模型已全部開源。

- 論文標(biāo)題:InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects
- 論文鏈接:https://arxiv.org/abs/2509.23612
- 代碼鏈接:https://github.com/Cxhcmhhh/InteractMove
- 項目主頁:https://cxhcmhhh.github.io/InteractMoveProject/
打破現(xiàn)有瓶頸:交互單一與物體靜態(tài)的局限
在三維場景中生成人體動作是一個快速發(fā)展的研究方向,在虛擬現(xiàn)實(VR)、增強(qiáng)現(xiàn)實(AR)、電子游戲等應(yīng)用中具有重要意義。近年來,基于自然語言描述的人體動作生成引起了越來越多的關(guān)注。然而,大多數(shù)已有工作要么關(guān)注語言驅(qū)動的 “人與孤立物體” 的交互,忽略了周圍場景的影響;要么研究 “人與場景” 的交互,但沒有顯式考慮可移動物體。這導(dǎo)致生成的交互在表現(xiàn)力和實際應(yīng)用性上受到限制,因為現(xiàn)實世界中的物體往往嵌入在復(fù)雜環(huán)境中,并具有多樣的可達(dá)情況。
為彌補(bǔ)這一空白,我們提出了一項新任務(wù):在三維場景中基于文本驅(qū)動的可移動物體交互生成。然而,在現(xiàn)有的人 - 場景交互數(shù)據(jù)集中,交互類別有限,可交互的物體往往是固定、不可移動的,如床和沙發(fā)。此外,從零開始人工采集一個大規(guī)模、高質(zhì)量的三維數(shù)據(jù)集不僅困難,而且成本高昂。
InteractMove 數(shù)據(jù)集:可移動物體的語言驅(qū)動交互
為解決這一難題,研究團(tuán)隊提出了 InteractMove 數(shù)據(jù)集。該數(shù)據(jù)集通過自動對齊現(xiàn)有交互動作與三維掃描場景,不僅避免了從零采集的高昂成本,還具備以下三大亮點:
1)多目標(biāo)與干擾:場景中包含多個可交互物體及同類干擾項,模型必須基于語言理解與空間推理才能選中正確物體;
2)多樣交互類型:覆蓋 71 類可移動物體和 21 種交互方式,既包括 “一手拿起蘋果”,也包括 “雙手抬起桌子” 等復(fù)雜操作;
3)物理合理性:動作與物體軌跡經(jīng)過嚴(yán)格篩選,避免 “穿?!?等不符合物理規(guī)律的現(xiàn)象。
為了實現(xiàn)這三點,研究團(tuán)隊將數(shù)據(jù)合成劃分為三個階段:
1)可移動目標(biāo)物體放置:針對每種待合成的物體,在場景中搜索適當(dāng)?shù)谋砻嬗糜诜胖迷撐矬w。例如,將 “蘋果” 放置在桌子表面,將 “包” 放在沙發(fā)表面或地面等。
2)物理一致的動作對齊:為了保證交互動作在合成入場景后,能夠在保持物理合理性的前提下符合場景限制,該方法首先強(qiáng)制對齊手部關(guān)節(jié)高度與放置后的物體高度一致,再利用擴(kuò)散模型的 “重繪” 功能,基于新的手部位置對剩余部分人體位姿進(jìn)行修正。
3)基于物理規(guī)律的場景感知篩選:為了保證人體和物體的移動軌跡符合場景限制,本方法基于以下設(shè)定進(jìn)行過濾:a) 要求人與物體始終在場景范圍內(nèi);b) 要求足部與地面保持合理接觸;c) 要求物體與人體移動軌跡不與場景發(fā)生碰撞。

圖 1:數(shù)據(jù)集的部分可視化結(jié)果。包含對多樣物體的不同交互;場景中存在的同類干擾項;復(fù)雜環(huán)境下的物理合理交互。
創(chuàng)新方法:三階段的交互生成框架

圖 2:完整的方法概覽。
在方法層面,團(tuán)隊提出的全新框架由三大核心模塊組成:
第一步,3D 視覺定位。
模型首先利用先進(jìn)的三維視覺定位技術(shù),理解文本描述,并在復(fù)雜場景中精準(zhǔn)定位目標(biāo)物體。例如,當(dāng)輸入為 “拿起床邊桌子上的蘋果” 時,系統(tǒng)能在多個同類物體中識別出正確目標(biāo)。
第二步,手 - 物可達(dá)圖學(xué)習(xí)。
為了處理物體大小、形狀差異帶來的交互多樣性,研究者設(shè)計了 “手 - 物可達(dá)圖” 模塊,對手部關(guān)節(jié)與物體表面之間的細(xì)粒度接觸關(guān)系進(jìn)行建模。首先將物體表面與手部關(guān)節(jié)關(guān)鍵點的成對距離歸一化后定義為可達(dá)圖,顯式地建模交互中的時空關(guān)鍵信息。這使得模型能夠生成符合語義的動作策略:拿帶把手的杯子時會抓住把手,而沒有把手的杯子則會握住杯身;輕物體可單手操作,而重物體則需雙手配合。
第三步,碰撞感知動作生成。
交互動作不僅要符合語義,還需遵守物理規(guī)律。為此,研究團(tuán)隊提出了基于局部場景建模的動作生成模塊,將目標(biāo)物體周圍環(huán)境體素化為占用網(wǎng)格,并結(jié)合碰撞感知損失函數(shù),在生成過程中實時約束動作與物體的相對軌跡,避免人、物體與場景之間的交叉和穿模,保證動作自然合理。
這種 “定位 — 可達(dá)圖 — 碰撞感知” 的三步走設(shè)計,使模型不僅能正確理解文本,還能生成符合物理規(guī)律、語義精準(zhǔn)且多樣化的人 - 物交互。
實驗結(jié)果:全面超越現(xiàn)有方法

表 1:InteractMove 的結(jié)果。粗體表示最優(yōu)表現(xiàn)。
在新提出的 InteractMove 數(shù)據(jù)集上,團(tuán)隊的方法在交互準(zhǔn)確性、物理合理性、多樣性以及碰撞避免等所有指標(biāo)上均取得了最佳成績。其中,多樣性相較最優(yōu)結(jié)果提升了 18%,物理合理性提升了 14%。在跨數(shù)據(jù)集的實驗中(如 TRUMANS),該方法依然保持領(lǐng)先,證明了其良好的泛化能力。

表 2:對方法各個組件的消融實驗。

表 3:對所使用的各個物理損失的消融實驗。
該方法還進(jìn)行了完備的消融實驗,證明了所設(shè)計使用的各個模塊的有效性和必要性。
定位模塊:去掉 3D 視覺定位后,模型無法準(zhǔn)確找到交互物體,目標(biāo)距離指標(biāo)顯著下降。
手 - 物可達(dá)圖模塊:去掉該模塊后,動作缺乏精細(xì)的手部與物體接觸關(guān)系,物理合理性明顯下降。局部場景建模模塊:若不建模局部環(huán)境,動作容易與場景發(fā)生穿模,碰撞率大幅上升。碰撞感知損失:接觸損失能提升手部與物體的貼合度,而穿模損失能有效減少穿透現(xiàn)象;推理階段引入的額外碰撞約束則進(jìn)一步提高了無碰撞率。
可視化與定性結(jié)果分析:更貼近真實世界的交互體驗
除了量化評估,研究團(tuán)隊還對方法的可視化效果進(jìn)行了展示與分析。結(jié)果表明,InteractMove 能夠生成符合語義、自然連貫且物理合理的人 - 物交互動作。例如:

圖 3:使用提示 “一個人端沙發(fā)旁桌上的碗來喝” 生成的結(jié)果。
在指令 “一個人端沙發(fā)旁桌上的碗來喝” 下,模型生成的動作呈現(xiàn)出自然的低頭、伸手、抓取過程,并能夠協(xié)調(diào)雙手動作,避免與周圍場景發(fā)生穿?;虿缓侠淼慕换ィ傻膭幼鞑粌H符合語義,還在手部接觸點和物體運(yùn)動軌跡上保持了高一致性。
InteractMove 在可視化效果中表現(xiàn)優(yōu)秀:交互自然:動作銜接流暢,手 - 物接觸符合人類常識,不會出現(xiàn)僵硬或不連貫的姿態(tài);物理合理:物體運(yùn)動軌跡與人體動作相協(xié)調(diào),幾乎無穿透或懸空等不合理現(xiàn)象。
定性結(jié)果進(jìn)一步證明,InteractMove 不僅在數(shù)值指標(biāo)上領(lǐng)先,而且在視覺效果上也更加貼近真實世界的交互體驗。
總結(jié):跨越靜態(tài)物體限制的人 - 物交互新框架
本次在 ACM Multimedia 2025 發(fā)布的 InteractMove 工作,不僅首次提出了文本驅(qū)動的可移動物體交互生成新任務(wù),還構(gòu)建了目前規(guī)模最大的高質(zhì)量數(shù)據(jù)集,并提出了融合目標(biāo)定位 — 手物可達(dá)圖 — 碰撞感知生成 的創(chuàng)新方法框架。實驗結(jié)果表明,該方法在多個核心指標(biāo)上全面超越現(xiàn)有方案,具備強(qiáng)大的跨場景能力。
InteractMove 的提出為虛擬現(xiàn)實、增強(qiáng)現(xiàn)實、數(shù)字人和機(jī)器人等應(yīng)用場景奠定了堅實的基礎(chǔ),讓 AI 在虛擬世界中實現(xiàn)更自然、更智能的人 - 物交互成為可能。未來,他們還將探索更大規(guī)模、更復(fù)雜場景下的人機(jī)協(xié)同和通用交互智能體的構(gòu)建。




































