3D生成補上物理短板!首個系統(tǒng)性標(biāo)注物理3D數(shù)據(jù)集上線,還有一個端到端框架
3D生成又補齊了一塊重要拼圖——物理屬性!
南洋理工大學(xué)-商湯聯(lián)合研究中心S-Lab,及上海人工智能實驗室合作提出了PhysXNet,號稱首個系統(tǒng)性標(biāo)注的物理基礎(chǔ)3D數(shù)據(jù)集。

團隊表示,3D生成正從純虛擬走向物理真實,但現(xiàn)有的3D生成方法主要側(cè)重于幾何結(jié)構(gòu)與紋理信息,忽略了基于物理屬性的建模。
為了填補當(dāng)前包含物理屬性3D數(shù)據(jù)集的關(guān)鍵空白,PhysXNet應(yīng)運而生。
該數(shù)據(jù)集包含超過26K帶有豐富注釋的3D物體,涵蓋五個核心維度:物理尺度、材料、可供性、運動學(xué)信息、以及文本描述信息。
此外,團隊還提出了PhysXGen,一個面向真實物理世界的3D生成框架,以實現(xiàn)從圖像到真實3D資產(chǎn)的生成。

下面具體來看。
當(dāng)前研究大多忽視了物理屬性
近年來,隨著3D資產(chǎn)在游戲、機器人技術(shù)和具身模擬等領(lǐng)域的廣泛應(yīng)用,其多樣性與高質(zhì)量生成受到了越來越多的關(guān)注。
大量研究工作集中在外觀與幾何結(jié)構(gòu)上:包括高質(zhì)量的3D數(shù)據(jù)集(Objaverse、ShapeNet)、高效的3D表示方法以及生成模型等方面。
然而,這些研究大多僅關(guān)注結(jié)構(gòu)特征,忽視了現(xiàn)實世界物體所固有的物理屬性。
鑒于3D空間中對物理建模、理解與推理的需求不斷增長,團隊認為,從上游的數(shù)據(jù)標(biāo)注流程到下游的生成建模,構(gòu)建一個完整的基于物理的3D對象建模體系變得尤為重要。
考慮到除了幾何和外觀等純粹的結(jié)構(gòu)屬性之外,現(xiàn)實世界中的物體還內(nèi)在地具有豐富的物理和語義特性,包括:物理尺度、材料 (密度、楊氏模量、泊松比)、可供性、運動學(xué)(運動模式、運動方向、運動范圍),以及文本描述(整體、功能、可供性信息)。
通過將這些基礎(chǔ)屬性與經(jīng)典物理原理相結(jié)合,便可以推導(dǎo)出關(guān)鍵的動態(tài)指標(biāo),如重力效應(yīng)、摩擦力、接觸區(qū)域、運動軌跡與交互關(guān)系等。
基于以上分析,團隊提出了首個全面的物理屬性3D數(shù)據(jù)集PhysXNet ,包含超過26K帶有豐富注釋的3D物體。
除了在物體層級上的注釋外,還對每個零部件進行了物理屬性的標(biāo)注。包括為所有部件提供了可供性排名以及運動學(xué)約束的詳細參數(shù),包括運動范圍、運動方向、子部件和父部件等信息。
除此之外,團隊還引入了擴展版本PhysXNet-XL,其中包含超過600萬個通過程序化生成并帶有物理注釋的3D對象。
進一步,團隊提出了PhysXGen ——一個用于物理3D生成的前饋模型。
鑒于物理屬性在空間上與幾何結(jié)構(gòu)和外觀密切相關(guān),團隊利用預(yù)訓(xùn)練的3D先驗,以生成具備物理屬性的3D資產(chǎn),從而實現(xiàn)高效訓(xùn)練并具備良好的泛化能力。

數(shù)據(jù)介紹
由于物理屬性難以測量且標(biāo)注極其耗時,導(dǎo)致現(xiàn)存相關(guān)數(shù)據(jù)集數(shù)據(jù)量難以擴展。
為解決此挑戰(zhàn),團隊通過設(shè)計一個人在回路的標(biāo)注流程以實現(xiàn)高效的物理信息采集標(biāo)注。
通過與相關(guān)數(shù)據(jù)對比,團隊提出的數(shù)據(jù)集是首個包含多種豐富物理屬性的3D數(shù)據(jù)集,并且包括物體整體信息及各部分的物理信息。

標(biāo)注流程
正如前文所述,在確定標(biāo)注信息后,團隊提出了人在回路的標(biāo)注框架,分為兩個明確的操作階段:
- 初步數(shù)據(jù)采集
 - 運動學(xué)參數(shù)確定
 
具體而言,團隊利用GPT-4o獲取基礎(chǔ)信息,為了保證原始數(shù)據(jù)質(zhì)量,將由人工審核員對視覺-語言模型(VLM)的輸出結(jié)果進行檢查。
而第二階段細分為四個子任務(wù):(2.a)接觸區(qū)域計算、(2.b)平面擬合、(2.c)候選項生成與篩選、(2.d)運動學(xué)參數(shù)確定。

數(shù)據(jù)分布
PhysXNet數(shù)據(jù)集包含超過26K個帶物理屬性的3D對象,圖中展示了對象中部件數(shù)量的長尾分布,其中每個對象平均包含約5個組成部件。
此外,圖(b)記錄了對象的長、寬、高分布情況。
由于PhysXNet涵蓋了從相對小型的室內(nèi)物體到大型室外結(jié)構(gòu),物理尺寸在對象之間表現(xiàn)出顯著差異。
關(guān)于PhysXNet中的運動學(xué)類型和材料,團隊展示了詳細的比例組成。
最后,團隊還統(tǒng)計了PhysXNet-XL中程序化生成的600萬個3D數(shù)據(jù)的類別,涵蓋:a)類內(nèi)組合及b)跨類別組合。
生成方法介紹
為實現(xiàn)高效的包含物理屬性的3D資產(chǎn)生成,團隊基于預(yù)訓(xùn)練的3D表示空間,提出了PhysXGen,一個新穎且簡潔的框架,將物理屬性與幾何結(jié)構(gòu)和外觀相結(jié)合。

其方法通過在生成過程中同步融合基礎(chǔ)物理屬性,同時通過有針對性的微調(diào)優(yōu)化結(jié)構(gòu)分支,達到這一雙重目標(biāo)。
這種聯(lián)合優(yōu)化使得生成的3D資產(chǎn)在保持出色幾何和外觀逼真度的同時,實現(xiàn)了物理上的自洽性。
實驗
定性及定量分析
如表所示,團隊從兩個維度對模型進行了定量評估:1)幾何結(jié)構(gòu)與外觀質(zhì)量評估;2)物理屬性評估。
需要說明的是,TRELLIS+PhysPre是Baseline,其采用獨立結(jié)構(gòu)來預(yù)測物理屬性。
相比于這種分離式的物理屬性預(yù)測器,PhysXGen利用了物理屬性與預(yù)定義3D結(jié)構(gòu)空間之間的相關(guān)性,不僅在物理屬性生成方面取得了顯著提升,同時也增強了外觀質(zhì)量如圖所示。


與現(xiàn)有方法對比
為了評估PhysXGen在生成具物理基礎(chǔ)的3D資產(chǎn)方面的能力,團隊與一個基于GPT的基線流程進行了全面的定性與定量比較。
該基線流程由Trellis、PartField和GPT-4o組成。
在該評估框架下,給定一張圖像提示,Trellis首先生成具備完整幾何結(jié)構(gòu)和外觀紋理的3D網(wǎng)格。
隨后,這些資產(chǎn)經(jīng)由PartField進行細粒度的部件分割。
最后,GPT模型對每個部件賦予材料參數(shù)和動態(tài)屬性等物理屬性。
在四個評估維度上:物理尺度、材料、運動學(xué)和可供性,PhysXGen分別取得了24%、64%、28%和72%的相對性能提升,表現(xiàn)出顯著優(yōu)勢。

一種端到端物理基礎(chǔ)3D資產(chǎn)生成范式
本文旨在填補現(xiàn)有3D資產(chǎn)與真實世界之間的差距,提出了一種端到端的物理基礎(chǔ)3D資產(chǎn)生成范式,包括首個具物理屬性注釋的3D數(shù)據(jù)集(PhysXNet、PhysXNet-XL)以及新穎的物理屬性生成器(PhysXGen)。
具體而言,團隊構(gòu)建了一個人機協(xié)同的數(shù)據(jù)標(biāo)注流程,可將現(xiàn)有3D資源庫轉(zhuǎn)化為具備物理信息的數(shù)據(jù)集。
與此同時,其提出的新型端到端生成框架PhysXGen,能夠?qū)⑽锢硐闰炄谌胍越Y(jié)構(gòu)為中心的架構(gòu)中,從而實現(xiàn)穩(wěn)健的3D生成效果。
通過在PhysXNet上的實驗,團隊揭示了物理3D生成任務(wù)中的關(guān)鍵挑戰(zhàn)與未來方向。
完整視頻介紹如下:
團隊表示,該數(shù)據(jù)集將吸引來自嵌入式人工智能、機器人學(xué)以及3D視覺等多個研究領(lǐng)域的廣泛關(guān)注。
本論文第一作者曹子昂,南洋理工大學(xué)博士二年級,研究方向是計算機視覺、3D AIGC和具身智能。主要合作者為來自南洋理工大學(xué)的陳昭熹和來自上海人工智能實驗室的潘亮,通訊作者為南洋理工大學(xué)劉子緯教授。
論文鏈接:
https://arxiv.org/abs/2507.12465
項目主頁:
hthttps://physx-3d.github.io/
GitHub代碼:
https://github.com/ziangcao0312/PhysX-3D















 
 
 















 
 
 
 