PartCrafter:首個結(jié)構(gòu)化3D多部件生成模型

本篇文章是北京大學(xué)、字節(jié)跳動和卡耐基梅隆大學(xué)的聯(lián)合工作。
我們提出了 PartCrafter,一種新穎的結(jié)構(gòu)化 3D 生成模型,為 3D 對象創(chuàng)建引入了一種變革性的方法。PartCrafter 不僅能生成可分解的 3D 網(wǎng)格,還支持靈活的部件編輯,為創(chuàng)作者提供了更高的自由度。它打破了傳統(tǒng)的整體式 3D 模型生成規(guī)范,不僅徹底改變了 3D 模型的生成方式,還顯著增強了 3D AIGC 的基礎(chǔ)模型能力和可解釋性。

Partcrafter 是一個結(jié)構(gòu)化的3D生成模型,無需分割步驟,可以秒級生成帶多個部件的 3D Mesh 表示
第一性原理
1. 為什么 part-level 的生成如此重要?從簡單的生成到實際可用:
- 文本的“逐token”生成

- 圖像的“分層”生成

- 3D的“分部件”生成

2. 潛在應(yīng)用:3D資產(chǎn)二次創(chuàng)作(游戲資產(chǎn)開發(fā))、具身智能(關(guān)節(jié)點)、3D打?。ㄅ菖莠斕兀┑?/span>
- 綁定關(guān)節(jié)點,并生成 URDF 文件
- 3D資產(chǎn)二次創(chuàng)作

社交媒體上,開發(fā)者對 PartCrafter 的創(chuàng)新性反響熱烈,認為其“簡單而有效”的設(shè)計理念重新定義了 3D 生成的范式。Github 已累計達到 2k star,在 3D 生成領(lǐng)域的專家和學(xué)者們紛紛轉(zhuǎn)發(fā)與評論,相關(guān)推特累計達到百萬次瀏覽。PartCrafter 的訓(xùn)練數(shù)據(jù)、代碼和模型已經(jīng)完全開源。

- 論文標題:
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers - 項目主頁:
https://wgsxm.github.io/projects/partcrafter/ - 論文鏈接:
https://arxiv.org/abs/2506.05573 - 代碼鏈接:
https://github.com/wgsxm/PartCrafter
技術(shù)方法
傳統(tǒng)部件級別 3D 生成方法通常采用兩階段流程,先對圖像進行語義分割,再逐一重建部件,效率低(~20分鐘)且易受分割錯誤影響。PartCrafter 通過統(tǒng)一生成架構(gòu),消除了對預(yù)分割的依賴,同時在生成質(zhì)量和計算效率上實現(xiàn)雙重突破。PartCrafter 能在約40秒內(nèi)完成從單張圖像到結(jié)構(gòu)化 3D 模型的生成,效率遠超傳統(tǒng)方法。
PartCrafter 引入組合式潛在空間來同時建模每個 3D 部件之間的聯(lián)系,通過局部-全局注意力機制來保證生成過程中各部件的語義獨立性和整體的保真程度。

Partcrafter 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
1.組合式潛在空間(Compositional Latent Space)
每一個3D部件都對應(yīng)一組解耦的 latent token 表示,模型能理解各個部件的獨立性與語義含義。為了區(qū)分不同部件,模型還為每組 token 添加了一個可學(xué)習(xí)的“部件身份嵌入”(Part Identity Embedding),增強對部件級別的結(jié)構(gòu)感知。
2. 局部-全局聯(lián)合去噪 Transformer
(Local-Global Denoising Transformer)
PartCrafter 并非簡單地單獨生成每個部件,而是引入了一個局部與全局融合的推理機制:
- 局部信息用于保證每個部件內(nèi)部結(jié)構(gòu)的一致性;
- 全局信息用于協(xié)調(diào)多個部件之間的空間和語義關(guān)系;
- 圖像條件(RGB輸入)被同時引入局部與全局分支,確保生成內(nèi)容既獨立又具整體性。
數(shù)據(jù)構(gòu)造
現(xiàn)有的大型3D數(shù)據(jù)集雖包含豐富的模型,但真正具備部件級標注的資源仍較稀缺。為此,PartCrafter 團隊自建了一個高質(zhì)量訓(xùn)練數(shù)據(jù)集:

為支持部件級生成,PartCrafter 團隊精心構(gòu)建了一個包含13萬個 3D 對象的大型數(shù)據(jù)集,其中10萬個對象具備多部件標注。這些數(shù)據(jù)整合了 Objaverse、ShapeNet、ABO 等知名 3D 資源庫,通過挖掘部件級標注,為模型訓(xùn)練提供了豐富的監(jiān)督信息。這一數(shù)據(jù)集的開放將為 3D 生成領(lǐng)域的研究提供寶貴資源,助力更多團隊探索結(jié)構(gòu)化建模的潛力。
篩選標準:
- 材質(zhì)貼圖質(zhì)量(texture quality)
- 拆分部件數(shù)量(part count)
- 各部件之間的平均交并比(IoU)
最終構(gòu)成:
- 精選出約 5萬個 具備精細部件標簽的對象
- 包含超過 30萬個獨立 3D 部件,構(gòu)成強監(jiān)督訓(xùn)練的核心資源
數(shù)據(jù)分布圖展示了不同 3D 對象的部件數(shù)量統(tǒng)計,說明模型訓(xùn)練覆蓋了從少數(shù)部件到復(fù)雜組合的廣泛結(jié)構(gòu)類型。
實驗結(jié)果
PartCrafter 可以同時適用于(1)部件級別的3D物體生成;(2)物體組合的3D場景生成。團隊在這兩種設(shè)定下開展了豐富全面的實驗。
1. 定量結(jié)果
1.1 物體數(shù)據(jù)集上的重建結(jié)果

在物體級和部件級指標上, PartCrafter 的性能都遠超 HoloPart 。給定一張圖像, PartCrafter 能夠在數(shù)秒內(nèi)生成一個高保真、幾何獨立且可按部件分解的 3D 網(wǎng)格。相比之下, HoloPart 需要更多時間來分割物體網(wǎng)格,并且其分割過程會因生成網(wǎng)格的幾何質(zhì)量低于真實的藝術(shù)創(chuàng)作網(wǎng)格而受到影響,從而限制了其性能。值得注意的是,即使當我們將骨干模型 TripoSG 中的 token 數(shù)量與我們的方法對齊時, 在物體級指標上仍然優(yōu)于 TripoSG .
1.2 場景數(shù)據(jù)集上的重建結(jié)果

MIDI 在評估時使用了真實的分割掩碼(ground truth segmentation masks),但 PartCrafter 則完全不需要任何分割操作。為了進一步驗證我們方法的有效性,我們從 3D-Front 數(shù)據(jù)集中選取了一個包含嚴重遮擋的 3D 場景子集,在這些場景中,真實的分割掩碼無法分割出所有物體。我們觀察到,在場景遮擋情況下, MIDI 的性能出現(xiàn)了顯著下降,而 PartCrafter 仍然能夠保持高水平的生成質(zhì)量。
2. 定性結(jié)果
2.1 3D物體重建效果

2.2 3D場景重建效果

2.3 用戶指定 Part 生成的顆粒度
PartCrafter 的組合式潛在空間設(shè)計使得顆粒度控制成為可能。通過指定潛在向量集合的個數(shù),用戶可以實現(xiàn)部件分割顆粒度的控制。



































