偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

劍指專業(yè)領(lǐng)域零部件級3D生成!Meta聯(lián)手牛津推出全新多視圖擴散模型

人工智能 新聞
對于專業(yè)應(yīng)用和創(chuàng)意工作流來說,除了高質(zhì)量的形狀和紋理,更需要可以獨立操作的「零部件級3D模型」。為此,Meta與牛津大學(xué)的研究人員推出了全新的多視圖擴散模型。

當(dāng)前AI生成的3D模型,已經(jīng)擁有相當(dāng)高的質(zhì)量。

但這些生成結(jié)果通常只是單個物體的某種表示(比如隱式神經(jīng)場、高斯混合或網(wǎng)格),而不包含結(jié)構(gòu)信息。

對于專業(yè)應(yīng)用和創(chuàng)意工作流來說,除了高質(zhì)量的形狀和紋理,更需要可以獨立操作的「零部件級3D模型」。

圖片

比如上圖中的幾個例子,3D模型應(yīng)該由多個有意義的部分組成,可以分離、組合與編輯。

而上圖中的效果,正是出自Meta與牛津大學(xué)的研究人員推出的全新多視圖擴散模型——PartGen。

圖片

論文地址:https://arxiv.org/pdf/2412.18608

項目地址:https://silent-chen.github.io/PartGen

PartGen可以使用文本、圖像或非結(jié)構(gòu)化3D對象作為輸入,生成上面說的「子結(jié)構(gòu)可分離」的3D模型。

同一些SOTA生成工作流類似,PartGen也采用兩階段方案,以消除零部件分割和重建的歧義:

首先,多視圖生成器根據(jù)給定條件,生成3D對象的多個視圖,由第一個多視圖擴散模型提取一組合理且視圖一致的部分分割,將對象劃分為多個部分。

然后,第二個多視圖擴散模型將每個部分分開,填充遮擋并饋送到3D重建網(wǎng)絡(luò),對這些補充完整的視圖進行3D重建。

圖片

PartGen在生成過程中考慮了整個對象的上下文,以確保各部分緊密集成。這種生成式補全模型可以彌補由于遮擋而丟失的信息,還原出完全不可見的部分。

圖片

作者在合成以及真實的3D資產(chǎn)上評估了PartGen,如圖所示,其性能大大優(yōu)于之前的類似方法。

圖片

作者還將PartGen部署到真實的下游應(yīng)用程序,例如3D零件編輯,以證明模型的實力。

零部件級3D生成

零件很重要,因為零件可以支持重用、編輯或者動畫。

人類藝術(shù)家在制作3D模型時,會自然地以這種角度考慮。

比如一個人的模型可以分解成衣服和配飾,以及各種解剖特征(頭發(fā)、眼睛、牙齒、四肢等)。

零件承載的信息和功能也很重要,比如不同的部分可能具有不同的動畫或不同的材質(zhì)。

零件還可以單獨替換、刪除或編輯。比如在視頻游戲中,角色更換武器或衣服。

另外,由于其語義意義,零部件對于機器人、具身人工智能和空間智能等3D理解和應(yīng)用也很重要。

PartGen將現(xiàn)有3D生成方法從非結(jié)構(gòu)化,升級為零部件組合的方法,從而解決了兩個關(guān)鍵問題:

1)如何自動將3D對象分割成多個部分;

2)如何提取高質(zhì)量、完整的3D零部件,即使是在外觀部分遮擋、或者根本看不到的情況下。

圖片

多視圖零部件分割

3D對象分割并沒有所謂的「黃金標(biāo)準(zhǔn)」。因此,分割方法應(yīng)該對合理的部分分割的分布進行建模,而不是對單個分割進行建模。

可以使用概率擴散模型來學(xué)習(xí)這項任務(wù),從而有效地捕捉和建模這種模糊性。

作為整個生成流程的第一階段,研究人員將零件分割轉(zhuǎn)換為隨機多視圖一致性著色問題(stochastic multi-view-consistent colouring problem),利用經(jīng)過微調(diào)的多視圖圖像生成器,在3D對象的多個視圖中生成顏色編碼的分割圖。

作者不假設(shè)任何確定性的零件分類法——分割模型從藝術(shù)家創(chuàng)建的大量數(shù)據(jù)中學(xué)習(xí),如何將對象分解為多個部分。

考慮將多數(shù)圖圖像作為輸入,模型的任務(wù)就是預(yù)測多個部分的mask。給定一個映射,將分割圖渲染為多視圖RGB圖像,然后對預(yù)訓(xùn)練模型進行微調(diào)。

圖片

作者使用VAE將多視圖圖像編碼到潛在空間中,并將其與噪聲潛在空間堆疊起來,作為擴散網(wǎng)絡(luò)的輸入。

這種方法有兩個優(yōu)勢:首先是利用了預(yù)訓(xùn)練的圖像生成器,保證了天生具有視圖一致性;其次,生成方法允許簡單地從模型中重新采樣來進行多個合理的分割。

上下文部分補全

對于第二個問題,即在3D中重建分割的零件,普遍的方法是在現(xiàn)有的對象視圖中屏蔽零件,然后使用3D重建網(wǎng)絡(luò)進行恢復(fù)。

然而,當(dāng)零件被嚴(yán)重遮擋時,這項任務(wù)相當(dāng)于非模態(tài)重建,是高度模糊的,確定性重構(gòu)網(wǎng)絡(luò)無法很好地解決。

本文建議微調(diào)另一個多視圖生成器來補全部分的視圖,同時考慮整個對象的上下文。

類似于上一個階段,研究人員將預(yù)訓(xùn)練的VAE分別應(yīng)用于蒙版圖像和上下文圖像,產(chǎn)生2 × 8個通道,并將它們與8D噪聲圖像和未編碼的部分掩碼堆疊在一起,獲得擴散模型的25通道輸入。

圖片

通過這種方式,即使零件在原始輸入視圖中僅部分可見,甚至不可見,也可以可靠地重建這些零件。此外,生成的部分可以很好地組合在一起,形成一個連貫的3D對象。

最后一步是在3D中重建零件。因為零件視圖已經(jīng)是完整且一致的,所以可以簡單地使用重建網(wǎng)絡(luò)來生成預(yù)測,此階段的模型不需要特殊的微調(diào)。

訓(xùn)練數(shù)據(jù)

為了訓(xùn)練模型,研究人員從140k 3D藝術(shù)家生成的資產(chǎn)集合中構(gòu)建了數(shù)據(jù)集(商業(yè)來源獲得AI訓(xùn)練許可)。數(shù)據(jù)集中的示例對象如圖3所示。

圖片

對于方法中涉及微調(diào)的三個模型,每個模型的數(shù)據(jù)預(yù)處理方式都不同。

為了訓(xùn)練多視圖生成器模型,首先必須將目標(biāo)多視圖圖像(4個視圖組成)渲染到完整對象。

作者從正交方位角和20度仰角對4個視圖進行著色,并將它們排列在2 × 2網(wǎng)格中。

在文本條件下,訓(xùn)練數(shù)據(jù)由多視圖圖像對及其文本標(biāo)題組成,選擇10k最高質(zhì)量的資產(chǎn),并使用類似CAP3D的工作流生成它們的文本標(biāo)題。

在圖像條件下,使用所有140k模型數(shù)據(jù),設(shè)置隨機采樣以單個渲染的形式出現(xiàn)。

為了訓(xùn)練零件分割和補全網(wǎng)絡(luò),還需要渲染多視圖零件圖像及其深度圖。

由于不同的創(chuàng)作者對部分分解有不同的想法,因此作者過濾掉數(shù)據(jù)集中可能缺乏語義的過于精細(xì)的部分(首先剔除占用對象體積小于5%的部分,然后刪除具有10個以上部分或由單個整體組成的資產(chǎn))。

最終的數(shù)據(jù)集包含45k個對象(210k個零部件)。

下游應(yīng)用

下圖給出了幾個應(yīng)用示例:部件感知文本到3D生成、部件感知圖像到3D生成,以及真實世界的3D對象分解。

如圖所示,PartGen可以有效地生成具有不同部件的3D對象,即使在嚴(yán)重重疊的情況下,例如小熊軟糖。

圖片

給定一個來自GSO(Google Scanned Objects)的3D對象,渲染不同的視圖以獲得圖像網(wǎng)格,圖6的最后一行顯示,PartGen可以有效地分解現(xiàn)實世界的3D對象。

圖片

當(dāng)3D對象被分解之后,它們就可以通過文本輸入進一步修改。如圖7所示,PartGen可以根據(jù)文本提示有效地編輯零件的形狀和紋理。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-05-14 09:21:49

iPhone

2023-11-24 15:00:09

2018-01-18 10:08:27

零部件

2021-12-23 22:58:45

iOS蘋果系統(tǒng)

2019-04-01 16:09:27

航空零部件人工智能

2018-12-24 17:06:32

汽車

2012-03-14 21:22:56

三星

2025-06-13 14:13:26

3D場景生成模型

2018-12-21 13:52:51

汽車

2023-11-04 15:16:55

2025-01-07 08:40:00

視頻生成AI

2020-04-07 13:00:18

馬斯克特斯拉呼吸機

2025-02-24 10:40:00

3D模型生成

2012-07-27 11:02:32

打印機

2024-12-31 07:15:00

2021-12-23 09:24:42

蘋果 iOS 15 iPhone
點贊
收藏

51CTO技術(shù)棧公眾號