偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

劍指專(zhuān)業(yè)領(lǐng)域零部件級(jí)3D生成!Meta聯(lián)手牛津推出全新多視圖擴(kuò)散模型

人工智能 新聞
對(duì)于專(zhuān)業(yè)應(yīng)用和創(chuàng)意工作流來(lái)說(shuō),除了高質(zhì)量的形狀和紋理,更需要可以獨(dú)立操作的「零部件級(jí)3D模型」。為此,Meta與牛津大學(xué)的研究人員推出了全新的多視圖擴(kuò)散模型。

當(dāng)前AI生成的3D模型,已經(jīng)擁有相當(dāng)高的質(zhì)量。

但這些生成結(jié)果通常只是單個(gè)物體的某種表示(比如隱式神經(jīng)場(chǎng)、高斯混合或網(wǎng)格),而不包含結(jié)構(gòu)信息。

對(duì)于專(zhuān)業(yè)應(yīng)用和創(chuàng)意工作流來(lái)說(shuō),除了高質(zhì)量的形狀和紋理,更需要可以獨(dú)立操作的「零部件級(jí)3D模型」。

圖片

比如上圖中的幾個(gè)例子,3D模型應(yīng)該由多個(gè)有意義的部分組成,可以分離、組合與編輯。

而上圖中的效果,正是出自Meta與牛津大學(xué)的研究人員推出的全新多視圖擴(kuò)散模型——PartGen。

圖片

論文地址:https://arxiv.org/pdf/2412.18608

項(xiàng)目地址:https://silent-chen.github.io/PartGen

PartGen可以使用文本、圖像或非結(jié)構(gòu)化3D對(duì)象作為輸入,生成上面說(shuō)的「子結(jié)構(gòu)可分離」的3D模型。

同一些SOTA生成工作流類(lèi)似,PartGen也采用兩階段方案,以消除零部件分割和重建的歧義:

首先,多視圖生成器根據(jù)給定條件,生成3D對(duì)象的多個(gè)視圖,由第一個(gè)多視圖擴(kuò)散模型提取一組合理且視圖一致的部分分割,將對(duì)象劃分為多個(gè)部分。

然后,第二個(gè)多視圖擴(kuò)散模型將每個(gè)部分分開(kāi),填充遮擋并饋送到3D重建網(wǎng)絡(luò),對(duì)這些補(bǔ)充完整的視圖進(jìn)行3D重建。

圖片

PartGen在生成過(guò)程中考慮了整個(gè)對(duì)象的上下文,以確保各部分緊密集成。這種生成式補(bǔ)全模型可以彌補(bǔ)由于遮擋而丟失的信息,還原出完全不可見(jiàn)的部分。

圖片

作者在合成以及真實(shí)的3D資產(chǎn)上評(píng)估了PartGen,如圖所示,其性能大大優(yōu)于之前的類(lèi)似方法。

圖片

作者還將PartGen部署到真實(shí)的下游應(yīng)用程序,例如3D零件編輯,以證明模型的實(shí)力。

零部件級(jí)3D生成

零件很重要,因?yàn)榱慵梢灾С种赜?、編輯或者?dòng)畫(huà)。

人類(lèi)藝術(shù)家在制作3D模型時(shí),會(huì)自然地以這種角度考慮。

比如一個(gè)人的模型可以分解成衣服和配飾,以及各種解剖特征(頭發(fā)、眼睛、牙齒、四肢等)。

零件承載的信息和功能也很重要,比如不同的部分可能具有不同的動(dòng)畫(huà)或不同的材質(zhì)。

零件還可以單獨(dú)替換、刪除或編輯。比如在視頻游戲中,角色更換武器或衣服。

另外,由于其語(yǔ)義意義,零部件對(duì)于機(jī)器人、具身人工智能和空間智能等3D理解和應(yīng)用也很重要。

PartGen將現(xiàn)有3D生成方法從非結(jié)構(gòu)化,升級(jí)為零部件組合的方法,從而解決了兩個(gè)關(guān)鍵問(wèn)題:

1)如何自動(dòng)將3D對(duì)象分割成多個(gè)部分;

2)如何提取高質(zhì)量、完整的3D零部件,即使是在外觀部分遮擋、或者根本看不到的情況下。

圖片

多視圖零部件分割

3D對(duì)象分割并沒(méi)有所謂的「黃金標(biāo)準(zhǔn)」。因此,分割方法應(yīng)該對(duì)合理的部分分割的分布進(jìn)行建模,而不是對(duì)單個(gè)分割進(jìn)行建模。

可以使用概率擴(kuò)散模型來(lái)學(xué)習(xí)這項(xiàng)任務(wù),從而有效地捕捉和建模這種模糊性。

作為整個(gè)生成流程的第一階段,研究人員將零件分割轉(zhuǎn)換為隨機(jī)多視圖一致性著色問(wèn)題(stochastic multi-view-consistent colouring problem),利用經(jīng)過(guò)微調(diào)的多視圖圖像生成器,在3D對(duì)象的多個(gè)視圖中生成顏色編碼的分割圖。

作者不假設(shè)任何確定性的零件分類(lèi)法——分割模型從藝術(shù)家創(chuàng)建的大量數(shù)據(jù)中學(xué)習(xí),如何將對(duì)象分解為多個(gè)部分。

考慮將多數(shù)圖圖像作為輸入,模型的任務(wù)就是預(yù)測(cè)多個(gè)部分的mask。給定一個(gè)映射,將分割圖渲染為多視圖RGB圖像,然后對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

圖片

作者使用VAE將多視圖圖像編碼到潛在空間中,并將其與噪聲潛在空間堆疊起來(lái),作為擴(kuò)散網(wǎng)絡(luò)的輸入。

這種方法有兩個(gè)優(yōu)勢(shì):首先是利用了預(yù)訓(xùn)練的圖像生成器,保證了天生具有視圖一致性;其次,生成方法允許簡(jiǎn)單地從模型中重新采樣來(lái)進(jìn)行多個(gè)合理的分割。

上下文部分補(bǔ)全

對(duì)于第二個(gè)問(wèn)題,即在3D中重建分割的零件,普遍的方法是在現(xiàn)有的對(duì)象視圖中屏蔽零件,然后使用3D重建網(wǎng)絡(luò)進(jìn)行恢復(fù)。

然而,當(dāng)零件被嚴(yán)重遮擋時(shí),這項(xiàng)任務(wù)相當(dāng)于非模態(tài)重建,是高度模糊的,確定性重構(gòu)網(wǎng)絡(luò)無(wú)法很好地解決。

本文建議微調(diào)另一個(gè)多視圖生成器來(lái)補(bǔ)全部分的視圖,同時(shí)考慮整個(gè)對(duì)象的上下文。

類(lèi)似于上一個(gè)階段,研究人員將預(yù)訓(xùn)練的VAE分別應(yīng)用于蒙版圖像和上下文圖像,產(chǎn)生2 × 8個(gè)通道,并將它們與8D噪聲圖像和未編碼的部分掩碼堆疊在一起,獲得擴(kuò)散模型的25通道輸入。

圖片

通過(guò)這種方式,即使零件在原始輸入視圖中僅部分可見(jiàn),甚至不可見(jiàn),也可以可靠地重建這些零件。此外,生成的部分可以很好地組合在一起,形成一個(gè)連貫的3D對(duì)象。

最后一步是在3D中重建零件。因?yàn)榱慵晥D已經(jīng)是完整且一致的,所以可以簡(jiǎn)單地使用重建網(wǎng)絡(luò)來(lái)生成預(yù)測(cè),此階段的模型不需要特殊的微調(diào)。

訓(xùn)練數(shù)據(jù)

為了訓(xùn)練模型,研究人員從140k 3D藝術(shù)家生成的資產(chǎn)集合中構(gòu)建了數(shù)據(jù)集(商業(yè)來(lái)源獲得AI訓(xùn)練許可)。數(shù)據(jù)集中的示例對(duì)象如圖3所示。

圖片

對(duì)于方法中涉及微調(diào)的三個(gè)模型,每個(gè)模型的數(shù)據(jù)預(yù)處理方式都不同。

為了訓(xùn)練多視圖生成器模型,首先必須將目標(biāo)多視圖圖像(4個(gè)視圖組成)渲染到完整對(duì)象。

作者從正交方位角和20度仰角對(duì)4個(gè)視圖進(jìn)行著色,并將它們排列在2 × 2網(wǎng)格中。

在文本條件下,訓(xùn)練數(shù)據(jù)由多視圖圖像對(duì)及其文本標(biāo)題組成,選擇10k最高質(zhì)量的資產(chǎn),并使用類(lèi)似CAP3D的工作流生成它們的文本標(biāo)題。

在圖像條件下,使用所有140k模型數(shù)據(jù),設(shè)置隨機(jī)采樣以單個(gè)渲染的形式出現(xiàn)。

為了訓(xùn)練零件分割和補(bǔ)全網(wǎng)絡(luò),還需要渲染多視圖零件圖像及其深度圖。

由于不同的創(chuàng)作者對(duì)部分分解有不同的想法,因此作者過(guò)濾掉數(shù)據(jù)集中可能缺乏語(yǔ)義的過(guò)于精細(xì)的部分(首先剔除占用對(duì)象體積小于5%的部分,然后刪除具有10個(gè)以上部分或由單個(gè)整體組成的資產(chǎn))。

最終的數(shù)據(jù)集包含45k個(gè)對(duì)象(210k個(gè)零部件)。

下游應(yīng)用

下圖給出了幾個(gè)應(yīng)用示例:部件感知文本到3D生成、部件感知圖像到3D生成,以及真實(shí)世界的3D對(duì)象分解。

如圖所示,PartGen可以有效地生成具有不同部件的3D對(duì)象,即使在嚴(yán)重重疊的情況下,例如小熊軟糖。

圖片

給定一個(gè)來(lái)自GSO(Google Scanned Objects)的3D對(duì)象,渲染不同的視圖以獲得圖像網(wǎng)格,圖6的最后一行顯示,PartGen可以有效地分解現(xiàn)實(shí)世界的3D對(duì)象。

圖片

當(dāng)3D對(duì)象被分解之后,它們就可以通過(guò)文本輸入進(jìn)一步修改。如圖7所示,PartGen可以根據(jù)文本提示有效地編輯零件的形狀和紋理。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2012-05-14 09:21:49

iPhone

2023-11-24 15:00:09

2018-01-18 10:08:27

零部件

2021-12-23 22:58:45

iOS蘋(píng)果系統(tǒng)

2019-04-01 16:09:27

航空零部件人工智能

2018-12-24 17:06:32

汽車(chē)

2012-03-14 21:22:56

三星

2025-06-13 14:13:26

3D場(chǎng)景生成模型

2018-12-21 13:52:51

汽車(chē)

2023-11-04 15:16:55

2025-01-07 08:40:00

視頻生成AI

2020-04-07 13:00:18

馬斯克特斯拉呼吸機(jī)

2025-02-24 10:40:00

3D模型生成

2012-07-27 11:02:32

打印機(jī)

2024-12-31 07:15:00

2021-12-23 09:24:42

蘋(píng)果 iOS 15 iPhone
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)