偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<menuitem id="wfpsz"></menuitem>

_{<tr id="wfpsz"></tr>}

<samp id="wfpsz"></samp>

<mark id="wfpsz"></mark>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

劍指專(zhuān)業(yè)領(lǐng)域零部件級(jí)3D生成！Meta聯(lián)手牛津推出全新多視圖擴(kuò)散模型

作者：新智元 2025-01-08 14:45:22

人工智能新聞

對(duì)于專(zhuān)業(yè)應(yīng)用和創(chuàng)意工作流來(lái)說(shuō)，除了高質(zhì)量的形狀和紋理，更需要可以獨(dú)立操作的「零部件級(jí)3D模型」。為此，Meta與牛津大學(xué)的研究人員推出了全新的多視圖擴(kuò)散模型。

當(dāng)前AI生成的3D模型，已經(jīng)擁有相當(dāng)高的質(zhì)量。

但這些生成結(jié)果通常只是單個(gè)物體的某種表示（比如隱式神經(jīng)場(chǎng)、高斯混合或網(wǎng)格），而不包含結(jié)構(gòu)信息。

對(duì)于專(zhuān)業(yè)應(yīng)用和創(chuàng)意工作流來(lái)說(shuō)，除了高質(zhì)量的形狀和紋理，更需要可以獨(dú)立操作的「零部件級(jí)3D模型」。

比如上圖中的幾個(gè)例子，3D模型應(yīng)該由多個(gè)有意義的部分組成，可以分離、組合與編輯。

而上圖中的效果，正是出自Meta與牛津大學(xué)的研究人員推出的全新多視圖擴(kuò)散模型——PartGen。

論文地址：https://arxiv.org/pdf/2412.18608

項(xiàng)目地址：https://silent-chen.github.io/PartGen

PartGen可以使用文本、圖像或非結(jié)構(gòu)化3D對(duì)象作為輸入，生成上面說(shuō)的「子結(jié)構(gòu)可分離」的3D模型。

同一些SOTA生成工作流類(lèi)似，PartGen也采用兩階段方案，以消除零部件分割和重建的歧義：

首先，多視圖生成器根據(jù)給定條件，生成3D對(duì)象的多個(gè)視圖，由第一個(gè)多視圖擴(kuò)散模型提取一組合理且視圖一致的部分分割，將對(duì)象劃分為多個(gè)部分。

然后，第二個(gè)多視圖擴(kuò)散模型將每個(gè)部分分開(kāi)，填充遮擋并饋送到3D重建網(wǎng)絡(luò)，對(duì)這些補(bǔ)充完整的視圖進(jìn)行3D重建。

PartGen在生成過(guò)程中考慮了整個(gè)對(duì)象的上下文，以確保各部分緊密集成。這種生成式補(bǔ)全模型可以彌補(bǔ)由于遮擋而丟失的信息，還原出完全不可見(jiàn)的部分。

作者在合成以及真實(shí)的3D資產(chǎn)上評(píng)估了PartGen，如圖所示，其性能大大優(yōu)于之前的類(lèi)似方法。

作者還將PartGen部署到真實(shí)的下游應(yīng)用程序，例如3D零件編輯，以證明模型的實(shí)力。

零部件級(jí)3D生成

零件很重要，因?yàn)榱慵梢灾С种赜?、編輯或者?dòng)畫(huà)。

人類(lèi)藝術(shù)家在制作3D模型時(shí)，會(huì)自然地以這種角度考慮。

比如一個(gè)人的模型可以分解成衣服和配飾，以及各種解剖特征（頭發(fā)、眼睛、牙齒、四肢等）。

零件承載的信息和功能也很重要，比如不同的部分可能具有不同的動(dòng)畫(huà)或不同的材質(zhì)。

零件還可以單獨(dú)替換、刪除或編輯。比如在視頻游戲中，角色更換武器或衣服。

另外，由于其語(yǔ)義意義，零部件對(duì)于機(jī)器人、具身人工智能和空間智能等3D理解和應(yīng)用也很重要。

PartGen將現(xiàn)有3D生成方法從非結(jié)構(gòu)化，升級(jí)為零部件組合的方法，從而解決了兩個(gè)關(guān)鍵問(wèn)題：

1）如何自動(dòng)將3D對(duì)象分割成多個(gè)部分；
2）如何提取高質(zhì)量、完整的3D零部件，即使是在外觀部分遮擋、或者根本看不到的情況下。

多視圖零部件分割

3D對(duì)象分割并沒(méi)有所謂的「黃金標(biāo)準(zhǔn)」。因此，分割方法應(yīng)該對(duì)合理的部分分割的分布進(jìn)行建模，而不是對(duì)單個(gè)分割進(jìn)行建模。

可以使用概率擴(kuò)散模型來(lái)學(xué)習(xí)這項(xiàng)任務(wù)，從而有效地捕捉和建模這種模糊性。

作為整個(gè)生成流程的第一階段，研究人員將零件分割轉(zhuǎn)換為隨機(jī)多視圖一致性著色問(wèn)題（stochastic multi-view-consistent colouring problem），利用經(jīng)過(guò)微調(diào)的多視圖圖像生成器，在3D對(duì)象的多個(gè)視圖中生成顏色編碼的分割圖。

作者不假設(shè)任何確定性的零件分類(lèi)法——分割模型從藝術(shù)家創(chuàng)建的大量數(shù)據(jù)中學(xué)習(xí)，如何將對(duì)象分解為多個(gè)部分。

考慮將多數(shù)圖圖像作為輸入，模型的任務(wù)就是預(yù)測(cè)多個(gè)部分的mask。給定一個(gè)映射，將分割圖渲染為多視圖RGB圖像，然后對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

作者使用VAE將多視圖圖像編碼到潛在空間中，并將其與噪聲潛在空間堆疊起來(lái)，作為擴(kuò)散網(wǎng)絡(luò)的輸入。

這種方法有兩個(gè)優(yōu)勢(shì)：首先是利用了預(yù)訓(xùn)練的圖像生成器，保證了天生具有視圖一致性；其次，生成方法允許簡(jiǎn)單地從模型中重新采樣來(lái)進(jìn)行多個(gè)合理的分割。

上下文部分補(bǔ)全

對(duì)于第二個(gè)問(wèn)題，即在3D中重建分割的零件，普遍的方法是在現(xiàn)有的對(duì)象視圖中屏蔽零件，然后使用3D重建網(wǎng)絡(luò)進(jìn)行恢復(fù)。

然而，當(dāng)零件被嚴(yán)重遮擋時(shí)，這項(xiàng)任務(wù)相當(dāng)于非模態(tài)重建，是高度模糊的，確定性重構(gòu)網(wǎng)絡(luò)無(wú)法很好地解決。

本文建議微調(diào)另一個(gè)多視圖生成器來(lái)補(bǔ)全部分的視圖，同時(shí)考慮整個(gè)對(duì)象的上下文。

類(lèi)似于上一個(gè)階段，研究人員將預(yù)訓(xùn)練的VAE分別應(yīng)用于蒙版圖像和上下文圖像，產(chǎn)生2 × 8個(gè)通道，并將它們與8D噪聲圖像和未編碼的部分掩碼堆疊在一起，獲得擴(kuò)散模型的25通道輸入。

通過(guò)這種方式，即使零件在原始輸入視圖中僅部分可見(jiàn)，甚至不可見(jiàn)，也可以可靠地重建這些零件。此外，生成的部分可以很好地組合在一起，形成一個(gè)連貫的3D對(duì)象。

最后一步是在3D中重建零件。因?yàn)榱慵晥D已經(jīng)是完整且一致的，所以可以簡(jiǎn)單地使用重建網(wǎng)絡(luò)來(lái)生成預(yù)測(cè)，此階段的模型不需要特殊的微調(diào)。

訓(xùn)練數(shù)據(jù)

為了訓(xùn)練模型，研究人員從140k 3D藝術(shù)家生成的資產(chǎn)集合中構(gòu)建了數(shù)據(jù)集（商業(yè)來(lái)源獲得AI訓(xùn)練許可）。數(shù)據(jù)集中的示例對(duì)象如圖3所示。

對(duì)于方法中涉及微調(diào)的三個(gè)模型，每個(gè)模型的數(shù)據(jù)預(yù)處理方式都不同。

為了訓(xùn)練多視圖生成器模型，首先必須將目標(biāo)多視圖圖像（4個(gè)視圖組成）渲染到完整對(duì)象。

作者從正交方位角和20度仰角對(duì)4個(gè)視圖進(jìn)行著色，并將它們排列在2 × 2網(wǎng)格中。

在文本條件下，訓(xùn)練數(shù)據(jù)由多視圖圖像對(duì)及其文本標(biāo)題組成，選擇10k最高質(zhì)量的資產(chǎn)，并使用類(lèi)似CAP3D的工作流生成它們的文本標(biāo)題。

在圖像條件下，使用所有140k模型數(shù)據(jù)，設(shè)置隨機(jī)采樣以單個(gè)渲染的形式出現(xiàn)。

為了訓(xùn)練零件分割和補(bǔ)全網(wǎng)絡(luò)，還需要渲染多視圖零件圖像及其深度圖。

由于不同的創(chuàng)作者對(duì)部分分解有不同的想法，因此作者過(guò)濾掉數(shù)據(jù)集中可能缺乏語(yǔ)義的過(guò)于精細(xì)的部分（首先剔除占用對(duì)象體積小于5%的部分，然后刪除具有10個(gè)以上部分或由單個(gè)整體組成的資產(chǎn)）。

最終的數(shù)據(jù)集包含45k個(gè)對(duì)象（210k個(gè)零部件）。

下游應(yīng)用

下圖給出了幾個(gè)應(yīng)用示例：部件感知文本到3D生成、部件感知圖像到3D生成，以及真實(shí)世界的3D對(duì)象分解。

如圖所示，PartGen可以有效地生成具有不同部件的3D對(duì)象，即使在嚴(yán)重重疊的情況下，例如小熊軟糖。

給定一個(gè)來(lái)自GSO（Google Scanned Objects）的3D對(duì)象，渲染不同的視圖以獲得圖像網(wǎng)格，圖6的最后一行顯示，PartGen可以有效地分解現(xiàn)實(shí)世界的3D對(duì)象。

當(dāng)3D對(duì)象被分解之后，它們就可以通過(guò)文本輸入進(jìn)一步修改。如圖7所示，PartGen可以根據(jù)文本提示有效地編輯零件的形狀和紋理。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)