偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

騰訊用AI把美術(shù)管線重新做了一遍,混元3D Studio架構(gòu)曝光

人工智能 新聞
這是騰訊專為3D設(shè)計(jì)師、游戲開發(fā)者、建模師等打造的專業(yè)級(jí)AI工作臺(tái)混元3D Studio。

建模師們有福了!

不用在建模、UV、貼圖軟件之間反復(fù)橫跳,一個(gè)工作臺(tái)就能得到:

這是騰訊專為3D設(shè)計(jì)師、游戲開發(fā)者、建模師等打造的專業(yè)級(jí)AI工作臺(tái)混元3D Studio。

一個(gè)平臺(tái)搞定整套設(shè)計(jì)流程,不管是前期的概念設(shè)計(jì)、幾何建模,還是進(jìn)一步的組件拆分、低模拓?fù)?,以及后續(xù)貼圖、綁骨蒙皮、動(dòng)畫等都能全覆蓋。

這下真讓3D資產(chǎn)生產(chǎn)周期從幾天變成分分鐘了。

那它是怎么做到的呢?讓我們來個(gè)深度剖析。

七大核心技術(shù)模塊

核心架構(gòu)

混元3D Studio整體是一個(gè)順序且模塊化的工作流程。

其中每個(gè)階段都會(huì)對(duì)資產(chǎn)進(jìn)行處理,并為下一個(gè)階段提供至關(guān)重要的數(shù)據(jù)輸入。從最初的創(chuàng)意到最終的游戲資產(chǎn),這一設(shè)計(jì)確保了整個(gè)過程的無縫銜接與自動(dòng)化。

△混元3D Studio工作流

整個(gè)工作流共包含:

組件拆分:利用連通性分析和語義分割算法,復(fù)雜模型能夠被自動(dòng)拆解為邏輯上和功能上獨(dú)立的組件(例如:步槍的彈匣、槍管和槍托),從而實(shí)現(xiàn)組件的獨(dú)立編輯和動(dòng)畫制作。

可控圖像生成(概念設(shè)計(jì)):文本或圖像皆可作為輸入模態(tài),支持文生圖和圖生多視圖功能。此外,專用的A-Pose標(biāo)準(zhǔn)化模塊確保角色模型骨架姿勢的一致性,風(fēng)格遷移模塊則用于調(diào)整圖像視覺效果,以匹配目標(biāo)游戲的美術(shù)風(fēng)格。

高保真幾何生成:基于當(dāng)前先進(jìn)的擴(kuò)散模型架構(gòu),根據(jù)單視圖或多視圖圖像生成精細(xì)的三維網(wǎng)格模型(高模)。得益于強(qiáng)大的跟隨能力,能夠確保生成的幾何結(jié)構(gòu)與輸入prompt高度一致,并極大地還原物體的3D表面細(xì)節(jié)。

低模拓?fù)渖桑≒olyGen):該模塊摒棄傳統(tǒng)的基于圖形學(xué)的重拓?fù)浞椒?,采用自回歸模型逐面地生成低多邊形資產(chǎn)。通過將幾何表面的點(diǎn)云作為條件輸入,PolyGen能夠智能生成高保真網(wǎng)格對(duì)應(yīng)的拓?fù)浣Y(jié)構(gòu),適用于游戲資產(chǎn)等應(yīng)用場景,滿足低頂點(diǎn)數(shù)、結(jié)構(gòu)合理以及良好變形適應(yīng)的邊流分布。

語義UV展開:不同于傳統(tǒng)的語義性差的傳統(tǒng)UV展開方法與人工UV展開。語義UV展開模塊實(shí)現(xiàn)了具備上下文語義感知的UV切線生成,可以依據(jù)模型的形狀與布線分布進(jìn)行結(jié)構(gòu)分析,提升UV拆分的語義性、合理性與可用性,進(jìn)而有利于高質(zhì)量紋理的生成。

紋理生成與編輯:集成了生成式大模型,可根據(jù)文本或圖像prompt生成物理準(zhǔn)確的PBR紋理,并通過無損編輯層,支持用戶使用自然語言指令對(duì)紋理進(jìn)行精細(xì)化二次調(diào)整。

綁骨蒙皮&動(dòng)畫特效:在自動(dòng)化的最后階段,該模塊能夠推斷骨骼關(guān)節(jié)位置與層級(jí)結(jié)構(gòu),并計(jì)算頂點(diǎn)權(quán)重,生成可直接用于標(biāo)準(zhǔn)游戲引擎的可驅(qū)動(dòng)動(dòng)畫資產(chǎn)。

共七個(gè)核心技術(shù)模塊,其中每個(gè)模塊都對(duì)應(yīng)資產(chǎn)制作流程中的某一關(guān)鍵階段,下面一個(gè)個(gè)來看。

組件拆分

團(tuán)隊(duì)提出了一種用于打造可投入生產(chǎn)、可編輯且結(jié)構(gòu)合理的三維資產(chǎn)的新范式。

給定一張輸入圖片,首先使用Huyuan3D獲取整體形狀。然后,將整體網(wǎng)格傳遞給部件檢測模塊P3-SAM,以獲得語義特征和部件的邊界框(bounding boxes)。最后,由X-Part將整體形狀分解為各個(gè)部件。

△組件拆分整體流程

其中,P3-SAM(原生3D語義分割)是組件拆分生成流程中的關(guān)鍵步驟。

P3-SAM包含一個(gè)特征提取器、三個(gè)分割頭和一個(gè)IoU(交并比)預(yù)測頭。

△混元3D Studio工作流

PointTransformerV3作為特征提取器,并融合其不同層級(jí)的特征作為點(diǎn)級(jí)特征。

輸入的點(diǎn)提示和特征信息會(huì)被融合,并傳遞至分割頭,用于預(yù)測三個(gè)多尺度掩碼。

同時(shí),IoU預(yù)測頭用于評(píng)估掩碼質(zhì)量。為實(shí)現(xiàn)物體的自動(dòng)分割,利用FPS(最遠(yuǎn)點(diǎn)采樣)生成點(diǎn)提示,配合NMS(非極大值抑制)合并冗余掩碼。

點(diǎn)級(jí)掩碼隨后被投影到網(wǎng)格面上,從而獲得部件分割結(jié)果。

本方法的另一關(guān)鍵創(chuàng)新在于,完全摒棄2D SAM的影響,依賴于原生3D部件監(jiān)督,進(jìn)行原生3D分割模型的訓(xùn)練。

還提出了一個(gè)可控且可編輯的擴(kuò)散框架X-Part。

△X-Part流程

首先,為實(shí)現(xiàn)可控性提出了一個(gè)基于部件級(jí)提示的特征提取模塊,利用包圍盒作為提示,指示部件的位置和尺寸,而不是直接將分割結(jié)果作為輸入。

其次,將語義特征以精心設(shè)計(jì)的特征擾動(dòng)方式引入到框架中,這有助于實(shí)現(xiàn)有意義的部件分解。

為了驗(yàn)證X-Part的有效性,在多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。結(jié)果表明,X-Part在組件級(jí)分解和生成方面取得了當(dāng)前最優(yōu)的表現(xiàn)。

△橫向量化比較

△組建拆分橫向效果對(duì)比

組建拆分效果展示

可控圖像生成(概念設(shè)計(jì))

可控圖像生成包含圖像風(fēng)格化與姿態(tài)標(biāo)準(zhǔn)化兩大模塊。

圖像風(fēng)格化模塊允許用戶在3D建模前,通過配置選項(xiàng)一鍵生成多種主流游戲美術(shù)風(fēng)格的3D設(shè)計(jì)圖。

用戶可提供任務(wù)對(duì)象圖像,并通過文本的風(fēng)格化指令。格式為“Change the style to {style type} 3D model. White Background.”,從而生成內(nèi)容保持一致且藝術(shù)風(fēng)格精準(zhǔn)符合指令要求的風(fēng)格化輸出。

訓(xùn)練數(shù)據(jù)以三元組形式構(gòu)建: {輸入?yún)⒖紙D像,風(fēng)格類型,風(fēng)格化3D設(shè)計(jì)圖},實(shí)現(xiàn)對(duì)寫實(shí)圖像與風(fēng)格化作品的精確映射。

針對(duì)無參考圖像的文本到圖像風(fēng)格化的應(yīng)用場景,系統(tǒng)先用自研通用文本圖像生成模型合成參考圖像,再經(jīng)過圖像風(fēng)格化流水線,最終輸出風(fēng)格化作品。

△風(fēng)格化效果展示

針對(duì)任意角色參考圖像的姿態(tài)標(biāo)準(zhǔn)化(如A-pose),需兼顧姿態(tài)精準(zhǔn)控制和角色一致性的嚴(yán)格保持,并需實(shí)現(xiàn)對(duì)參考圖像中背景和道具的消除。

為此,團(tuán)隊(duì)將含任意姿態(tài)/視角的角色圖像作為條件輸入,注入來引導(dǎo)生成過程。

△姿態(tài)標(biāo)準(zhǔn)化流程圖

數(shù)據(jù)集構(gòu)建:首先基于角色渲染數(shù)據(jù),構(gòu)建[任意姿態(tài)/視角角色圖像,標(biāo)準(zhǔn)A-pose正面圖像]的圖像對(duì)。

隨后,將含有道具(如手持武器、基座等)的渲染數(shù)據(jù)輸入編輯模型,剝離角色本體之外的道具與背景,保證形象一致性。最終所得圖像對(duì)經(jīng)人工篩選,納入數(shù)據(jù)集,使模型具備道具與背景剔除能力。

訓(xùn)練策略采用了分辨率遞進(jìn)思路,自512×512起步,逐步升至768×768,促使模型更好地學(xué)習(xí)細(xì)粒度特征,顯著提升生成圖像在面部、復(fù)雜服飾等細(xì)節(jié)部分的保真度。

此外,針對(duì)同一角色在不同場景下的參考圖像進(jìn)行隨機(jī)條件輸入,提升姿態(tài)泛化能力和生成一致性。

團(tuán)隊(duì)還特別收集了高質(zhì)量數(shù)據(jù)集,涵蓋半身像、非人型類人物及擬人化角色等難度類型,并在后期采用SFT和DPO進(jìn)一步微調(diào),增強(qiáng)模型泛化性與魯棒性。

△姿態(tài)標(biāo)準(zhǔn)化效果

高保真幾何生成

高保真幾何生成的工作流水線基于業(yè)界領(lǐng)先的Hunyuan3D框架,整體結(jié)構(gòu)包含如下兩個(gè)子模塊:

Hunyuan3D-ShapeVAE:一種變分編碼–解碼式的Transformer結(jié)構(gòu),先對(duì)三維幾何體進(jìn)行壓縮,再進(jìn)行重構(gòu)。

該模塊的編碼器輸入帶有三維位置和表面法向的點(diǎn)云,經(jīng)過基于Vector-Set Transformer的重要性采樣,嵌入為緊湊的形狀潛變量z。解碼器則利用z查詢基于均勻網(wǎng)格的三維神經(jīng)場,位置網(wǎng)格為,最終將神經(jīng)場Fg映射為符號(hào)距離函數(shù)(SDF)值。

△幾何生成流程

Hunyuan3D-DiT:一種基于流的擴(kuò)散模型,直接在ShapeVAE的潛空間操作。

網(wǎng)絡(luò)由21層Transformer堆疊而成,每層包含Mixture-of-Experts (MoE)子層,有效提升模型容量與表達(dá)力。

Hunyuan3D-DiT通過流匹配目標(biāo)訓(xùn)練,將高斯噪聲映射到形狀潛變量,實(shí)現(xiàn)形狀生成的高效及高質(zhì)量采樣。

Hunyuan3D-DiT主要以單張輸入圖像為條件進(jìn)行生成。該圖像首先被調(diào)整至518×518尺寸,背景被移除,隨后通過凍結(jié)的DINOv2骨干網(wǎng)絡(luò)[7]編碼為圖像潛變量,并通過交叉注意力融合到生成的形狀潛變量中。

為了進(jìn)一步提供幾何和先驗(yàn)指導(dǎo),Hunyuan3D-Studio引入了兩項(xiàng)補(bǔ)充控制信號(hào):

包圍盒條件控制。對(duì)于給定的包圍盒,將其高、寬、長編碼為,具體方式為兩層 MLP。隨后,將與圖像潛變量按序列維度拼接,形成最終條件向量。

在訓(xùn)練過程中,有意對(duì)圖像或點(diǎn)云進(jìn)行微小的形變,使得圖像中的物體比例與對(duì)應(yīng)點(diǎn)云不完全一致,從而促使模型學(xué)會(huì)響應(yīng)包圍盒這一控制信號(hào)。

多視圖圖像生成條件。為充分利用圖像生成模型的強(qiáng)大能力,將多視角圖像(由擴(kuò)散模型生成)作為角色建模的額外條件約束。

△多視圖生成流程

單圖到多視圖圖像生成。如圖所示,為了從單張輸入圖像高保真地合成多視角視圖,本方案在預(yù)訓(xùn)練文本到圖像基礎(chǔ)模型之上引入輕量LoRA適配層。訓(xùn)練數(shù)據(jù)集由任意視角攝像機(jī)采集的物體中心視圖及其對(duì)應(yīng)的多視圖真實(shí)圖像對(duì)組成。

訓(xùn)練時(shí),通過模型原生的變分自編碼器(VAE)分別將單視圖輸入與多視圖目標(biāo)編碼為潛在表達(dá)。

LoRA層以兩個(gè)信息源為條件:一是無噪單視圖圖像的潛變量(與加噪的多視圖潛變量拼接用于結(jié)構(gòu)引導(dǎo));二是借助預(yù)訓(xùn)練 SigLIP 視覺編碼器提取的輸入圖像語義條件向量。最終用標(biāo)準(zhǔn)流匹配損失優(yōu)化LoRA參數(shù)。

多視圖條件注入。與單圖條件類似,首先將所有視角圖像編碼為圖像潛變量。每個(gè)除原始圖像外的視圖都注入一個(gè)帶固定索引的正弦位置編碼。其后,所有生成視圖的潛變量與原始圖像潛變量在序列維度拼接,形成最終條件向量。

△包圍盒條件控制生成效果

△多視圖條件控制生成效果展示

低模拓?fù)?/span>

在幾何生成高?;蛴脩籼峁┑哪P突A(chǔ)上,低模拓?fù)淠K的目標(biāo)是生成干凈、符合美術(shù)規(guī)范的拓?fù)浣Y(jié)構(gòu)。

盡管在高保真幾何生成模塊或組件拆分模塊已經(jīng)生成了精致的形狀,這些形狀通常由大量雜亂的三角面組成,難以直接用于下游應(yīng)用(如語義UV展開和綁定)。

因此,采用自回歸模型,直接從生成形狀的點(diǎn)云預(yù)測低模拓?fù)涞捻旤c(diǎn)和面。

△低模拓?fù)湔w結(jié)構(gòu)圖

網(wǎng)格分詞化(Mesh Tokenization)。為了以下一個(gè)token預(yù)測范式建模網(wǎng)格,第一步是將其分詞為一維序列。

采用了Blocked and Patchified Tokenization (BPT)作為網(wǎng)格的基礎(chǔ)分詞方法。具體來說,BPT結(jié)合了兩個(gè)核心機(jī)制:

1)塊級(jí)索引(Block-wise Indexing),它將三維坐標(biāo)劃分為離散空間塊,將笛卡爾坐標(biāo)轉(zhuǎn)化為塊偏移索引,以利用空間的局部性;

2)Patch聚合(Patch Aggregation),通過選取高度數(shù)頂點(diǎn)作為patch中心,將相連面片聚合為統(tǒng)一的patch,進(jìn)一步壓縮面片級(jí)數(shù)據(jù)。每個(gè)patch以中心頂點(diǎn)及其外圍頂點(diǎn)的順序進(jìn)行編碼,減少了頂點(diǎn)的重復(fù),提高了空間一致性。通過BPT,模型的訓(xùn)練和推理效率都得到了顯著提升。

網(wǎng)絡(luò)結(jié)構(gòu)。低模拓?fù)淠K的網(wǎng)絡(luò)結(jié)構(gòu)由點(diǎn)云編碼器和自回歸網(wǎng)格解碼器組成。點(diǎn)云編碼器主要受到Michelangelo和 Hunyuan3D系列的啟發(fā),采用Perceiver架構(gòu),將點(diǎn)云編碼為條件編碼cp。

隨后,采用Hourglass Transformer作為網(wǎng)格解碼器骨干,通過交叉注意力層以點(diǎn)云token作為條件進(jìn)行解碼。

訓(xùn)練和推理策略。網(wǎng)格token的分布由帶參數(shù)的Hourglass Transformer建模,通過最大化對(duì)數(shù)概率進(jìn)行訓(xùn)練。不同的條件cp通過交叉注意力(cross-attention)融合進(jìn)模型。

為了進(jìn)一步利用高多邊形網(wǎng)格數(shù)據(jù)并提升訓(xùn)練效率,本方案采用了截?cái)嘤?xùn)練策略(truncated training strategy)。具體來說,每次訓(xùn)練迭代時(shí),會(huì)隨機(jī)選取長度為固定面數(shù)(如4k面)的網(wǎng)格序列片段進(jìn)行訓(xùn)練。而在推理階段,我們應(yīng)用滾動(dòng)緩存(rolling cache)策略,以縮小訓(xùn)練和推理階段之間的差異。

基于拓?fù)涓兄诖a的DPO網(wǎng)格生成后訓(xùn)練。本方案建立了一條用于第二階段微調(diào)的偏好數(shù)據(jù)集構(gòu)建流程,該流程包含候選生成、多指標(biāo)評(píng)估和偏好排序。對(duì)于每個(gè)輸入點(diǎn)云P ,我們利用預(yù)訓(xùn)練模型生成八個(gè)候選網(wǎng)格。

每個(gè)候選網(wǎng)格會(huì)通過三項(xiàng)指標(biāo)進(jìn)行評(píng)估:邊界邊比(Boundary Edge Ratio, BER)和拓?fù)浞謹(jǐn)?shù)(Topology Score, TS)用于衡量拓?fù)滟|(zhì)量,豪斯多夫距離(Hausdorff Distance, HD)用于衡量幾何一致性。

當(dāng)且僅當(dāng)滿足以下條件時(shí),偏好關(guān)系被定義:

從所有兩兩比較中整理出偏好三元組,以構(gòu)建數(shù)據(jù)集。

為了解決局部幾何缺陷和面密度不一致的問題,采用了掩碼直達(dá)偏好優(yōu)化(Masked Direct Preference Optimization, M-DPO),它在DPO的基礎(chǔ)上擴(kuò)展了質(zhì)量感知的定位掩碼。本節(jié)定義了一個(gè)二值掩碼函數(shù),該函數(shù)用于根據(jù)每個(gè)面的質(zhì)量評(píng)估將高質(zhì)量區(qū)域(值為1)與低質(zhì)量區(qū)域(值為0)區(qū)分開來。

每個(gè)區(qū)域?qū)?yīng)于塊補(bǔ)丁分詞(block patch tokenization, BPT)中的一個(gè)子序列。只有當(dāng)子序列中的所有面片的四邊形比例超過預(yù)設(shè)閾值且平均拓?fù)浞謹(jǐn)?shù)超出另一閾值時(shí),該子序列才會(huì)被判定為高質(zhì)量區(qū)域。令為凍結(jié)的參考模型,為可訓(xùn)練策略。M-DPO的目標(biāo)函數(shù)為:

其中,正項(xiàng)和負(fù)項(xiàng)分別是:

這里,表示元素逐位相乘,范數(shù)。M-DPO實(shí)現(xiàn)了對(duì)低質(zhì)量區(qū)域的有針對(duì)性的細(xì)化,同時(shí)保持了質(zhì)量令人滿意的區(qū)域。

下圖展示了后訓(xùn)練后的改進(jìn)效果,實(shí)驗(yàn)結(jié)果表明后訓(xùn)練階段對(duì)于提升生成網(wǎng)格的完整性和拓?fù)滟|(zhì)量至關(guān)重要。

△預(yù)訓(xùn)練預(yù)后訓(xùn)練效果對(duì)比

如圖所示,本方案與現(xiàn)有的低模拓?fù)浞椒▽?duì)比如下。從圖中可以看出,本方案能夠生成結(jié)構(gòu)更復(fù)雜且拓?fù)滟|(zhì)量和穩(wěn)定性顯著提升的網(wǎng)格。

△與其他方案效果對(duì)比

△基于組件拆分Mesh的低模拓?fù)渖尚Ч?/span>

△不同面數(shù)級(jí)別低模拓?fù)湫Ч麑?duì)比

語義UV展開

傳統(tǒng)UV展開方法的結(jié)果往往缺乏語義意義,這將顯著影響后續(xù)貼圖的質(zhì)量與資源利用效率。

因此,這些傳統(tǒng)方法難以直接應(yīng)用于游戲開發(fā)、影視制作等專業(yè)流水線。為應(yīng)對(duì)這一挑戰(zhàn),本節(jié)提出了一個(gè)通過自回歸方式生成藝術(shù)家風(fēng)格裁切縫的新型框架SeamGPT。

將曲面裁切問題建模為序列預(yù)測任務(wù),將裁切縫表示為有序的三維線段序列。給定輸入網(wǎng)格M,目標(biāo)是生成縫邊。SeamGPT的整體流程如下圖所示。

△SeamGPT整體架構(gòu)圖

本方案采用兩種損失函數(shù)進(jìn)行模型訓(xùn)練:用于token預(yù)測的交叉熵?fù)p失和用于正則化形狀嵌入空間的KL散度損失,確保該空間保持緊湊且連續(xù)。模型經(jīng)過一周訓(xùn)練后收斂。

訓(xùn)練期間,首先將所有樣本縮放至一個(gè)立方體邊界框內(nèi),范圍為?1到1。隨后應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù),包括在 [0.95,1.05]區(qū)間內(nèi)的隨機(jī)縮放、隨機(jī)頂點(diǎn)抖動(dòng)和隨機(jī)旋轉(zhuǎn)。

△與其它方法的量化比較

△可視化對(duì)比

紋理生成與編輯

混元3D團(tuán)隊(duì)提出了一種高保真的紋理合成方法:將二維擴(kuò)散模型擴(kuò)展為幾何條件下的多視角生成模型,并通過視圖投影將其結(jié)果烘焙為高分辨率的紋理貼圖。

該體系結(jié)構(gòu)系統(tǒng)性地解決了多視角紋理生成的兩個(gè)核心挑戰(zhàn):

  1. 跨視角一致性與幾何對(duì)齊;
  2. RGB紋理向光照真實(shí)PBR材質(zhì)紋理的擴(kuò)展

本節(jié)將紋理生成框架擴(kuò)展為支持多模態(tài)紋理編輯的綜合系統(tǒng)。

首先,增強(qiáng)了現(xiàn)有的多視角基于物理渲染(PBR)材質(zhì)生成模型,以支持文本和圖像引導(dǎo)的多模態(tài)編輯。

其次,提出了一種基于材質(zhì)的三維分割方法,能夠從僅含幾何信息的輸入網(wǎng)格中生成按部件劃分的材質(zhì)分割圖,實(shí)現(xiàn)局部紋理編輯。

最后,引入了一種4K材質(zhì)球生成模型,能夠根據(jù)文本提示合成高分辨率的可平鋪紋理球,包括基礎(chǔ)色(Base Color)、金屬度(Metallic)、粗糙度(Roughness)和法線貼圖(Normal),以支持專業(yè)的藝術(shù)創(chuàng)作流程。

多模態(tài)紋理編輯。本節(jié)引入了一種文本引導(dǎo)的紋理編輯模型,該模型基于精心整理的包含8萬份高質(zhì)量PBR材質(zhì)三維資產(chǎn)的數(shù)據(jù)集進(jìn)行訓(xùn)練。

這些資產(chǎn)被渲染成多視角的HDR圖像,并借助視覺-語言模型(Vision-Language Model, VLM)生成了紋理描述性標(biāo)題和編輯指令。

利用圖像編輯模型框架,構(gòu)建了覆蓋多視角的大規(guī)模圖像編輯對(duì)。

隨后,紋理基礎(chǔ)模型從這些圖像對(duì)中推斷出一致的多視角紋理,合成了大量文本-紋理配對(duì),用于微調(diào)編輯模型。在訓(xùn)練過程中,將文本提示和參考圖像特征統(tǒng)一編碼為聯(lián)合潛變量序列。

基于基礎(chǔ)紋理生成模型,系統(tǒng)通過3萬對(duì)文本-紋理樣本實(shí)現(xiàn)端到端優(yōu)化,最終得到一個(gè)能夠在文本和視覺指導(dǎo)下進(jìn)行紋理合成與編輯的統(tǒng)一模型。

針對(duì)圖像引導(dǎo)的紋理編輯模型,提出了一種簡化的專家混合(Mixture of Experts,MoE)架構(gòu),以處理多樣化的圖像輸入。

為判斷輸入圖像是否與目標(biāo)幾何體匹配,團(tuán)隊(duì)計(jì)算幾何渲染視圖與輸入圖像之間的CLIP相似度。當(dāng)引導(dǎo)圖像與目標(biāo)網(wǎng)格具有較高的幾何對(duì)應(yīng)關(guān)系時(shí),通過變分自編碼器(VAE)編碼器注入圖像特征;

否則,采用CLIP圖像嵌入進(jìn)行特征融合,類似于IP-Adapter的方法。這種自適應(yīng)條件機(jī)制確保在任意圖像條件下實(shí)現(xiàn)魯棒的紋理編輯。

△文本和圖像引導(dǎo)的紋理編輯

上圖展示了令人驚嘆的多模態(tài)編輯效果,表明能夠?qū)τ螒蛑械奈矬w(如道具和角色)進(jìn)行多樣風(fēng)格的材質(zhì)編輯,且支持全局和局部修改。

基于材質(zhì)的3D分割。對(duì)于分割任務(wù),本方案采用了類似于PartField的分割框架。

該框架首先從輸入的點(diǎn)云或網(wǎng)格數(shù)據(jù)中提取特征,隨后基于提取的三維點(diǎn)特征進(jìn)行聚類,將三平面(triplane)表示轉(zhuǎn)換為更緊湊的VecSet表示。

特征提取模塊通過包含30萬個(gè)三維資產(chǎn)的數(shù)據(jù)集進(jìn)行端到端訓(xùn)練。

在零件標(biāo)注方面,利用了原始三維資產(chǎn)中嵌入的材質(zhì)槽和零件標(biāo)注,同時(shí)過濾掉不可靠的零件數(shù)據(jù)。

在聚類過程中,采用SAM來確定初始的聚類中心數(shù)量,從而保證聚類的魯棒性和性能。

△材質(zhì)圖生成流程

4K材質(zhì)圖生成。本節(jié)創(chuàng)新性地改編了原本用于編碼連續(xù)視頻幀的3D VAE框架,將多域材質(zhì)數(shù)據(jù)(包括渲染圖、基礎(chǔ)色、凹凸、粗糙度、金屬度等)壓縮為統(tǒng)一的潛在表示,從而實(shí)現(xiàn)可擴(kuò)展的4K分辨率紋理合成。

具體而言,通過帶有紋理的三維資產(chǎn)對(duì)3D VAE進(jìn)行微調(diào),以實(shí)現(xiàn)域不變的特征提取,得到一個(gè)PBR-VAE模塊。隨后,使用材質(zhì)球數(shù)據(jù)集對(duì)3D擴(kuò)散變壓器(Diffusion Transformer,DiT)進(jìn)行微調(diào),構(gòu)建了材質(zhì)球生成模型的核心架構(gòu)。

綁骨蒙皮&動(dòng)畫特效

本節(jié)介紹了綁骨蒙皮與動(dòng)畫特效模塊,該模塊由兩大部分組成:人形角色動(dòng)畫模塊通用角色動(dòng)畫模塊。

每個(gè)角色輸入首先經(jīng)過檢測模塊處理。如果輸入被判定為人形角色,則進(jìn)入人形動(dòng)畫分支;否則,轉(zhuǎn)入通用動(dòng)畫分支。

人形分支包括基于模板的自動(dòng)綁定模塊動(dòng)作重定向模塊。

為在骨骼生成的準(zhǔn)確性與易用性之間取得平衡,團(tuán)隊(duì)采用22個(gè)身體關(guān)節(jié)作為模板骨骼。類似構(gòu)建綁定與蒙皮模型,但與其在蒙皮預(yù)測中未融合綁定相關(guān)信息不同,本方案的模型同時(shí)整合骨骼特征和頂點(diǎn)特征,以實(shí)現(xiàn)更精確的結(jié)果。

此外,系統(tǒng)還包含姿勢標(biāo)準(zhǔn)化模塊,將用戶提供的任意姿勢模型轉(zhuǎn)換為標(biāo)準(zhǔn)的T型姿勢。將T型姿勢模型輸入動(dòng)作重定向模塊,可獲得更可靠且精確的效果。

相較之下,通用分支融合了自回歸骨骼生成模塊與幾何拓?fù)涓兄善つK。由于通用角色在骨骼拓?fù)浜完P(guān)節(jié)數(shù)量上存在差異,大多數(shù)現(xiàn)有骨骼生成方法基于自回歸技術(shù),本研究模塊即建立在這些自回歸方法之上。

關(guān)于蒙皮模塊,以往算法通常僅將網(wǎng)格頂點(diǎn)和骨骼關(guān)節(jié)作為輸入特征,較少關(guān)注它們之間的拓?fù)潢P(guān)系。相比之下,團(tuán)隊(duì)的蒙皮模塊顯式融合了這些拓?fù)潢P(guān)系,從而帶來更穩(wěn)健和穩(wěn)定的結(jié)果。

△與其它方法的綁骨蒙皮效果對(duì)比

△動(dòng)作驅(qū)動(dòng)效果展示

以上模塊通過統(tǒng)一的資產(chǎn)圖進(jìn)行協(xié)同管理,各階段輸出的元數(shù)據(jù)會(huì)傳遞至下游流程。

這種機(jī)制實(shí)現(xiàn)了參數(shù)化控制,使高層次的美術(shù)調(diào)整能夠貫穿整個(gè)管線,同時(shí)具備可逆性,支持增量式更新而無需全量重算。

最終輸出可以根據(jù)目標(biāo)游戲引擎(如Unity或Unreal Engine)的規(guī)范進(jìn)行配置與導(dǎo)出。

感興趣的朋友可戳下方鏈接體驗(yàn)~

體驗(yàn)地址:https://3d.hunyuan.tencent.com/studio

技術(shù)報(bào)告:https://arxiv.org/pdf/2509.12815


責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-09-14 10:30:27

2024-11-06 09:47:00

2015-10-10 11:10:24

重敲代碼拷貝粘貼

2025-09-28 08:55:00

2025-08-25 09:41:40

2024-09-05 16:37:37

2024-07-16 12:02:11

2024-05-22 18:10:38

2021-08-12 10:36:18

order byMySQL數(shù)據(jù)庫

2023-09-06 18:25:32

2023-01-10 19:47:47

Redis原理多線程

2017-12-26 14:17:24

潤乾報(bào)表

2021-06-15 07:15:15

Oracle底層explain

2022-01-17 20:59:37

開發(fā)group by思路

2022-04-29 16:47:57

AI騰訊

2025-08-14 18:23:20

AI視頻生成工具

2024-05-21 08:40:21

分庫分表源碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)