偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散

發(fā)布于 2024-6-5 10:29
瀏覽
0收藏

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2310.05375

代碼鏈接:https://github.com/zengbohan0217/IPDreamer


最近文本到3D生成以及單張圖片到3D生成驚艷的生成結(jié)果引來了越來越多研究者們的關(guān)注,然而這兩個方向都存在有各自小小的局限性,首先文本到3D生成的結(jié)果難以準確地控制生成結(jié)果的外觀,而單張圖片到3D生成雖然可以確定生成3D結(jié)果的外觀,但是目前主要的單張圖片到3D生成方法還是只能處理主體比較明確的圖片,難以處理復(fù)雜的圖片,并且約束比較強,無法靈活地控制生成結(jié)果。

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

圖1

基于以上問題,本文工作向3D生成過程中引入了image prompt adaption,能夠利用圖片提示詞的特征來優(yōu)化3D物體的幾何細節(jié)以及材質(zhì)顏色,從而實現(xiàn)靈活、可控且高質(zhì)量的3D生成。如圖1所示,我們可以將主體并不明確的復(fù)雜圖片風(fēng)格高質(zhì)量地遷移到粗糙的3D物體上。并且在文本到3D生成的效果上,我們的方法比DreamFusion、Magic3D、Fantasia3D以及ProlificDreamer等SOTA方法表現(xiàn)更好。

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

IPDreamer框架圖

下面舉一個例子展示優(yōu)化過程:

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

我們提出image prompt score distillation(IPSD),分別利用復(fù)雜圖片的法向圖以及圖片本身對應(yīng)的圖片提示詞特征來優(yōu)化3D物體的幾何細節(jié)以及顏色質(zhì)地。


同時我們分析了為什么image prompt adaption可以很好地將復(fù)雜圖片提示詞的特征有效地定位到3D物體上。在優(yōu)化過程中,圖片提示詞所對應(yīng)的交叉注意力機制層計算得到的注意力圖會一一將復(fù)雜圖片提示詞不同部分的特征定位到3D物體2D渲染圖最合適的位置上。經(jīng)過多輪的優(yōu)化,復(fù)雜圖片的特征可以非常好地定位到3D物體上。

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

同一個3D物體使用不同的圖片提示詞進行編輯可以展現(xiàn)出更豐富的效果,大大擴充了3D生成的豐富性。

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

甚至當(dāng)被編輯的3D物體與提供的圖片提示詞形象上差異比較大的時候也可以很好地實現(xiàn)生成



我們還發(fā)現(xiàn),當(dāng)被引導(dǎo)的粗糙的NeRF模型與復(fù)雜圖片提示詞有巨大差異時,僅僅使用交叉注意力機制曾進行特征定位難以生成理想的3D物體,為此我們提出了local editing with partial images(LEPI)策略來改進特征定位,從而更加靈活可控地生成理想的3D物體。我們借助多模態(tài)大模型以及SAM將復(fù)雜圖片提示詞分為若干個“部分圖片”,如圖5所示,同時每一個“部分圖片”被提供了一個單詞描述,我們借助這個描述在交叉注意力層中計算對應(yīng)的mask,利用這個mask將對應(yīng)的“部分圖片”的特征定位到3D物體上。

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

圖5

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

一些極端情況下,利用LEPI確實能產(chǎn)生更好的效果

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

更多的生成結(jié)果,證明了LEPI,即我們IPDreamer方法的穩(wěn)定性與泛化性

此外我們的方法還可以完成文本到3D生成,如圖8所示,我們的方法相較于以往的文本到3D生成方法,可以生成更加高質(zhì)量的復(fù)雜的3D物體。

超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴散-AI.x社區(qū)

圖8

本文轉(zhuǎn)自 AI生成未來 ,作者:大仲馬


原文鏈接:??https://mp.weixin.qq.com/s/YDl-TSDPoqwR10HLiRVrhA??

標簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦