LLM一句話(huà)瞬間生成3D世界,未公布代碼已獲141星!或?qū)⒁l(fā)3D建模行業(yè)革命
繼火爆全網(wǎng)的AI文生圖,文生視頻之后,文生3D場(chǎng)景的技術(shù)也來(lái)了!

只要不到30個(gè)字的提示詞,瞬間就能生成這樣的3D場(chǎng)景。

場(chǎng)景效果和文字的要求幾乎分毫不差——「平靜如玻璃的湖面,倒映出無(wú)云的天空,周?chē)纳胶退B(niǎo)的倒影呈現(xiàn)在湖中。」

「烈日照耀在無(wú)垠的沙漠之上,倔強(qiáng)生長(zhǎng)的植物投下了明顯的陰影。大風(fēng)把小沙丘雕刻成一片金色的土地。」
而且針對(duì)生成的場(chǎng)景,還支持對(duì)不同的元素進(jìn)行連續(xù)地修改和編輯!
網(wǎng)友看到效果之后驚呼,「我一輩子就在等這一刻了!」

研究團(tuán)隊(duì)計(jì)劃在論文被接受后就在Github上公布項(xiàng)目的代碼,但是在代碼還未公布之時(shí),這個(gè)項(xiàng)目就已經(jīng)獲得141顆星!

這個(gè)項(xiàng)目是由澳國(guó)立、牛津和智源研究院的科研人員開(kāi)發(fā)的「3D-GPT」系統(tǒng),它可以簡(jiǎn)單地根據(jù)用戶(hù)提供的文本描述生成各種各樣的3D模型和場(chǎng)景。

項(xiàng)目地址:https://chuny1.github.io/3DGPT/3dgpt.html
和文生圖依賴(lài)的獨(dú)立模型不同,3D-GPT依然還是利用了大型語(yǔ)言模型(LLM)的多模態(tài)和推理能力,將3D建模任務(wù)分解成多個(gè)子任務(wù),由不同的代理完成,包括任務(wù)調(diào)度代理、概念化代理和建模代理。

研究人員表示,3D-GPT 將LLM定位為熟練的問(wèn)題解決者,將程序性3D建模任務(wù)分解為可訪(fǎng)問(wèn)的部分,并為每個(gè)任務(wù)指定合適的代理。

而且整套系統(tǒng)無(wú)需任何訓(xùn)練,無(wú)需訓(xùn)練即可完成從文本到參數(shù)提取再到3D建模的過(guò)程。
具體來(lái)說(shuō),任務(wù)調(diào)度代理負(fù)責(zé)根據(jù)指令選擇適當(dāng)?shù)某绦蛏珊瘮?shù)。概念化代理對(duì)文本描述進(jìn)行推理,補(bǔ)充缺失的細(xì)節(jié)。

建模代理推斷函數(shù)參數(shù),生成Python代碼,通過(guò)API控制3D建模軟件Blender來(lái)進(jìn)行建模。

這套系統(tǒng)與Blender無(wú)縫集成,支持物體變形、材質(zhì)調(diào)整、網(wǎng)格編輯、物理模擬等多種操作。

而且3D GPT框架可以增強(qiáng)用戶(hù)提供的簡(jiǎn)短場(chǎng)景描述,使之變得更加詳細(xì),更加符合上下文。同時(shí)整合了程序生成方法,從豐富的文本中提取參數(shù)控制3D建模軟件。
而且因?yàn)長(zhǎng)LM能夠提供優(yōu)秀的語(yǔ)意理解和上下文能力,使得3D GPT能夠生成各種各樣的3D資產(chǎn),而且支持連續(xù)地,有針對(duì)性地編輯和修改能力。

3D-GPT可以進(jìn)行精細(xì)的對(duì)象控制,包括形狀、曲線(xiàn)和細(xì)節(jié)的捕捉,從而產(chǎn)生細(xì)節(jié)豐富的建模。同時(shí)也可以操控大場(chǎng)景的生成。

而且3D GPT支持連續(xù)的指令輸入,可以進(jìn)行場(chǎng)景的編輯和修改。系統(tǒng)能夠記住之前的修改,使新指令與場(chǎng)景上下文相連結(jié),讓使用者可以對(duì)已經(jīng)生成的場(chǎng)景進(jìn)行持續(xù)的編輯和修改。

而且,3D-GPT還支持通過(guò)自然語(yǔ)言針對(duì)某一項(xiàng)單獨(dú)元素和功能的持續(xù)編輯,例如下圖表明,用戶(hù)可以通過(guò)變換輸入的要求,單獨(dú)針對(duì)天氣效果進(jìn)行修改。

3D-GPT
任務(wù)定義
整體目標(biāo)是基于一系列自然語(yǔ)言指令來(lái)生成3D內(nèi)容。
其中,初始指令L0充當(dāng)了對(duì)3D場(chǎng)景的全面描述,比如“一個(gè)多霧的春天早晨,露水親吻的花朵點(diǎn)綴在被新發(fā)芽的樹(shù)木環(huán)繞的郁郁蔥蔥的草地上”。
后續(xù)的指令用于修改現(xiàn)有的場(chǎng)景,例如指令如“將白色花朵變?yōu)辄S色花朵”或“將場(chǎng)景轉(zhuǎn)換為冬季環(huán)境”。
為了完成這一目標(biāo),研究人員引入了一個(gè)名為3D-GPT的框架,它使大型語(yǔ)言模型(LLM)能夠充當(dāng)解決問(wèn)題的代理。
模型準(zhǔn)備
研究人員指出,讓LLM直接創(chuàng)建每一個(gè)3D內(nèi)容的元素面臨重大挑戰(zhàn)。由于缺乏專(zhuān)門(mén)的預(yù)訓(xùn)練數(shù)據(jù),LLM在熟練的3D建模方面可能存在困難,因此,它們可能難以準(zhǔn)確判斷基于給定指令應(yīng)該修改哪些元素以及如何修改它們。
為了應(yīng)對(duì)這個(gè)問(wèn)題,在研究人員的框架中,他們利用之前研究中的一個(gè)基于Python-Blender的過(guò)程生成器Infinigen,它配備了豐富的生成函數(shù)庫(kù)。
為了使LLMs能夠熟練地運(yùn)用Infinigen,研究人員為每一個(gè)函數(shù)提供關(guān)鍵提示。這些提示包括函數(shù)文檔,容易理解的代碼,所需信息,以及用法示例。
通過(guò)為L(zhǎng)LM提供這些資源,研究人員使它們能夠發(fā)揮其在規(guī)劃、推理和工具利用方面的核心能力。因此,LLMs能夠有效地利用Infinigen進(jìn)行基于語(yǔ)言指令的3D生成,這一過(guò)程是無(wú)縫和高效的。
用于3D推理、規(guī)劃和工具使用的多代理系統(tǒng)
在工具準(zhǔn)備完成后,3D-GPT采用一個(gè)多代理系統(tǒng)來(lái)處理過(guò)程式3D建模任務(wù)。
該系統(tǒng)包含三個(gè)核心代理:任務(wù)調(diào)度代理、概念化代理和建模代理,如下圖1所示。

它們共同將過(guò)程式3D建模任務(wù)分解為可管理的部分,每個(gè)代理專(zhuān)注于不同方面:3D推理、規(guī)劃和工具使用。
任務(wù)調(diào)度代理在規(guī)劃過(guò)程中起到關(guān)鍵作用。它利用用戶(hù)指令查詢(xún)函數(shù)文檔,并隨后選擇必要的函數(shù)進(jìn)行執(zhí)行。
一旦選擇了函數(shù),概念化代理就會(huì)通過(guò)推理來(lái)豐富用戶(hù)提供的文本描述。
在此基礎(chǔ)上,建模代理推斷出每個(gè)選定函數(shù)的參數(shù),并生成Python代碼腳本以調(diào)用Blender的API,從而促進(jìn)相應(yīng)3D內(nèi)容的創(chuàng)建。此外,還可以使用Blender的渲染功能來(lái)生成圖像。
任務(wù)調(diào)度代理用于規(guī)劃
任務(wù)調(diào)度代理掌握了所有可用函數(shù)F的全面信息,能夠高效地識(shí)別每個(gè)指令輸入所需的函數(shù)。例如,當(dāng)出現(xiàn)“將場(chǎng)景轉(zhuǎn)換為冬季環(huán)境”的指令時(shí),它會(huì)精確地找到像add_snow_layer()和update_trees()這樣的函數(shù)。
任務(wù)調(diào)度代理的這一關(guān)鍵角色有助于在概念化代理和建模代理之間進(jìn)行高效的任務(wù)協(xié)調(diào)。
如果沒(méi)有它,概念化和建模代理必須為每個(gè)給定指令分析所有提供的函數(shù)F,這不僅增加了這些代理的工作量,還延長(zhǎng)了處理時(shí)間,并可能導(dǎo)致意外出現(xiàn)的修改。
LLM系統(tǒng)、用戶(hù)和任務(wù)調(diào)度代理之間的通信流程如下:

概念化代理用于推理
描述可能沒(méi)有明確提供用于建模所需的詳細(xì)外觀(guān)描述。例如,考慮描述:“一個(gè)多霧的春天早晨,露水親吻的花朵點(diǎn)綴在被新發(fā)芽的樹(shù)木環(huán)繞的郁郁蔥蔥的草地上?!?/span>

當(dāng)使用需要如樹(shù)枝長(zhǎng)度、樹(shù)大小和葉子類(lèi)型這樣的參數(shù)的樹(shù)建模函數(shù)時(shí),很明顯,這些具體細(xì)節(jié)并沒(méi)有直接在給定文本中說(shuō)明。
當(dāng)指示建模代理直接推斷參數(shù)時(shí),它往往會(huì)提供簡(jiǎn)單的解決方案,比如從參數(shù)文檔中使用默認(rèn)或合理的值,或者從提示示例中復(fù)制值。這降低了生成的多樣性并參數(shù)推斷的過(guò)程更加復(fù)雜了。
建模代理可以使用工具
在概念化之后,3D建模處理目標(biāo)是將詳細(xì)的人類(lèi)語(yǔ)言轉(zhuǎn)換為機(jī)器可理解的語(yǔ)言。

Blender渲染
建模代理最終提供了帶有推斷參數(shù)的Python函數(shù)調(diào)用,這些參數(shù)用于Blender節(jié)點(diǎn)控制和渲染,從而生成最終的3D網(wǎng)格和RGB結(jié)果。
生成效果編輯和修改實(shí)驗(yàn)
研究人員的實(shí)驗(yàn)首先通過(guò)展示3D-GPT在一致生成與用戶(hù)指令對(duì)應(yīng)的結(jié)果方面的高效性來(lái)開(kāi)始,涵蓋了涉及大型場(chǎng)景和單個(gè)對(duì)象的各種情境。
隨后,研究人員深入探討了特定實(shí)例,以說(shuō)明研究人員的代理如何有效地理解工具功能、獲取必要的知識(shí),并將其用于精確控制。為了深化研究人員的理解,研究人員進(jìn)行了消融研究,系統(tǒng)地檢查了研究人員多代理系統(tǒng)中每個(gè)代理的貢獻(xiàn)。
3D建模
大型場(chǎng)景生成
研究人員調(diào)查了3D-GPT基于場(chǎng)景描述控制建模工具的能力。
為了進(jìn)行這個(gè)實(shí)驗(yàn),研究人員使用ChatGPT生成了100個(gè)場(chǎng)景描述,提示如下:“你是一名優(yōu)秀的作家,請(qǐng)為我提供10個(gè)不同的自然場(chǎng)景描述?!?/span>
研究人員收集了對(duì)這一提示的10次回應(yīng)以形成他們的數(shù)據(jù)集。在下圖2中,研究人員展示了3D-GPT的多視圖渲染結(jié)果。

結(jié)果表明,研究人員的方法能夠生成與提供的文本描述大致一致的大型3D場(chǎng)景,并展示了顯著的多樣性。
值得注意的是,所有3D成果都是直接使用Blender渲染的,確保所有網(wǎng)格都是真實(shí)的,從而使研究人員的方法能夠?qū)崿F(xiàn)絕對(duì)的3D一致性,并生成真實(shí)的光線(xiàn)追蹤渲染結(jié)果。
單一類(lèi)別的細(xì)節(jié)控制
除了從簡(jiǎn)潔描述中生成大型場(chǎng)景外,研究人員還評(píng)估了3D-GPT在建模對(duì)象方面的能力。研究人員評(píng)估了諸如曲線(xiàn)建模、形狀控制和對(duì)對(duì)象外觀(guān)深入理解等關(guān)鍵因素。
為此,研究人員展現(xiàn)了細(xì)粒度對(duì)象控制的結(jié)果。這包括從輸入文本描述中派生的細(xì)微方面,如對(duì)象曲線(xiàn)、關(guān)鍵外觀(guān)特征和顏色。
研究人員使用隨機(jī)提示來(lái)指導(dǎo)GPT生成各種現(xiàn)實(shí)世界中的花朵類(lèi)型。如圖下3所示,研究人員的方法熟練地為每種花朵類(lèi)型進(jìn)行了建模,忠實(shí)地捕捉了它們不同的外觀(guān)。

這項(xiàng)研究強(qiáng)調(diào)了3D-GPT在實(shí)現(xiàn)精確對(duì)象建模和細(xì)粒度屬性控制方面的潛力。
子序列指令編輯
研究人員測(cè)試了3D-GPT在有效的人-代理通信和任務(wù)操縱方面的能力。
在下圖4中,研究人員觀(guān)察到研究人員的方法能夠理解子序列指令并做出準(zhǔn)確的場(chǎng)景修改決策。

值得注意的是,與現(xiàn)有的文本到3D方法不同,3D-GPT保留了所有先前修改的記憶,從而有助于將新指令與場(chǎng)景的上下文連接起來(lái)。
此外,研究人員的方法消除了對(duì)可控編輯的額外網(wǎng)絡(luò)的需要。這項(xiàng)研究強(qiáng)調(diào)了3D-GPT在熟練處理復(fù)雜子序列指令用于3D建模方面的效率和多功能性。
單一函數(shù)控制
為了評(píng)估3D-GPT在工具使用方面的有效性,研究人員展示了一個(gè)說(shuō)明性示例,突出了研究人員的方法在控制單一函數(shù)和推斷參數(shù)方面的能力。
下圖5舉例說(shuō)明了3D-GPT基于輸入文本描述來(lái)建模天空外觀(guān)的能力。

負(fù)責(zé)生成天空紋理的函數(shù)并不直接將顏色信息與天空外觀(guān)相關(guān)聯(lián)。相反,它依賴(lài)于Nishita天空建模方法,該方法需要對(duì)現(xiàn)實(shí)世界的天空和天氣狀況有深刻的理解,并考慮輸入?yún)?shù)。
研究人員的方法熟練地從文本輸入中提取關(guān)鍵信息,并理解每個(gè)參數(shù)如何影響最終的天空外觀(guān),如圖5(c)和(d)所示。這些結(jié)果表明,研究人員的方法可以有效地使用單一函數(shù)以及推斷相應(yīng)的參數(shù)。



































