Text-to-3D!建筑學(xué)小哥自稱(chēng)編程菜鳥(niǎo),攢了個(gè)AI作畫(huà)三維版,還是彩色的
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
AI畫(huà)師,技術(shù)又精進(jìn)了——
直接一句話/一張圖,生成3D模型、環(huán)繞視頻、NeRF實(shí)例那種。
還是帶顏色的。
輸入“一幅美麗的花樹(shù)畫(huà),作者Chiho Aoshima,長(zhǎng)鏡頭,超現(xiàn)實(shí)主義”,就能瞬間得到一個(gè)長(zhǎng)這樣的花樹(shù)視頻,時(shí)長(zhǎng)13秒。
這個(gè)文本/圖片-3D生成AI,叫Dreamfields-3D,來(lái)自一個(gè)自稱(chēng)編程菜鳥(niǎo)的建筑學(xué)在讀博士。
Demo剛被小哥放在微博、推特等平臺(tái),許多網(wǎng)友已經(jīng)急著蹲內(nèi)測(cè)了:
現(xiàn)在,小哥已經(jīng)將它開(kāi)源,colab上也能運(yùn)行。
一起來(lái)上手玩玩看~
AI作畫(huà)3D版在線玩
Dreamfields-3D玩法十分低門(mén)檻,大致只需要三步。這里介紹一下colab上在線玩的步驟。
首先,檢查一下GPU,再安裝個(gè)谷歌驅(qū)動(dòng)器。
第二步,調(diào)出工具開(kāi)始運(yùn)行,并安裝依賴(lài)項(xiàng)。
然后定義一些必要的功能,就可以在colab上訓(xùn)練和測(cè)試了~
玩的時(shí)候需要輸入一些參數(shù),保存格式有視頻和網(wǎng)格兩種,輸出模型格式為帶頂點(diǎn)色的obj和ply。
萬(wàn)事俱備,讓我們現(xiàn)在開(kāi)始。
試試輸入“一個(gè)賽博朋克風(fēng)格的飛行霓虹燈汽車(chē),格雷格魯特科夫斯基和西蒙斯大林風(fēng)格,長(zhǎng)鏡頭,CG社會(huì),虛幻的引擎,史詩(shī)游戲”?
會(huì)得到一個(gè)果然很賽博的汽車(chē)的視頻。
如果你是《千與千尋》重度愛(ài)好者,想搞張吉卜力風(fēng)格的視頻玩玩。
沒(méi)問(wèn)題,prompt輸入“一張美麗的天空城市的插圖,吉卜力工作室,藝術(shù)站,8k HD,CG社會(huì)”,這不就來(lái)了——
有網(wǎng)友迫不及待上手,做出了個(gè)小計(jì)算機(jī)。
當(dāng)然在鵝妹子嚶的驚嘆中,也有網(wǎng)友表達(dá)了希望Dreamfields-3D更好的期許。
當(dāng)然,除了文本輸入,Dreamfield3D是支持圖片作為prompt的。
不過(guò)現(xiàn)在版本還有待完善,如果輸入圖片,會(huì)造成過(guò)擬合,簡(jiǎn)單說(shuō)就是如果喂它一張車(chē)的正面圖,生成的3D視頻中,那輛車(chē)可能4個(gè)面都是正面……
想要玩兒圖片輸入的友友們,怕是要再等等了。
基于現(xiàn)狀,小哥在GitHub表達(dá)了未來(lái)的改進(jìn)目標(biāo):
- 同時(shí)使用不同的CLIP模型。
- 僅在指定方向應(yīng)用圖像提示。未來(lái)可能要加一個(gè)圖片角度的約束,例如只有在輸入圖片相同角度時(shí),輸出才參考該圖片。
- 作為NeRF實(shí)例讀取現(xiàn)有網(wǎng)格,然后通過(guò)文本/圖像prompt進(jìn)行修改。
- 在訓(xùn)練中減少GPU RAM的使用。
(但小哥說(shuō)了,自己是個(gè)編程菜鳥(niǎo),后續(xù)可不保證哦)doge
基于谷歌Dreamfields-Torch
小哥是建筑學(xué)出身,據(jù)他講,Dreamfield3D是他從創(chuàng)作者角度出發(fā),對(duì)Dreamfield-Torch做了些優(yōu)化,主要的代碼工作還是來(lái)自上游的Dreamfields-Torch和Dreamfields。
介紹下,Dreamfields來(lái)自谷歌,它的特點(diǎn)是無(wú)需照片樣本,簡(jiǎn)簡(jiǎn)單單一句話,就能生成3D圖像,還可以生成多種物品組合成的復(fù)合結(jié)構(gòu)。
在生成3D場(chǎng)景時(shí),通常會(huì)選用神經(jīng)輻射場(chǎng)(NeRF)參數(shù)方案。
NeRF的特點(diǎn)是可分別渲染場(chǎng)景,但需要很多張3D照片,才能實(shí)現(xiàn)360°視覺(jué)重建。
相比之下,Dreamfields生成3D模型不需要照片,因?yàn)樗贜eRF 3D場(chǎng)景技術(shù)、OpenAI文本生成模型DALL·E以及CLIP的3D生成系統(tǒng)開(kāi)發(fā),通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)儲(chǔ)存3D模型。
DALL·E和CLIP同樣師出谷歌,前者通過(guò)文本生成圖像,后者通過(guò)文本分類(lèi)圖片。用CLIP來(lái)分類(lèi)DALL·E生成的圖像,可以提升圖像生成的準(zhǔn)確性。
Dreamfields-Torch則是一個(gè)經(jīng)過(guò)修改的Dreamfields的Pytorch實(shí)現(xiàn),主要是把原Dreamfields的后端,從原始NeRR換成了instant-ngp。
以此為基礎(chǔ),小哥做出的Dreamfields-3D基本上靠CLIP + NERF運(yùn)作。
作者簡(jiǎn)介
作者蒙勝宇(Simon Meng),奧地利因斯布魯克大學(xué)(UIBK)建筑學(xué)在讀博士。
碩士畢業(yè)于倫敦大學(xué)學(xué)院(UCL)建筑學(xué),現(xiàn)為UIBK及UCL技術(shù)課程助教及特邀評(píng)圖嘉賓,從事建筑設(shè)計(jì)、藝術(shù)、AI及生物學(xué)跨領(lǐng)域研究。
小哥從去年6、7月份開(kāi)始關(guān)注AI圖像生成。
他發(fā)現(xiàn),很多破圈技術(shù),如clip guide diffusion,disco diffusion,都是一些懂代碼的跨界者做的。
去年年末谷歌發(fā)布Dreamfields,他就動(dòng)了用它做3D輸出的心思。
于是,在拿到動(dòng)畫(huà)后,他用AI做了超采樣放大和插幀,然后導(dǎo)出幀到普通的多目重建軟件(類(lèi)似colmap),成功重建mesh(一個(gè)用3D模型數(shù)據(jù)還原的模型圖)。
小哥把mesh發(fā)在推特上,結(jié)果Dreamfields論文的原作者Ajay Jain聯(lián)系到他,表示了歡迎,還鼓勵(lì)他保持優(yōu)化更新——雖然那時(shí)候他用的是普通航拍實(shí)景重建軟件,不是編程方法。
上個(gè)月,小哥在Dreamfield-Torch的基礎(chǔ)上做了colab版,本月在GitHub開(kāi)源,讓大家能夠愉快地玩耍。
以及,現(xiàn)在這個(gè)已經(jīng)是基于Marching cubes的船新版本啦~
GitHub地址:https://github.com/shengyu-meng/dreamfields-3D
colab地址:https://colab.research.google.com/drive/1u5-zA330gbNGKVfXMW5e3cmllbfafNNB?usp=sharing#scrollTo=_VDLFG_gUEKa