作者 | 徐杰承
51CTO讀者成長計劃社群招募,咨詢小助手(微信號:CTOjishuzhan)
生成式AI不再滿足于文本和圖像,將戰(zhàn)場擴(kuò)展到三維了!
眾所周知,GPT-4作為目前全世界最先進(jìn)的多模態(tài)大模型,其在對話、文生圖領(lǐng)域的能力可以說幾乎無人能出其右。而如今,GPT-4母公司OpenAI決定再次對其所擁有的疆域進(jìn)行擴(kuò)張。
就在上周,OpenAI悄悄發(fā)布了最新的文字生成3D模型Shap·E,并一改此前的“保守態(tài)度”在Github上對該模型進(jìn)行了開源(項目地址:https://github.com/openai/shap-e,截止發(fā)稿前Stars已經(jīng)5.5K)。就連OpenAI總裁Greg Brockman也親自發(fā)推為Shap·E打了一波廣告。
1、Shap·E能做什么?
根據(jù)Github和相關(guān)論文介紹,Shap·E是OpenAI最新提出的一款三維資產(chǎn)的條件生成模型,當(dāng)在大數(shù)據(jù)集中訓(xùn)練成對的文本數(shù)據(jù)及3D模型后,Shap·E能夠在極短時間內(nèi)反饋復(fù)雜多樣的3D資產(chǎn)。簡而言之,當(dāng)用戶輸入一段簡單的文字描述后,Shap·E在幾秒鐘內(nèi)便能為用戶生成對應(yīng)的3D建模。
與其他單一輸出表示的3D生成模型不同,Shap·E采用了3D模型領(lǐng)域創(chuàng)新的隱式神經(jīng)表示(INR),支持神經(jīng)輻射場(NeRF)和紋理網(wǎng)格(DMTet)兩種方法。這意味著Shap·E可以直接生成可渲染的隱式函數(shù)的參數(shù),從而更快、更準(zhǔn)確地生成3D建模。
對于Shap·E的突然問世,部分用戶及業(yè)內(nèi)人士猜測,OpenAI很有可能正在為GPT-4到GPT-4.5的升級進(jìn)行準(zhǔn)備,經(jīng)歷下一個大階段升級后的ChatGPT將很有可能會新增生成3D建模的能力。
2、Shap·E的技術(shù)創(chuàng)新
與此前業(yè)內(nèi)所發(fā)布的其他的文生3D模型相比,Shap·E擁有更快的收斂速度,且所生成的3D建模擁有更高的質(zhì)量。這主要是由于研發(fā)團(tuán)隊在模型訓(xùn)練過程中采用了神經(jīng)輻射場(NeRF)技術(shù)并利用潛在向量序列代替了點云模式。
作為一種基于神經(jīng)網(wǎng)絡(luò)的3D重建技術(shù),NeRF能夠?qū)鼍敖3梢粋€連續(xù)的5D輻射場隱式存儲在神經(jīng)網(wǎng)絡(luò)之中,只需輸入多角度2D圖像,便能通過訓(xùn)練得到完整的輻射場模型并根據(jù)模型渲染出任意視角下建模的清晰圖像。相當(dāng)于從2D圖像中組建出模型的3D畫面,從而實現(xiàn)對物體的精確定位。
除此之外,NeFR的另一個優(yōu)勢在與其能夠在低功耗的設(shè)備上進(jìn)行渲染。高質(zhì)量的NeRF甚至能夠在手機(jī)或網(wǎng)絡(luò)瀏覽器上完成對復(fù)雜形狀光線追蹤、高幀率、高分辨率逼真場景的渲染。除此之外NeFR還能夠處理透明和反射材料,使得虛擬建模更加逼真。
然而,雖然相比于傳統(tǒng)的基于集合的建模方法,NeRF在處理光線、反射等問題方面擁有更強(qiáng)的性能,但該技術(shù)也擁有兩個較為明顯的缺點——算力消耗大與圖像生成速度慢。
為解決該問題,研發(fā)團(tuán)隊將Shap·E的訓(xùn)練分為了兩個階段,首先對編碼器訓(xùn)練,使編碼器能將3D資產(chǎn)映射到隱式函數(shù)參數(shù)中;其次在編碼器的輸出上訓(xùn)練條件擴(kuò)散模型。與此前不同的是,Shap·E使用潛在向量序列代替了點云模式,可同時生成NeRF和DMTet并允許它們以多種方式呈現(xiàn)。
這也使得利用新方法訓(xùn)練的Shap·E模型與其他文生3D模型相比擁有更高的推理能力、3D模型生成質(zhì)量以及模型生成效率。與此同時,也使模型的算力消耗保持在了一個相對較低的水平。
3、缺陷與局限性
當(dāng)然,即便Shap·E的綜合能力相比于現(xiàn)階段同類型模型算得上優(yōu)秀,但畢竟對目前的科技基礎(chǔ)而言,我們在文生3D建模領(lǐng)域的技術(shù)積累還是要弱于對話以及文生圖領(lǐng)域。
雖然Shap·E可以理解很多具有簡單屬性的單個對象的提示,但其在構(gòu)建概念方面的能力依然比較有限。在實驗中,研究人員發(fā)現(xiàn)該模型很難將多個屬性綁定到不同對象,并且在用戶要求生成多個3D建模時,Shap·E有時無法生成正確數(shù)量的對象。
除此之外,雖然Shap·E通常能夠根據(jù)描述生成可是別的3D建模,但生成樣本通??雌饋砺燥@粗糙或者缺少精致的細(xì)節(jié),并且編碼器本身有時就會丟失一些細(xì)節(jié)紋理。
為了獲得更好的效果,研發(fā)人員正在計劃嘗試將Shap·E與基于優(yōu)化的3D生成技術(shù)相結(jié)合。例如將Shep·E生成的NeRF或網(wǎng)格用于初始化基于優(yōu)化的方法;或者將基于圖像的物鏡用于指導(dǎo)建模形狀的取樣過程。然而目前以上方式仍處于研發(fā)和測試過程。
有業(yè)內(nèi)相關(guān)的算法工程師建議,這個項目的門檻較高,吃瓜群眾還是別浪費時間跑了,而且效果目前也沒有達(dá)到圖片生成那種驚艷的效果,不能直接用來做一些素材的生產(chǎn)。
4、文生3D的未來
在ChatGPT引領(lǐng)人們進(jìn)入AI2.0時代后,在極短的時間內(nèi),人們對AI的渴望便已經(jīng)從簡單的文本、圖像擴(kuò)展到了視頻甚至三維領(lǐng)域。事實上,如今也已有不少科技企業(yè)正在朝向文生3D的領(lǐng)域邁進(jìn)。
去年年底,NVIDIA研究院便發(fā)布了Magic3D文本生成3D模型,可以用于創(chuàng)建較高質(zhì)量的三位網(wǎng)格模型,并支持圖像生成和基于提示的圖像編輯。谷歌也在數(shù)月前開放了自己的神經(jīng)網(wǎng)絡(luò)Imagen,其可以在不經(jīng)過人工數(shù)據(jù)標(biāo)注的情況下實現(xiàn)從文本描述生成三維模型,并能處理較為復(fù)雜的文本輸入。
而就在近日,一款名為ChatAvatar的專注于人物面部文生3D模型的產(chǎn)品也已開啟公測,并快速獲得了70余萬瀏覽與關(guān)注。截止目前,不少用戶已經(jīng)利用該產(chǎn)品創(chuàng)建出了逼真度極高的個人專屬3D形象。
就目前而言,在以游戲、影視、建筑設(shè)計為代表的行業(yè)中,3D內(nèi)容的生產(chǎn)與消費市場其實已經(jīng)非常龐大,但在過去大量的內(nèi)容生產(chǎn)受限于較高的技術(shù)要求,使得只有少部分具備專業(yè)技能的從業(yè)者能夠參與其中,但隨著文生3D模型及產(chǎn)品的逐漸成熟,這種情況將很有可能會被顛覆。
除此之外,盡管現(xiàn)階段文生3D模型或衍生產(chǎn)品在建模細(xì)節(jié)和精度方面仍有所欠缺,但已有部分業(yè)內(nèi)人士開始嘗試將文生圖工具如Midjourney與之結(jié)合,以改善所生成模型的細(xì)節(jié)質(zhì)量。一旦將來文生3D建模的技術(shù)更加成熟,大量行業(yè)的產(chǎn)出和進(jìn)化速度都將實現(xiàn)飛躍。
5、更廣闊的想象空間
文生3D的研究是一個非常重要的方向,作為如今AI領(lǐng)域走在最前沿的探路者,OpenAI發(fā)布Shap·E可以說也在一定程度上證實了這個理論。
在文生3D領(lǐng)域,文本作為一種更通用且更簡單的媒介,可以很好的表達(dá)和傳播3D內(nèi)容,使用戶能夠通過文本實現(xiàn)對大量三維內(nèi)容的創(chuàng)作、修改及傳播,為用戶提供更加方便且友好的三維內(nèi)容交互及共享機(jī)制。
高質(zhì)量的文生3D模型在未來也將擁有非常廣泛的應(yīng)用場景,如游戲、動畫、建筑、教育、醫(yī)療、娛樂等;包括VR/AR、3D打印等業(yè)務(wù)場景,文生3D工具都能夠為其提供不容小覷的效率提升。
文生3D工具可以讓沒有復(fù)雜建模軟件基礎(chǔ)及設(shè)計能力的用戶通過簡單的文本描述生成自己所需的高質(zhì)量的3D模型。而對于專業(yè)的建模師來說,此類模型或衍生工具的問世也將能夠大幅提升其工作效率。
當(dāng)然,這里可能有人會說“AI又將摧毀了一個行業(yè)”。但觀察其他領(lǐng)域我們其實不難發(fā)現(xiàn),像ChatGPT之于作家、Copilot之于程序員、Midjourney之于設(shè)計師,善用工具的人從來不會被時代淘汰,并且他們始終都能夠走在大部分人的身前。
參考鏈接:
https://analyticsindiamag.com/openai-releases-shap-e-nerf-enabled-generative-model/
https://arxiv.org/pdf/2305.02463.pdf
https://www.163.com/dy/article/I474EGMT055240KW.html