單卡30秒跑出虛擬3D老婆!Text to 3D生成看清毛孔細(xì)節(jié)的高精度數(shù)字人,無縫銜接Maya、Unity等制作工具
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
ChatGPT給AI行業(yè)注入一劑雞血,一切曾經(jīng)的不敢想,都成為如今的基操。
正持續(xù)進(jìn)擊的Text-to-3D,就被視為繼Diffusion(圖像)和GPT(文字)后,AIGC領(lǐng)域的下一個前沿?zé)狳c,得到了前所未有的關(guān)注度。
這不,一款名為ChatAvatar的產(chǎn)品低調(diào)公測,火速收攬超70萬瀏覽與關(guān)注,并登上抱抱臉周熱門(Spaces of the week)。
△ChatAvatar也將支持從AI生成的單視角/多視角原畫生成3D風(fēng)格化角色的Image to 3D技術(shù),受到了廣泛關(guān)注
現(xiàn)行beta版本生成的3D模型,能夠直接連同PBR材質(zhì)下載到本地。不僅效果不錯,更重要的是免費可玩。有網(wǎng)友驚呼:
有夠酷的,感覺能很便捷地生成自己的數(shù)字孿生了。
由此吸引不少網(wǎng)友紛紛試用并貢獻(xiàn)腦洞。有人拿這款產(chǎn)品和ControlNet結(jié)合,發(fā)現(xiàn)效果細(xì)膩寫實到有些出乎意料。
這款使用起來幾乎零門檻的Text-to-3D工具名叫ChatAvatar,由國內(nèi)AI初創(chuàng)公司影眸科技團(tuán)隊打造。
據(jù)了解,這是全球首款Production-Ready的Text to 3D產(chǎn)品,通過簡單的文本,例如一個明星的名字、或是某個想要的人物長相,就能生成影視級的3D超寫實數(shù)字人資產(chǎn)。
效率也非常高,平均僅需30秒,就能做出一張以假亂真的臉——甚至是你自己的。
未來,生成領(lǐng)域還將拓展到其他三維資產(chǎn)。
并且該模型帶有規(guī)整的拓?fù)?、帶?k分辨率的PBR材質(zhì),同時帶有綁定,可以直接接入Unity、Unreal Engine和Maya等制作引擎的生產(chǎn)管線中。
所以,ChatAvatar到底是怎樣一個3D生成工具?背后究竟用到了什么技術(shù)?
30秒完成一次“畫皮”
親身體驗ChatAvatar的玩法發(fā)現(xiàn),可以說是真·零門檻。
具體而言,只需以對話的形式,在官網(wǎng)上用大白話向ChatBot描述自己的需求,就能按需生成3D人臉,并覆蓋一張貼合模型的真實“人皮”。
對話全流程里,根據(jù)用戶需求,ChatBot會進(jìn)行引導(dǎo),盡可能細(xì)節(jié)地了解用戶對所需模型的想法。
體驗過程中,我們向ChatBot描述了這樣一個想要生成的3D形象:
點擊左側(cè)的Generate按鈕,平均10s不到,屏幕上就出現(xiàn)根據(jù)描述生成的9種不同3D人臉的初始雛形。
隨意選擇其中一種后,會基于選擇繼續(xù)優(yōu)化模型和材質(zhì),最后出現(xiàn)覆蓋皮膚后的模型渲結(jié)果,并展現(xiàn)不同光影下的渲染效果——這些渲染在瀏覽器內(nèi)實時完成:
用鼠標(biāo)拖動,還能旋轉(zhuǎn)頭部,并放大看更細(xì)節(jié)的局部效果,毛孔和痘痘都清晰可見:
值得一提的是,如果用戶是個提示工程高手,直接在左側(cè)框中輸入prompt,同樣可以完成生成。
最后,一鍵下載,就能獲得一個可直接接入制作引擎并被驅(qū)動的3D數(shù)字頭部資產(chǎn):
雖然beta版本還沒上線發(fā)型功能,但整體而言,最后生成的3D數(shù)字人資產(chǎn)與描述內(nèi)容已經(jīng)有高匹配度。
官網(wǎng)上還陳列了許多ChatAvatar用戶的生成資產(chǎn),不同人種、不同膚色、不同年齡,喜怒哀樂,美丑胖瘦,各式相貌應(yīng)有盡有。
總結(jié)一下ChatAvatar這款產(chǎn)品生成3D數(shù)字人資產(chǎn)的效果亮點:
首先是使用簡便;其次是生成跨度大,且五官可改,還能生成與面部貼合的面具、紋身等,譬如這樣:
根據(jù)官方宣傳片介紹,ChatAvatar甚至可以進(jìn)一步生成超出人類范疇的角色,如阿凡達(dá)等影視作品中的角色:
最重要的是,ChatAvatar解決了3D模型與傳統(tǒng)渲染軟件存在的兼容性問題。
這意味著,ChatAvatar生成的3D資產(chǎn)可以直接接入游戲和影視生產(chǎn)流程。
當(dāng)然,在正式接入工業(yè)流程之前,首輪公測,ChatAvatar已經(jīng)吸引了數(shù)千名藝術(shù)家和專業(yè)美術(shù)人員參與,推特相關(guān)話題受到近百萬的瀏覽與關(guān)注。
隨隨便便一條推文,瀏覽量都能破50k。
積攢了大批“自來水”不是沒有原因,看看3D的愛因斯坦之臉,試問誰不說一句真的很像?
要是和ControlNet結(jié)合,生成效果不亞于單反相片直出:
已經(jīng)有不少用戶體驗后,開始暢想將這個Text-to-3D工具大規(guī)模應(yīng)用在游戲、影視等工業(yè)應(yīng)用上了。
據(jù)了解,用戶反饋會成為ChatAvatar團(tuán)隊快速迭代和更新的重要依據(jù),形成數(shù)據(jù)飛輪,以便及時提供更加完整和貼近需求的功能。
事實上,對于此前的3D行業(yè)設(shè)計師或公司來說,大部分AI文字轉(zhuǎn)3D應(yīng)用并非效果不好,但實際落地到工業(yè)設(shè)計流程上,還是有不少難度。
這次ChatAvatar能如此出圈,背后究竟有什么技術(shù)上的原因?
符合產(chǎn)業(yè)要求的3D資產(chǎn)生成,究竟難在哪?
都說AI要替代人類,事實上僅僅就Text-to-3D領(lǐng)域,就并非那么容易替代。
最大的難點,在于讓AI生成的東西從標(biāo)準(zhǔn)上符合產(chǎn)業(yè)對3D資產(chǎn)的要求。
這里面的產(chǎn)業(yè)標(biāo)準(zhǔn)怎么理解?從專業(yè)3D美工設(shè)計的視角來說,至少有三個方面——
質(zhì)量、可控性和生成速度。
首先是質(zhì)量。尤其是對于強調(diào)視覺效果的影視、游戲行業(yè)來說,要想生成符合管線要求的3D資產(chǎn),拓?fù)湟?guī)整度、紋理貼圖的精度等“行業(yè)潛規(guī)則”,都是AI產(chǎn)品第一道必須邁過去的坎。
以拓?fù)浣Y(jié)構(gòu)的規(guī)整度為例,這里本質(zhì)上指的是3D資產(chǎn)布線的合理度。
對于3D資產(chǎn)來說,拓?fù)涞囊?guī)整度,往往直接影響物體的動畫效果、修改處理效率和貼圖繪制速度:
據(jù)行內(nèi)3D美工設(shè)計介紹,手工重拓?fù)涞臅r間成本往往比制作3D模型本身更高,甚至按倍數(shù)以計。這意味著即使AI模型生成的3D資產(chǎn)再炫酷,如果生成的拓?fù)湟?guī)整度達(dá)不到要求,成本就無法從根本上得到降低。更別提紋理精度。
△影眸科技的ChatAvatar項目在生成質(zhì)量、速度以及標(biāo)準(zhǔn)兼容上相比先前的工作都有明顯的提升
以目前游戲、影視行業(yè)普遍要求的PBR貼圖為例,包含的反射率貼圖、法線貼圖等一系列貼圖,相當(dāng)于2D圖像PSD文件的“圖層”,是3D資產(chǎn)流水線生產(chǎn)必不可少的條件之一。
然而,目前AI生成的3D資產(chǎn)往往是一個“整體”,少有能按要求單獨生成符合產(chǎn)業(yè)環(huán)境的PBR貼圖的效果。
其次是可控性,對于生成式AI而言,如何讓生成的內(nèi)容更加“可控”,是CG產(chǎn)業(yè)對于這項技術(shù)提出的又一大要求。
以大眾所熟知的2D產(chǎn)業(yè)為例,在ControlNet出現(xiàn)之前,2D AIGC行業(yè)一直處在一種“半摸黑前進(jìn)”的狀態(tài)。
也就是說,AI能生成指定類別的物體畫面,卻無法生成指定姿態(tài)的物體,生成效果全靠提示工程和“玄學(xué)”。
而在ControlNet出現(xiàn)后,2D AI圖像生成的可控性獲得了突飛猛進(jìn)的提升,然而對于3D AI而言,要想生成對應(yīng)效果的資產(chǎn),很大程度上依舊得依靠專業(yè)的提示工程。
最后是生成速度。相比3D美工設(shè)計而言,AI生成的優(yōu)勢在于速度,然而如果AI渲染的速度和效果無法與人工匹敵的話,那么這項技術(shù)依舊無法給產(chǎn)業(yè)帶來收益。
以當(dāng)前在AI技術(shù)上頗受歡迎的NeRF為例,其產(chǎn)業(yè)化落地就面臨速度和質(zhì)量的兼容性難題。
在生成質(zhì)量較高的情況下,基于NeRF的3D生成往往需要相當(dāng)漫長的時間;然而如果追求速度,即使是NeRF生成的3D資產(chǎn)便完全無法投入產(chǎn)業(yè)使用。
但即使解決了這個問題,如何在不損失精度的前提下讓NeRF與傳統(tǒng)CG行業(yè)的主流引擎兼容仍然是一個巨大的問題。
從上面的產(chǎn)業(yè)標(biāo)準(zhǔn)化流程不難發(fā)現(xiàn),大部分AI文本轉(zhuǎn)3D應(yīng)用落地存在兩大瓶頸:
一個是需要手動完成提示工程,對于非AI專業(yè)人士、或不了解AI的設(shè)計師來說不夠友好;另一個是生成的3D資產(chǎn)往往不符合產(chǎn)業(yè)標(biāo)準(zhǔn),即使再好看也無法投入使用。
針對這兩點,ChatAvatar給出了兩點具體有效的解決方案。
一方面,ChatAvatar實現(xiàn)了除手動輸入提示工程外的第二條道路,也是更適合普通人的一條捷徑:通過“甲方模式”直接對話描述需求。
團(tuán)隊官方推特介紹稱,為了實現(xiàn)這一特性,ChatAvatar基于GPT的能力,開發(fā)了一種對話描述轉(zhuǎn)人像特征的方法。
設(shè)計師只需要不斷和GPT聊天,描述自己想要的“感覺”:
GPT就能自動幫忙完成提示工程,將結(jié)果輸送給AI:
換而言之,如果說ControlNet是2D行業(yè)的“Game Changer”,那么對于3D產(chǎn)業(yè)來說,能實現(xiàn)文本轉(zhuǎn)3D的ChatAvatar,無異于行業(yè)的游戲規(guī)則改變者。
另一方面更為重要,那就是ChatAvatar能完美兼容CG管線,即生成的資產(chǎn)在拓?fù)浣Y(jié)構(gòu)、可控性和速度上都符合產(chǎn)業(yè)要求。
這不僅意味著生成3D資產(chǎn)之后,下載的內(nèi)容可以直接導(dǎo)入各種后期制作軟件進(jìn)行二次編輯,可控性更強;
同時,生成的模型和高精度材質(zhì)貼圖,還能在后期的渲染中達(dá)到極為逼真的渲染效果。
為了實現(xiàn)這樣的效果,團(tuán)隊為ChatAvatar自研了一個漸進(jìn)式3D生成框架DreamFace。
其中的關(guān)鍵,在于訓(xùn)練該模型用的底層數(shù)據(jù),即影眸科技基于“穹頂光場”采集到的世界首個大體量、高精度、多表情的人臉高精度數(shù)據(jù)集。
基于這個數(shù)據(jù)集,DreamFace可以高效地完成產(chǎn)品級三維資產(chǎn)的生成,即生成的資產(chǎn)帶有規(guī)整的拓?fù)?、材質(zhì),帶有綁定。
DreamFace主要包括三個模塊:幾何體生成,基于物理的材質(zhì)擴散和動畫能力生成。
通過引入外部3D數(shù)據(jù)庫,DreamFace能夠直接輸出符合CG流程的資產(chǎn)。
△生成的資產(chǎn)驅(qū)動渲染的效果
上述兩大技術(shù)瓶頸的解決,本質(zhì)上進(jìn)一步加速了AIGC洪流下,“生成”將取代“搜索”的時代趨勢——
影眸團(tuán)隊認(rèn)為,“生成”將成為新一代數(shù)字資產(chǎn)的獲取方式。
此前,我們需要找到一張符合需求的圖片或者資產(chǎn)時,通常會使用搜索引擎進(jìn)行查詢。
ChatAvatar項目主頁上展示的巨大的“搜索框”和整齊的資產(chǎn)卡片,看似搜索引擎,但實際上是一種與搜索截然不同的資產(chǎn)查找方式。
△ChatAvatar項目主頁
影眸科技CTO張啟煊對此介紹:
以前,如果我們需要一張插圖,可能要在多個圖庫中反復(fù)搜索,或是通過Photoshop合成、手繪等較復(fù)雜的方式才能得到結(jié)果。但在Stable Diffusion等技術(shù)出現(xiàn)后,你只需要通過文字描述想要的圖像,就能直接生成符合需求的結(jié)果。
這對于傳統(tǒng)的資產(chǎn)庫來說是一個巨大的沖擊。而ChatAvatar的目標(biāo),正是用3D生成替代傳統(tǒng)的搜索式3D資產(chǎn)庫。
AIGC領(lǐng)域的下一個前沿?zé)狳c
ChatGPT一石激起千層浪,進(jìn)入AI 2.0時代之后,人們的目光也投向包含圖像、視頻、3D等信息的多模態(tài)AI。
僅就3D生成領(lǐng)域而言,無論是影視還是游戲行業(yè),3D內(nèi)容生產(chǎn)和消費市場已經(jīng)擁有足夠大的規(guī)模,但在制作層面卻因技術(shù)難度遭遇掣肘。
譬如,文本領(lǐng)域大行其道的Transformer,在3D生成領(lǐng)域的使用還相對有限。
去年夏天,當(dāng)文生圖領(lǐng)域因Diffusion Model取得成績后,人們開始期待文字生成3D有同樣驚艷的表現(xiàn)。一旦生成式AI的3D創(chuàng)作技術(shù)成熟,VR、視頻等的內(nèi)容創(chuàng)作都將起飛。
△擴散模型Midjourney5.1生成的“梵高風(fēng)攝影”
事實上,無論是科技巨頭還是初創(chuàng)公司,的確都在朝Text-to-3D這個方向暗暗發(fā)力。
去年9月,谷歌發(fā)布了基于文本提示生成3D模型的FreamFusion,聲稱不需要3D訓(xùn)練數(shù)據(jù),也不需要修改圖像擴散模型。緊隨其后,Meta也推出可以從文本一鍵生成視頻的Make-A-Video模型。
后來的Text-to-3D的AI模型隊伍中,還先后出現(xiàn)了英偉達(dá)Magic3D、OpenAI最新開源項目Shap-E等,今年8月將舉辦的計算機圖形頂會SIGGRAPH 2023所展示的論文,也有多篇與Text-to-3D有關(guān)。
影眸科技有關(guān)文本指導(dǎo)的漸進(jìn)式3D生成框架DreamFace的論文,就是其中之一。
而ChatAvatar,也是目前為止最集中在3D數(shù)字人資產(chǎn)方向的生成式模型產(chǎn)品。
其背后的AI初創(chuàng)公司影眸科技,2020年孵化自上海科技大學(xué)MARS實驗室,成立后獲得奇績創(chuàng)壇與紅杉種子的兩輪投資。
公司專注于專注于計算機圖形學(xué)、生成式AI的研究與產(chǎn)品化。2021年,AIGC還未掀起巨浪之時,公司就已經(jīng)推出國內(nèi)首個AIGC ToC繪畫應(yīng)用Wand,產(chǎn)品一度登頂AppStore分區(qū)榜首。
而這個頗具前瞻性,且已在業(yè)內(nèi)小有名氣的團(tuán)隊,平均年齡只有25歲。
將首個商業(yè)化場景具體錨定在數(shù)字人后,ChatAvatar是他們乘AIGC東風(fēng)在該方向的最新進(jìn)展。
作為一個新推出的產(chǎn)品,ChatAvatar在兼容性、完成度和精度等產(chǎn)品效果層面,都超出了影眸團(tuán)隊預(yù)期。然而在吳迪口中,行至此處的過程“很狼狽”。
主要原因不外乎“缺人”一事。目前,影眸已經(jīng)在多類別3D生成技術(shù)上取得了進(jìn)展,下一步還計劃推出“3D生成大模型”。
△影眸科技將于5月上線首個多模態(tài)跨平臺3D搜索引擎Rodin,打通Sketchfab等多個3D資產(chǎn)平臺,支持以文搜3D、以圖搜3D甚至以3D搜3D。搜索引擎只是Rodin的初級形態(tài),影眸將把Rodin打造為3D生成大模型。
需要持續(xù)向前推進(jìn),就需要更多的工程化團(tuán)隊、技術(shù)美術(shù)和擁抱生成式AI的產(chǎn)品人才加入團(tuán)隊。作為一個以研發(fā)為背景主基調(diào)的團(tuán)隊,這樣的人才仍然緊缺。
“人是萬物的尺度,”吳迪表示道,“我們需要更多志同道合的人加入,共同推動3D領(lǐng)域的創(chuàng)新發(fā)展?!?/p>
可以看到,ChatAvatar背后技術(shù)從無到有的搭建,揭示了一家AI初創(chuàng)公司的不斷創(chuàng)新;而從這家公司對人才的渴望以小見大,更揭示著AIGC浪潮下,每一個細(xì)分領(lǐng)域想要從水下浮出水面的心。
你愿意擁抱生成式AI,成為Text-to-3D領(lǐng)域的Game Changer嗎?