偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一句話生成3D建模,OpenAI新模型炸場,開源可玩!

原創(chuàng) 精選
人工智能
眾所周知,GPT-4作為目前全世界最先進(jìn)的多模態(tài)大模型,其在對話、文生圖領(lǐng)域的能力可以說幾乎無人能出其右。而如今,GPT-4母公司OpenAI決定再次對其所擁有的疆域進(jìn)行擴(kuò)張。

作者 | 徐杰承

51CTO讀者成長計劃社群招募,咨詢小助手(微信號:CTOjishuzhan)

生成式AI不再滿足于文本和圖像,將戰(zhàn)場擴(kuò)展到三維了!

眾所周知,GPT-4作為目前全世界最先進(jìn)的多模態(tài)大模型,其在對話、文生圖領(lǐng)域的能力可以說幾乎無人能出其右。而如今,GPT-4母公司OpenAI決定再次對其所擁有的疆域進(jìn)行擴(kuò)張。

就在上周,OpenAI悄悄發(fā)布了最新的文字生成3D模型Shap·E,并一改此前的“保守態(tài)度”在Github上對該模型進(jìn)行了開源(項目地址:https://github.com/openai/shap-e,截止發(fā)稿前Stars已經(jīng)5.5K)。就連OpenAI總裁Greg Brockman也親自發(fā)推為Shap·E打了一波廣告。

圖片

1、Shap·E能做什么?

根據(jù)Github和相關(guān)論文介紹,Shap·E是OpenAI最新提出的一款三維資產(chǎn)的條件生成模型,當(dāng)在大數(shù)據(jù)集中訓(xùn)練成對的文本數(shù)據(jù)及3D模型后,Shap·E能夠在極短時間內(nèi)反饋復(fù)雜多樣的3D資產(chǎn)。簡而言之,當(dāng)用戶輸入一段簡單的文字描述后,Shap·E在幾秒鐘內(nèi)便能為用戶生成對應(yīng)的3D建模。

圖片

與其他單一輸出表示的3D生成模型不同,Shap·E采用了3D模型領(lǐng)域創(chuàng)新的隱式神經(jīng)表示(INR),支持神經(jīng)輻射場(NeRF)和紋理網(wǎng)格(DMTet)兩種方法。這意味著Shap·E可以直接生成可渲染的隱式函數(shù)的參數(shù),從而更快、更準(zhǔn)確地生成3D建模。

對于Shap·E的突然問世,部分用戶及業(yè)內(nèi)人士猜測,OpenAI很有可能正在為GPT-4到GPT-4.5的升級進(jìn)行準(zhǔn)備,經(jīng)歷下一個大階段升級后的ChatGPT將很有可能會新增生成3D建模的能力。

2、Shap·E的技術(shù)創(chuàng)新

與此前業(yè)內(nèi)所發(fā)布的其他的文生3D模型相比,Shap·E擁有更快的收斂速度,且所生成的3D建模擁有更高的質(zhì)量。這主要是由于研發(fā)團(tuán)隊在模型訓(xùn)練過程中采用了神經(jīng)輻射場(NeRF)技術(shù)并利用潛在向量序列代替了點云模式。

作為一種基于神經(jīng)網(wǎng)絡(luò)的3D重建技術(shù),NeRF能夠?qū)鼍敖3梢粋€連續(xù)的5D輻射場隱式存儲在神經(jīng)網(wǎng)絡(luò)之中,只需輸入多角度2D圖像,便能通過訓(xùn)練得到完整的輻射場模型并根據(jù)模型渲染出任意視角下建模的清晰圖像。相當(dāng)于從2D圖像中組建出模型的3D畫面,從而實現(xiàn)對物體的精確定位。

圖片

除此之外,NeFR的另一個優(yōu)勢在與其能夠在低功耗的設(shè)備上進(jìn)行渲染。高質(zhì)量的NeRF甚至能夠在手機(jī)或網(wǎng)絡(luò)瀏覽器上完成對復(fù)雜形狀光線追蹤、高幀率、高分辨率逼真場景的渲染。除此之外NeFR還能夠處理透明和反射材料,使得虛擬建模更加逼真。

然而,雖然相比于傳統(tǒng)的基于集合的建模方法,NeRF在處理光線、反射等問題方面擁有更強(qiáng)的性能,但該技術(shù)也擁有兩個較為明顯的缺點——算力消耗大與圖像生成速度慢。

為解決該問題,研發(fā)團(tuán)隊將Shap·E的訓(xùn)練分為了兩個階段,首先對編碼器訓(xùn)練,使編碼器能將3D資產(chǎn)映射到隱式函數(shù)參數(shù)中;其次在編碼器的輸出上訓(xùn)練條件擴(kuò)散模型。與此前不同的是,Shap·E使用潛在向量序列代替了點云模式,可同時生成NeRF和DMTet并允許它們以多種方式呈現(xiàn)。

這也使得利用新方法訓(xùn)練的Shap·E模型與其他文生3D模型相比擁有更高的推理能力、3D模型生成質(zhì)量以及模型生成效率。與此同時,也使模型的算力消耗保持在了一個相對較低的水平。

圖片

3、缺陷與局限性

當(dāng)然,即便Shap·E的綜合能力相比于現(xiàn)階段同類型模型算得上優(yōu)秀,但畢竟對目前的科技基礎(chǔ)而言,我們在文生3D建模領(lǐng)域的技術(shù)積累還是要弱于對話以及文生圖領(lǐng)域。

雖然Shap·E可以理解很多具有簡單屬性的單個對象的提示,但其在構(gòu)建概念方面的能力依然比較有限。在實驗中,研究人員發(fā)現(xiàn)該模型很難將多個屬性綁定到不同對象,并且在用戶要求生成多個3D建模時,Shap·E有時無法生成正確數(shù)量的對象。

圖片

除此之外,雖然Shap·E通常能夠根據(jù)描述生成可是別的3D建模,但生成樣本通??雌饋砺燥@粗糙或者缺少精致的細(xì)節(jié),并且編碼器本身有時就會丟失一些細(xì)節(jié)紋理。

為了獲得更好的效果,研發(fā)人員正在計劃嘗試將Shap·E與基于優(yōu)化的3D生成技術(shù)相結(jié)合。例如將Shep·E生成的NeRF或網(wǎng)格用于初始化基于優(yōu)化的方法;或者將基于圖像的物鏡用于指導(dǎo)建模形狀的取樣過程。然而目前以上方式仍處于研發(fā)和測試過程。

有業(yè)內(nèi)相關(guān)的算法工程師建議,這個項目的門檻較高,吃瓜群眾還是別浪費時間跑了,而且效果目前也沒有達(dá)到圖片生成那種驚艷的效果,不能直接用來做一些素材的生產(chǎn)。

4、文生3D的未來

在ChatGPT引領(lǐng)人們進(jìn)入AI2.0時代后,在極短的時間內(nèi),人們對AI的渴望便已經(jīng)從簡單的文本、圖像擴(kuò)展到了視頻甚至三維領(lǐng)域。事實上,如今也已有不少科技企業(yè)正在朝向文生3D的領(lǐng)域邁進(jìn)。

去年年底,NVIDIA研究院便發(fā)布了Magic3D文本生成3D模型,可以用于創(chuàng)建較高質(zhì)量的三位網(wǎng)格模型,并支持圖像生成和基于提示的圖像編輯。谷歌也在數(shù)月前開放了自己的神經(jīng)網(wǎng)絡(luò)Imagen,其可以在不經(jīng)過人工數(shù)據(jù)標(biāo)注的情況下實現(xiàn)從文本描述生成三維模型,并能處理較為復(fù)雜的文本輸入。

而就在近日,一款名為ChatAvatar的專注于人物面部文生3D模型的產(chǎn)品也已開啟公測,并快速獲得了70余萬瀏覽與關(guān)注。截止目前,不少用戶已經(jīng)利用該產(chǎn)品創(chuàng)建出了逼真度極高的個人專屬3D形象。

圖片

就目前而言,在以游戲、影視、建筑設(shè)計為代表的行業(yè)中,3D內(nèi)容的生產(chǎn)與消費市場其實已經(jīng)非常龐大,但在過去大量的內(nèi)容生產(chǎn)受限于較高的技術(shù)要求,使得只有少部分具備專業(yè)技能的從業(yè)者能夠參與其中,但隨著文生3D模型及產(chǎn)品的逐漸成熟,這種情況將很有可能會被顛覆。

除此之外,盡管現(xiàn)階段文生3D模型或衍生產(chǎn)品在建模細(xì)節(jié)和精度方面仍有所欠缺,但已有部分業(yè)內(nèi)人士開始嘗試將文生圖工具如Midjourney與之結(jié)合,以改善所生成模型的細(xì)節(jié)質(zhì)量。一旦將來文生3D建模的技術(shù)更加成熟,大量行業(yè)的產(chǎn)出和進(jìn)化速度都將實現(xiàn)飛躍。

5、更廣闊的想象空間

文生3D的研究是一個非常重要的方向,作為如今AI領(lǐng)域走在最前沿的探路者,OpenAI發(fā)布Shap·E可以說也在一定程度上證實了這個理論。

在文生3D領(lǐng)域,文本作為一種更通用且更簡單的媒介,可以很好的表達(dá)和傳播3D內(nèi)容,使用戶能夠通過文本實現(xiàn)對大量三維內(nèi)容的創(chuàng)作、修改及傳播,為用戶提供更加方便且友好的三維內(nèi)容交互及共享機(jī)制。

高質(zhì)量的文生3D模型在未來也將擁有非常廣泛的應(yīng)用場景,如游戲、動畫、建筑、教育、醫(yī)療、娛樂等;包括VR/AR、3D打印等業(yè)務(wù)場景,文生3D工具都能夠為其提供不容小覷的效率提升。

文生3D工具可以讓沒有復(fù)雜建模軟件基礎(chǔ)及設(shè)計能力的用戶通過簡單的文本描述生成自己所需的高質(zhì)量的3D模型。而對于專業(yè)的建模師來說,此類模型或衍生工具的問世也將能夠大幅提升其工作效率。

當(dāng)然,這里可能有人會說“AI又將摧毀了一個行業(yè)”。但觀察其他領(lǐng)域我們其實不難發(fā)現(xiàn),像ChatGPT之于作家、Copilot之于程序員、Midjourney之于設(shè)計師,善用工具的人從來不會被時代淘汰,并且他們始終都能夠走在大部分人的身前。

參考鏈接:

https://analyticsindiamag.com/openai-releases-shap-e-nerf-enabled-generative-model/

https://arxiv.org/pdf/2305.02463.pdf

https://www.163.com/dy/article/I474EGMT055240KW.html

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-05-08 15:44:23

3D數(shù)字人

2023-08-28 00:53:03

AI3D

2024-02-08 09:33:37

蘋果AI

2021-12-30 10:00:07

3DAI 人工智能

2023-10-09 12:45:09

數(shù)據(jù)訓(xùn)練

2023-10-25 14:17:00

2023-12-14 12:51:28

LLM3D場景

2022-12-12 13:45:46

模型修圖

2020-11-27 09:57:11

Python代碼PyPy

2015-08-03 10:21:04

設(shè)計模式表達(dá)

2023-09-05 23:34:52

Kubernetes云原生

2019-09-05 10:13:28

2025-03-17 08:55:00

AI開源模型

2025-01-03 11:37:13

2021-11-29 09:45:32

模型人工智能深度學(xué)習(xí)

2010-03-29 11:55:12

無線上網(wǎng)報錯

2022-09-30 15:35:43

AI視頻

2024-11-11 11:34:26

2023-01-07 12:53:44

模型效果Muse

2024-04-01 13:03:00

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號