偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一行文本,生成3D動(dòng)態(tài)場(chǎng)景:Meta這個(gè)「一步到位」模型有點(diǎn)厲害

人工智能 新聞
不再需要任何 3D 或 4D 數(shù)據(jù),來自 Meta 的研究者首次提出了可以從文本描述中生成三維動(dòng)態(tài)場(chǎng)景的方法 MAV3D (Make-A-Video3D)。

僅輸入一行文本,就能生成 3D 動(dòng)態(tài)場(chǎng)景?

沒錯(cuò),已經(jīng)有研究者做到了??梢钥闯鰜?,目前的生成效果還處于初級(jí)階段,只能生成一些簡(jiǎn)單的對(duì)象。不過這種「一步到位」的方法仍然引起了大量研究者的關(guān)注:

圖片

在最近的一篇論文中,來自 Meta 的研究者首次提出了可以從文本描述中生成三維動(dòng)態(tài)場(chǎng)景的方法 MAV3D (Make-A-Video3D)。

圖片

  • 論文鏈接:https://arxiv.org/abs/2301.11280
  • 項(xiàng)目鏈接:https://make-a-video3d.github.io/

具體而言,該方法運(yùn)用 4D 動(dòng)態(tài)神經(jīng)輻射場(chǎng)(NeRF),通過查詢基于文本到視頻(T2V)擴(kuò)散的模型,優(yōu)化場(chǎng)景外觀、密度和運(yùn)動(dòng)的一致性。任意機(jī)位或角度都可以觀看到提供的文本生成的動(dòng)態(tài)視頻輸出,并可以合成到任何 3D 環(huán)境中。

MAV3D 不需要任何 3D 或 4D 數(shù)據(jù),T2V 模型只對(duì)文本圖像對(duì)和未標(biāo)記的視頻進(jìn)行訓(xùn)練。

圖片

讓我們看一下 MAV3D 從文本生成 4D 動(dòng)態(tài)場(chǎng)景的效果:

圖片

圖片

此外,它也能從圖像直接到 4D,效果如下:

圖片

圖片

研究者通過全面的定量和定性實(shí)驗(yàn)證明了該方法的有效性,先前建立的內(nèi)部 baseline 也得到了改進(jìn)。據(jù)悉,這是第一個(gè)根據(jù)文本描述生成 3D 動(dòng)態(tài)場(chǎng)景的方法。

方法

該研究的目標(biāo)在于開發(fā)一項(xiàng)能從自然語言描述中生成動(dòng)態(tài) 3D 場(chǎng)景表征的方法。這極具挑戰(zhàn)性,因?yàn)榧葲]有文本或 3D 對(duì),也沒有用于訓(xùn)練的動(dòng)態(tài) 3D 場(chǎng)景數(shù)據(jù)。因此,研究者選擇依靠預(yù)訓(xùn)練的文本到視頻(T2V)的擴(kuò)散模型作為場(chǎng)景先驗(yàn),該模型已經(jīng)學(xué)會(huì)了通過對(duì)大規(guī)模圖像、文本和視頻數(shù)據(jù)的訓(xùn)練來建模場(chǎng)景的真實(shí)外觀和運(yùn)動(dòng)。

從更高層次來看,在給定一個(gè)文本 prompt p 的情況下,研究可以擬合一個(gè) 4D 表征,它模擬了在時(shí)空任意點(diǎn)上與 prompt 匹配的場(chǎng)景外觀。沒有配對(duì)訓(xùn)練數(shù)據(jù),研究無法直接監(jiān)督圖片的輸出;然而,給定一系列的相機(jī)姿勢(shì)?圖片 ?就可以從圖片渲染出圖像序列圖片圖片并將它們堆疊成一個(gè)視頻 V。然后,將文本 prompt p 和視頻 V 傳遞給凍結(jié)和預(yù)訓(xùn)練的 T2V 擴(kuò)散模型,由該模型對(duì)視頻的真實(shí)性和 prompt alignment 進(jìn)行評(píng)分,并使用 SDS(得分蒸餾采樣)來計(jì)算場(chǎng)景參數(shù) θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的擴(kuò)展,為場(chǎng)景模型添加了一個(gè)時(shí)間維度,并使用 T2V 模型而不是文本到圖像(T2I)模型進(jìn)行監(jiān)督。然而,要想實(shí)現(xiàn)高質(zhì)量的文本到 4D 的生成還需要更多的創(chuàng)新:

  • 第一,需要使用新的、允許靈活場(chǎng)景運(yùn)動(dòng)建模的 4D 表征;
  • 第二,需要使用多級(jí)靜態(tài)到動(dòng)態(tài)優(yōu)化方案來提高視頻質(zhì)量和提高模型收斂性,該方案利用幾個(gè) motion regularizer 來生成真實(shí)的運(yùn)動(dòng);
  • 第三,需要使用超分辨率微調(diào)(SRFT)提高模型的分辨率。

具體說明見下圖:

圖片

實(shí)驗(yàn)

在實(shí)驗(yàn)中,研究者評(píng)估了 MAV3D 從文本描述生成動(dòng)態(tài)場(chǎng)景的能力。首先,研究者評(píng)估了該方法在 Text-To-4D 任務(wù)上的有效性。據(jù)悉,MAV3D 是首個(gè)該任務(wù)的解決方案,因此研究開發(fā)了三種替代方法作為基線。其次,研究者評(píng)估了 T2V 和 Text-To-3D 子任務(wù)模型的簡(jiǎn)化版本,并將其與文獻(xiàn)中現(xiàn)有的基線進(jìn)行比較。第三,全面的消融研究證明了方法設(shè)計(jì)的合理性。第四,實(shí)驗(yàn)描述了將動(dòng)態(tài) NeRF 轉(zhuǎn)換為動(dòng)態(tài)網(wǎng)格的過程,最終將模型擴(kuò)展到 Image-to-4D 任務(wù)。

指標(biāo)

研究使用 CLIP R-Precision 來評(píng)估生成的視頻,它可以測(cè)量文本和生成場(chǎng)景之間的一致性。報(bào)告的指標(biāo)是從呈現(xiàn)的幀中檢索輸入 prompt 的準(zhǔn)確性。研究者使用 CLIP 的 ViT-B/32 變體,并在不同的視圖和時(shí)間步長(zhǎng)中提取幀,并且還通過詢問人工評(píng)分人員在兩個(gè)生成的視頻中的偏好來使用四個(gè)定性指標(biāo),分別是:(i) 視頻質(zhì)量;(ii) 忠實(shí)于文本 prompt;(iii) 活動(dòng)量;(四) 運(yùn)動(dòng)的現(xiàn)實(shí)性。研究者評(píng)估了在文本 prompt 分割中使用的所有基線和消融。

圖 1 和圖 2 為示例。要想了解更詳細(xì)的可視化效果,請(qǐng)參見 make-a-video3d.github.io。

圖片

結(jié)果

表 1 顯示了與基線的比較(R - 精度和人類偏好)。人工測(cè)評(píng)以在特定環(huán)境下與該模型相比,贊成基線多數(shù)票的百分比形式呈現(xiàn)。

圖片

表 2 展示了消融實(shí)驗(yàn)的結(jié)果:

圖片

實(shí)時(shí)渲染

使用傳統(tǒng)圖形引擎的虛擬現(xiàn)實(shí)和游戲等應(yīng)用程序需要標(biāo)準(zhǔn)的格式,如紋理網(wǎng)格。HexPlane 模型可以輕易轉(zhuǎn)換為如下的動(dòng)畫網(wǎng)格。首先,使用 marching cube 算法從每個(gè)時(shí)刻 t 生成的不透明度場(chǎng)中提取一個(gè)簡(jiǎn)單網(wǎng)格,然后進(jìn)行網(wǎng)格抽?。榱颂岣咝剩┎⑶胰コ≡肼曔B接組件。XATLAS 算法用于將網(wǎng)格頂點(diǎn)映射到紋理圖集,紋理初始化使用以每個(gè)頂點(diǎn)為中心的小球體中平均的 HexPlane 顏色。最后,為了更好地匹配一些由 HexPlane 使用可微網(wǎng)格渲染的示例幀,紋理會(huì)被進(jìn)一步優(yōu)化。這將產(chǎn)生一個(gè)紋理網(wǎng)格集合,可以在任何現(xiàn)成的 3D 引擎中回放。

圖像到 4D

圖 6 和圖 10 展示了該方法能夠從給定的輸入圖像產(chǎn)生深度和運(yùn)動(dòng),從而生成 4D 資產(chǎn)。

圖片

圖片


圖片

圖片


圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2009-11-17 10:13:03

linux系統(tǒng)時(shí)間操作系統(tǒng)

2013-12-09 09:20:40

開源云平臺(tái)

2009-02-17 18:41:19

2025-05-12 09:31:44

2009-12-18 11:29:08

2010-05-07 11:04:15

2012-06-19 09:40:51

2020-02-12 18:45:39

負(fù)載均衡網(wǎng)站處理壓力

2012-12-17 15:31:00

Windows PhoWindows PhoWindows Pho

2020-09-24 10:26:43

運(yùn)維開發(fā)技術(shù)

2023-05-15 10:41:13

CSS深色模式

2019-02-13 12:05:57

編程容器開發(fā)

2017-11-17 08:27:47

谷歌自然語言框架

2011-02-25 09:33:01

2009-02-18 18:06:57

虛擬化虛擬機(jī)Vmware

2010-09-18 16:38:27

電腦體檢網(wǎng)絡(luò)安全360安全中心

2011-10-19 15:09:26

一體機(jī)評(píng)測(cè)

2019-08-13 17:10:18

鍵盤機(jī)械鍵帽

2018-09-06 14:39:19

網(wǎng)絡(luò)營(yíng)銷
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)