偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

LLM生成3D場(chǎng)景，無(wú)限延伸！斯坦福華人提出3D動(dòng)畫(huà)生成框架，一句話一幅圖創(chuàng)造無(wú)限3D世界

作者：新智元 2023-12-14 12:51:28

開(kāi)發(fā) 前端人工智能

近日，斯坦福的華人研究人員提出全新視頻生成框架——WonderJourney，一句話或者一張圖，即可自動(dòng)生成一系列3D場(chǎng)景的連續(xù)畫(huà)面。

斯坦福華人退學(xué)博士開(kāi)發(fā)的Pika，讓AI技術(shù)和藝術(shù)迸發(fā)出了絢麗的火花。

最近，又有斯坦福的華人研究人員提出的新的框架——WonderJourney，

可以用一句話或者一張圖，自動(dòng)生成一系列3D場(chǎng)景的連續(xù)畫(huà)面，效果炫酷！

圖片

用一張愛(ài)麗絲奇境漫游的圖片，就能生成一段真的愛(ài)麗絲漫游的夢(mèng)境經(jīng)歷。

或者，用一首陸游的《游山西村》，可以生成一段水墨風(fēng)格的詩(shī)詞夢(mèng)境：

莫笑農(nóng)家臘酒渾，豐年留客足雞豚。山重水復(fù)疑無(wú)路，柳暗花明又一村。簫鼓追隨春社近，衣冠簡(jiǎn)樸古風(fēng)存。從今若許閑乘月，拄仗無(wú)時(shí)夜扣門

圖片

項(xiàng)目網(wǎng)址：https://kovenyu.com/WonderJourney/

圖片

論文地址：https://arxiv.org/abs/2312.03884

WonderJourney是一個(gè)用于永久場(chǎng)景生成的模塊化框架。

與之前專注于單一類型場(chǎng)景的視圖生成框架不同，WonderJourney可以從用戶提供的任何位置（通過(guò)文本描述或圖像）開(kāi)始，并通過(guò)一長(zhǎng)串不同但連貫相連的3D場(chǎng)景生成旅程。

作者利用LLM來(lái)生成場(chǎng)景的文本描述，利用文本驅(qū)動(dòng)的點(diǎn)云生成管道，來(lái)制作漂亮且連貫的3D場(chǎng)景序列，并利用大型VLM（視覺(jué)語(yǔ)言模型）來(lái)驗(yàn)證生成的場(chǎng)景。

No, no! The adventures first, explanations take such a dreadful time. --- Alice's Adventures in Wonderland

——作者表示，不解釋了，趕緊先看效果！

首先展示從任意位置開(kāi)始，沿著攝像機(jī)軌跡生成一系列不同但連貫的3D場(chǎng)景。

圖片

以上圖中的場(chǎng)景為起點(diǎn)，WonderJourney進(jìn)行了延伸和想象：

圖片

確實(shí)連貫且優(yōu)美，從鬧市到亭臺(tái)山水，不得不說(shuō)，AI的想象力真的有點(diǎn)東西。

然后展示W(wǎng)onderJourney合成長(zhǎng)篇視頻的能力：

圖片

雖然有瑕疵，并且建筑風(fēng)格不太統(tǒng)一，但小編覺(jué)得最后視角突然進(jìn)入房間，算是很有意思的安排。

接下來(lái)，從同一地點(diǎn)開(kāi)始，WonderJourney可以生成一組不同的「wonderjourneys」，——即不同的發(fā)展方向，在不同的目的地結(jié)束。這里使用相機(jī)姿勢(shì)的軌跡來(lái)渲染視頻。

圖片

圖片

——小編稱之為”AI的平行世界“。

最后，WonderJourney還可以根據(jù)一系列文本描述（例如詩(shī)歌、俳句和故事摘要）生成受控的wonderjourneys，也就是文生視頻的能力。

首先是一首古詩(shī)：

圖片

雙飛燕子幾時(shí)回，夾岸桃花蘸水。開(kāi)春雨斷橋人不渡，小舟撐出柳陰來(lái)。

燕子、桃花、水流、小舟，也是該有的意象都有了。

然后是日文的俳句，小編實(shí)在不懂日文，就把原文放在下面了：

圖片

圖片

雖然不懂，但「遠(yuǎn)山」、「日」、「枯野」咱還是能看出來(lái)的。

最后是英文場(chǎng)景下的故事摘要，這里描繪的是詩(shī)歌Jabberwocky（龍）中的場(chǎng)景（Fighting...Hero returns...Storyteller...）：

圖片

戰(zhàn)斗、英雄凱旋、最后是講故事的人。

不知道大家有沒(méi)有發(fā)現(xiàn)，三種語(yǔ)言畫(huà)出來(lái)的風(fēng)格完全不同。中文是水墨畫(huà)，日文有點(diǎn)像浮世繪，英文有一點(diǎn)點(diǎn)油畫(huà)的感覺(jué)。

論文細(xì)節(jié)

在《愛(ài)麗絲夢(mèng)游仙境》中，故事開(kāi)始于愛(ài)麗絲掉進(jìn)兔子洞，進(jìn)入一個(gè)陌生而迷人的仙境。

在穿越這個(gè)仙境的旅程中，愛(ài)麗絲遇到了許多神奇的角色，如柴郡貓和瘋帽子，以及茶話會(huì)和玫瑰園等奇特的場(chǎng)景——最終在皇宮結(jié)束。

這些角色和場(chǎng)景結(jié)合在一起，形成了一個(gè)引人入勝的世界，多年來(lái)吸引了無(wú)數(shù)讀者。

在本文中，作者遵循這一創(chuàng)意，探索現(xiàn)代計(jì)算機(jī)視覺(jué)和人工智能模型，如何同樣生成如此有趣和多樣化的視覺(jué)世界，用戶可以穿越這些世界，就像愛(ài)麗絲在仙境中的冒險(xiǎn)一樣。

圖片

為了實(shí)現(xiàn)這個(gè)目標(biāo)，作者引入了永久3D場(chǎng)景生成。

這項(xiàng)工作的目標(biāo)是，從單個(gè)圖像或語(yǔ)言描述的任意位置開(kāi)始，合成一系列不同的3D場(chǎng)景。

生成的3D場(chǎng)景沿著遠(yuǎn)程攝像機(jī)軌跡連貫連接，穿過(guò)各種合理的地方，使用一系列不同的場(chǎng)景渲染視頻，以模擬在虛構(gòu)的“仙境”中旅行的視覺(jué)體驗(yàn)。

永久3D場(chǎng)景生成的主要挑戰(zhàn)集中在，生成多樣化但合理的場(chǎng)景元素上。這些場(chǎng)景元素需要通過(guò)連貫連接的3D場(chǎng)景來(lái)支持路徑的形成，

包括可以被觀察到的場(chǎng)景中的各種對(duì)象、背景和布局，并自然地過(guò)渡到下一個(gè)但未觀察到的場(chǎng)景。

圖片

WonderJourney的生成過(guò)程可以分解為：確定要為給定場(chǎng)景生成哪些對(duì)象，在哪里生成這些對(duì)象，以及這些場(chǎng)景如何以幾何方式相互連接。

確定要生成哪些元素需要對(duì)場(chǎng)景進(jìn)行語(yǔ)義理解（比如，獅子可能不太適合廚房）；確定在哪里生成需要關(guān)于視覺(jué)世界的常識(shí)（比如，獅子不應(yīng)該漂浮在天空中）；

此外，在新的連接場(chǎng)景中生成這些元素需要幾何理解（比如，遮擋和無(wú)遮擋、視差和適當(dāng)?shù)目臻g布局）。

WonderJourney利用LLM生成一長(zhǎng)串場(chǎng)景描述，然后使用文本驅(qū)動(dòng)的視覺(jué)場(chǎng)景生成模塊，生成一系列彩色點(diǎn)云來(lái)表示連續(xù)的3D場(chǎng)景。

在這里，LLM提供常識(shí)和語(yǔ)義推理；視覺(jué)模塊提供視覺(jué)和幾何理解以及適當(dāng)?shù)?D效果。

最后，利用VLM來(lái)驗(yàn)證生成，并在檢測(cè)到不需要的視覺(jué)效果時(shí)，啟動(dòng)重新生成。

圖片

上圖展示了WonderJourney框架和跨模塊的工作流程。

WonderJourney框架是完全模塊化的，每個(gè)模塊都可以由最好的預(yù)訓(xùn)練模型實(shí)現(xiàn)。

WonderJourney框架包含三個(gè)核心組件：一個(gè)用于生成場(chǎng)景描述的LLM，一個(gè)用于生成連貫3D場(chǎng)景的文本驅(qū)動(dòng)的視覺(jué)模塊，以及一個(gè)用于驗(yàn)證生成場(chǎng)景的VLM。

方法

WonderJourney的主要思想是生成下一個(gè)場(chǎng)景所包含的視覺(jué)元素的文字描述，然后使用一個(gè)文本引導(dǎo)的視覺(jué)生成模塊來(lái)制作三維場(chǎng)景。

WonderJourney將整個(gè)生成任務(wù)分解為場(chǎng)景描述生成、視覺(jué)場(chǎng)景生成和視覺(jué)驗(yàn)證。

給定輸入圖像或文本，首先通過(guò)使用文本到圖像模型生成圖像，或使用VLM生成描述，將其與其他模態(tài)配對(duì)。

然后，通過(guò)LLM生成下一個(gè)場(chǎng)景描述。視覺(jué)場(chǎng)景生成模塊接收下一個(gè)場(chǎng)景描述和當(dāng)前場(chǎng)景圖像，生成下一個(gè)由彩色點(diǎn)云表示的 3D 場(chǎng)景。

之后，VLM會(huì)檢查此生成過(guò)程，以確保沒(méi)有不良影響，否則會(huì)重新生成。

場(chǎng)景描述生成

這里定義場(chǎng)景描述，它由一個(gè)在場(chǎng)景中保持一致的樣式S、場(chǎng)景中的對(duì)象O和一個(gè)描述場(chǎng)景背景的簡(jiǎn)潔標(biāo)題B組成。

利用LLM輸出自然語(yǔ)言描述，然后使用詞匯類別過(guò)濾器來(lái)處理O和B的原始文本，只保留實(shí)體的名詞和屬性的形容詞。

從經(jīng)驗(yàn)上講，與要求LLM直接輸出這種結(jié)構(gòu)化描述相比，本文的做法會(huì)產(chǎn)生更連貫的連接場(chǎng)景。

視覺(jué)場(chǎng)景生成

視覺(jué)場(chǎng)景生成器包括免學(xué)習(xí)操作，例如透視取消投影和渲染，以及使用參數(shù)化（預(yù)訓(xùn)練）視覺(jué)模型的組件，包括深度估計(jì)器、基于分割的深度精簡(jiǎn)器和文本條件圖像Inpainter。

將圖像提升到點(diǎn)云：給定由圖像表示的當(dāng)前場(chǎng)景，通過(guò)估計(jì)深度將其提升到3D，并使用針孔相機(jī)模型將其取消投影。

實(shí)驗(yàn)中使用了MIDAS v3.1，是目前最先進(jìn)的深度估計(jì)器之一。

現(xiàn)有的單目深度估計(jì)器有兩個(gè)共同的問(wèn)題：

首先，深度不連續(xù)性沒(méi)有得到很好的建模，導(dǎo)致物體邊界的深度邊緣過(guò)于平滑。

其次，天空的深度總是被低估。

為了解決這兩個(gè)問(wèn)題，這里引入了一種利用像素分組分割，和天空分割的深度細(xì)化過(guò)程。

為了增強(qiáng)跨對(duì)象邊界的深度不連續(xù)性，當(dāng)元素的視差范圍有限時(shí)，使用正面平面對(duì)場(chǎng)景元素進(jìn)行建模。

圖片

上圖展示了視覺(jué)場(chǎng)景生成模塊。每個(gè)箭頭代表一個(gè)參數(shù)化視覺(jué)模型（比如深度估計(jì)器）或一個(gè)操作（比如渲染）。

針對(duì)具有不同風(fēng)格的一般場(chǎng)景，本文使用視差范圍的標(biāo)準(zhǔn)來(lái)保持估計(jì)的深度，而不是選擇語(yǔ)義類。

對(duì)于天空深度，這里使用 OneFormer來(lái)分割天空區(qū)域，并刪除沿天空邊界的點(diǎn)。

此外，作者發(fā)現(xiàn)遠(yuǎn)處像素的深度通常不可靠。因此，文中還設(shè)置了一個(gè)深度為F的遠(yuǎn)背景平面，該平面切斷了超出該深度的所有像素的深度。

作者沿著連接新場(chǎng)景和當(dāng)前場(chǎng)景的攝像機(jī)軌跡，放置一個(gè)額外的攝像機(jī)，在該攝像機(jī)上渲染部分圖像，對(duì)圖像進(jìn)行涂色，并將附加點(diǎn)添加到點(diǎn)云中。

在實(shí)踐中，保持較大的點(diǎn)云，會(huì)導(dǎo)致在生成高分辨率場(chǎng)景的長(zhǎng)軌跡時(shí)，需要大量GPU內(nèi)存的點(diǎn)太多。

視覺(jué)驗(yàn)證

根據(jù)經(jīng)驗(yàn)，在生成的大部分照片和繪畫(huà)中，會(huì)出現(xiàn)畫(huà)框或照片邊框，從而破壞了幾何圖形的一致性。

此外，在生成的圖像邊界附近經(jīng)常存在不需要的模糊失焦對(duì)象。

因此，文中加入一個(gè)驗(yàn)證步驟，來(lái)識(shí)別和拒絕這些不需要的生成場(chǎng)景。

這里將其表述為基于文本的檢測(cè)問(wèn)題，目標(biāo)是在生成的場(chǎng)景圖像中檢測(cè)一組預(yù)定義的不良效果。

如果檢測(cè)到任何不良影響，框架會(huì)拒絕并重新生成場(chǎng)景圖像。

圖片

上圖展示了從同一輸入圖像生成的不同旅程的定性結(jié)果，表明 WonderJourney 產(chǎn)生的結(jié)果表現(xiàn)良好。

實(shí)驗(yàn)

由于永久3D場(chǎng)景生成是一項(xiàng)沒(méi)有現(xiàn)有數(shù)據(jù)集的新任務(wù)，因此這里混合使用人工拍攝的照片、來(lái)自網(wǎng)絡(luò)的無(wú)版權(quán)照片和生成的示例，用于實(shí)驗(yàn)評(píng)估，并通過(guò)DALL·E 3執(zhí)行文本到圖像配對(duì)的過(guò)程。

論文使用兩種最先進(jìn)的永久視圖生成方法作為基準(zhǔn)：基于圖像的InfiniteNature-Zero和基于文本的SceneScape。

圖片

上圖定性地展示了跨不同場(chǎng)景和不同風(fēng)格生成旅程的示例。其中前兩行輸入是真實(shí)拍攝的照片。

這些結(jié)果表明，WonderJourney能夠從各種類型的輸入圖像中生成多樣化但連貫連接的場(chǎng)景。

圖片

上圖展示了WonderJourney與InfiniteNature-Zero和SceneScape的比較。

由于InfiniteNature-Zero是在自然照片上訓(xùn)練的，因此實(shí)驗(yàn)僅使用逼真的自然圖像作為輸入對(duì)其進(jìn)行比較。

WonderJourney以創(chuàng)意和娛樂(lè)為目的，因此這里專注于人類偏好評(píng)估作為量化的指標(biāo)，使用以下四個(gè)軸：?jiǎn)未温贸讨猩蓤?chǎng)景的多樣性、視覺(jué)質(zhì)量、場(chǎng)景復(fù)雜性和整體趣味性。

實(shí)驗(yàn)招募了400名參與者，其中200名用于評(píng)價(jià)與InfiniteNatureZero相比的情況，另外200名用于比較SceneScape的情況。

每個(gè)參與者回答12個(gè)問(wèn)題（例如“比較下面的兩個(gè)視頻。哪個(gè)視頻具有更高的多樣性？）。

圖片

如上表所示，在所有四個(gè)軸上，WonderJourney都比兩個(gè)基線都更受歡迎。

InfiniteNature-Zero僅合成自然場(chǎng)景，而WonderJourney則生成更多樣化的場(chǎng)景和對(duì)象，例如登山者和房屋，這些場(chǎng)景和對(duì)象與初始自然場(chǎng)景自然相連。

由于使用了紋理網(wǎng)格，SceneScape傾向于生成類似洞穴的場(chǎng)景，因此所有示例都會(huì)收斂到洞穴中。此外，SceneScape往往不會(huì)生成新對(duì)象。所以用戶對(duì)WonderJourney的偏好更高。

參考資料：

https://arxiv.org/pdf/2312.03884.pdf

https://kovenyu.com/wonderjourney/

責(zé)任編輯：武曉燕來(lái)源：新智元

LLM 3D 場(chǎng)景

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)