偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="tjzce"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一張圖or文字生成無限3D世界！斯坦福吳佳俊團隊新作，讓網(wǎng)友直呼“難以置信”

作者：量子位 2023-12-14 12:57:00

人工智能新聞

這項工作名為WonderJourney，由斯坦福吳佳俊團隊和谷歌研究院聯(lián)合打造。除了可以從任意位置開始，無限生成多樣化且連貫的3D場景，WonderJourney根據(jù)文本描述生成時，可控性也很高。

斯坦福吳佳俊團隊打造AI版“愛麗絲夢游仙境”巨作！

僅用一張圖or一段文字就能沿相機軌跡生成無限連貫3D場景：

只需輸入一段古詩詞，詩中場景立刻映入眼簾：

而且還是來回式的，可以再倒回去的那種：

同一起點可以進入不同場景：

真實場景也可以，其中的人物陰影等細節(jié)都毫無違和感：

方塊世界更不在話下，仿佛打開了“我的世界”：

這項工作名為WonderJourney，由斯坦福吳佳俊團隊和谷歌研究院聯(lián)合打造。

除了可以從任意位置開始，無限生成多樣化且連貫的3D場景，WonderJourney根據(jù)文本描述生成時，可控性也很高。

只要將鼠標懸停在視頻上，就可以暫停自動滑動。

這項工作的發(fā)布讓網(wǎng)友們直呼“難以置信”??。項目代碼還沒正式發(fā)布，就收獲了200+星：

AI研究員Xander Steenbrugge驚訝之余表示：

這是生成式AI和傳統(tǒng)3D技術(shù)的完美結(jié)合。

要知道，之前的工作都是專注于單一類型場景，WonderJourney可謂打開了新世界的大門。

那這究竟是如何做到的？

開啟3D奇妙之旅

生成無限連貫3D場景要解決的一大難題是：如何在保持元素多樣性的同時，生成符合邏輯的場景元素組合。

這當中需要判斷將要生成的元素空間位置的合理性，還需要處理好新舊場景的遮擋關(guān)系、視差等幾何關(guān)系。

可以看到WonderJourney在這方面的處理上非常細致：

無論什么風格都能輕松駕馭：

能夠做到這些，關(guān)鍵在于WonderJourney的模塊化流程。

總的生成過程分為“確定要生成什么對象”、“把這些對象放在哪里”、“這些場景如何在幾何上連接”三步。

需要以下三個模塊配合完成：

Scene description generation：使用大語言模型（LLM）根據(jù)當前場景生成下一個場景的文本描述。
Visual scene generation：將文本描述轉(zhuǎn)換為3D點云表示的場景。
Visual validation：使用VLM驗證生成的場景，檢測到不合理的結(jié)果啟動重新生成。

具體來說，在Scene description generation模塊，使用預(yù)訓練好的LLM輸入當前場景描述，通過自回歸生成下一個場景，其中包含風格、物體、背景三部分的描述。

此外，還要將自然語言描述進行詞類過濾，只保留名詞和形容詞；每生成一個新場景描述，會更新場景描述記憶。

在Visual scene generation模塊，先是將當前圖像/文本轉(zhuǎn)換為3D點云表示。

然后使用depth refinement增強對象邊界的depth不連續(xù)性，通俗來講就是讓邊界兩側(cè)的深度對比更加明顯，從而使過渡更加逼真。

之后使用text-guided inpainting基于文本描述生成新場景圖像。

研究人員還設(shè)計了depth consistency loss和re-rendering consistency機制改進新舊場景遮擋和點云對齊。

最后Visual validation模塊，使用VLM提示檢測生成圖像中的不好的結(jié)果，比如畫框、模糊等，如果檢測到則重新生成場景。

值得一提的是，這三個模塊都可用最先進的預(yù)訓練模型實現(xiàn)、替換，所以不需要任何訓練。

實驗測試

由于連貫3D場景生成是一個沒有現(xiàn)有可用數(shù)據(jù)集的新任務(wù)，所以研究人員在實驗中使用了自己拍攝的照片、來自在線無版權(quán)的照片以及生成的圖片進行了評估。

此外，使用了兩種最先進的連續(xù)視圖生成方法作為基準：基于圖像的InfiniteNature-Zero和基于文本的SceneScape。

定性結(jié)果展示了從不同類型輸入生成的連貫3D場景序列效果，表明方法可以從任何輸入開始生成：

此外，同一輸入可生成不同輸出，表明方法具有多樣性：

研究人員還從生成效果多樣性、視覺質(zhì)量、場景復雜度和有趣度這4個方面進行了人類偏好評估。

結(jié)果WonderJourney方法明顯優(yōu)于InfiniteNature-Zero、SceneScape。

作者簡介

該篇論文來自斯坦福大學吳佳俊團隊和谷歌研究院。

論文一作俞洪興，斯坦福大學四年級博士生，導師吳佳俊。

主要研究領(lǐng)域為物理場景理解和動態(tài)建模。

俞洪興曾在谷歌研究院實習，論文部分工作是在實習期間完成。

吳佳俊，現(xiàn)任斯坦福大學助理教授，隸屬于斯坦福視覺與學習實驗室 (SVL)和斯坦福人工智能實驗室 (SAIL)。

在麻省理工學院完成博士學位，本科畢業(yè)于清華大學姚班，曾被譽為“清華十大學神之一”。

論文鏈接：https://arxiv.org/abs/2312.03884

責任編輯：張燕妮來源：量子位

模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<blockquote id="ui5h8"></blockquote>}

<ol id="ui5h8"></ol>