偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

2D圖像作中介,零訓(xùn)練實(shí)現(xiàn)3D場景生成SOTA:英偉達(dá)&康奈爾提出文本驅(qū)動新流程

人工智能 新聞
能否讓 2D 圖像充當(dāng) "中間商",先把用戶輸入文字轉(zhuǎn)化為高質(zhì)量場景圖,再從中提取 3D 信息?NVIDIA 與康奈爾大學(xué)聯(lián)合團(tuán)隊(duì)的最新研究 ArtiScene,正是基于這一 insight 提出的全新解決方案。

本文第一作者顧澤琪是康奈爾大學(xué)計(jì)算機(jī)科學(xué)四年級博士生,導(dǎo)師為 Abe Davis 教授和 Noah Snavely 教授,研究方向?qū)W⒂谏墒?AI 與多模態(tài)大模型。本項(xiàng)目為作者在英偉達(dá)實(shí)習(xí)期間完成的工作。

想象一下,你是一位游戲設(shè)計(jì)師,正在為一個奇幻 RPG 游戲搭建場景。你需要創(chuàng)建一個 "精靈族樹屋村落"—— 參天古木和樹屋、發(fā)光的蘑菇路燈、半透明的紗幔帳篷... 傳統(tǒng)工作流程中,這可能需要數(shù)周時間:先手工建模每個 3D 資產(chǎn),再逐個調(diào)整位置和材質(zhì),最后反復(fù)測試光照效果…… 總之就是一個字,難。

這種困境正是當(dāng)前 3D 內(nèi)容創(chuàng)作領(lǐng)域的縮影。傳統(tǒng) 3D 設(shè)計(jì)軟件如 Blender、Maya 雖然功能強(qiáng)大,但學(xué)習(xí)曲線陡峭。近年來興起的文本生成 3D 技術(shù)讓用戶可以通過文字描述生成 3D 內(nèi)容,但這些方法要么依賴有限的 3D 訓(xùn)練數(shù)據(jù),遇到新場景類型或風(fēng)格就容易翻車,要么在預(yù)測完場景中的物體信息后,要從特定的 3D 模型池中尋找并調(diào)用出與預(yù)測特征最相近的,因此最后的場景質(zhì)量非常依賴于模型池中到底有什么,很容易導(dǎo)致風(fēng)格不統(tǒng)一。

與此同時,文本生成 2D 圖像技術(shù)(如 GPT-4o、Flux)卻突飛猛進(jìn)。這些模型通過海量互聯(lián)網(wǎng)圖像訓(xùn)練,已經(jīng)能生成布局合理、風(fēng)格統(tǒng)一的復(fù)雜場景圖。這引發(fā)了一個關(guān)鍵思考:能否讓 2D 圖像充當(dāng) "中間商",先把用戶輸入文字轉(zhuǎn)化為高質(zhì)量場景圖,再從中提取 3D 信息?NVIDIA 與康奈爾大學(xué)聯(lián)合團(tuán)隊(duì)的最新研究 ArtiScene,正是基于這一 insight 提出的全新解決方案。

圖片

  • 文章鏈接:https://arxiv.org/abs/2506.00742
  • 文章網(wǎng)站:https://artiscene-cvpr.github.io/(代碼即將開源)
  • 英偉達(dá)網(wǎng)站:https://research.nvidia.com/labs/dir/artiscene/

圖片

圖一:ArtiScene 生成的 3D 結(jié)果。從左到右的文字輸入分別是,第一行:(1) a Barbie-styled clinic room, (2) a space-styled bedroom, (3) a teenager-styled bathroom。第二行:(1) a cute living room, (2) a garage, (3) a operating room.

核心貢獻(xiàn):無需訓(xùn)練的智能 3D 場景工廠

ArtiScene 的核心創(chuàng)新在于構(gòu)建了一個完全無需額外訓(xùn)練的自動化流水線,將文本生成圖像的前沿能力與 3D 重建技術(shù)巧妙結(jié)合。它一共包含五步:

1. 2D 圖像作為 "設(shè)計(jì)藍(lán)圖"

系統(tǒng)首先用擴(kuò)散模型生成等軸測視角的場景圖。這種視角常用于建筑設(shè)計(jì)示意圖,因?yàn)樗芡瑫r呈現(xiàn)物體的長、寬、高信息,且不受場景位置影響。相比直接生成 3D,這種方法能利用更成熟的 2D 生成技術(shù)確保布局合理性和視覺美感。

圖片

圖二:和其他任意的相機(jī)視角(左二、三)比,讓文生圖模型輸出等軸測圖(左一)更可靠,因?yàn)榈容S測圖默認(rèn)相機(jī)參數(shù)是固定的,且沒有透視形變。

2. 物體檢測與修復(fù)

采用兩階段檢測策略:先用 GroundedDINO 識別場景中的家具和裝飾品,對遮擋部分用補(bǔ)全修復(fù)(Remove Anything 模型),再次檢測確保完整性,最后得到每個物品的分割掩碼。

3. 3D 空間定位

通過 Depth-Anything-2 模型估計(jì)深度信息,配合自定義投影公式將 2D 坐標(biāo)轉(zhuǎn)換為 3D 位置。團(tuán)隊(duì)發(fā)現(xiàn)傳統(tǒng)相機(jī)投影公式需要調(diào)整,于是采用去除深度縮放影響后的公式。

4. 模塊化 3D 資產(chǎn)生成

傳統(tǒng)方法通常從現(xiàn)有數(shù)據(jù)庫檢索 3D 模型,導(dǎo)致美觀度受限。ArtiScene 則對場景圖中的每個物體分別生成定制化 3D 模型:在得到分割物體圖像后,讓 ChatGPT 描述其幾何特征,再輸入單視圖 3D 生成模型,為每件家具、裝飾品單獨(dú)建模。

5. 場景組裝

通過單目深度估計(jì),系統(tǒng)將 2D 邊界框轉(zhuǎn)換為 3D 空間坐標(biāo)。并使用 "渲染 - 比對" 的姿勢估測機(jī)制,生成 8 個旋轉(zhuǎn)角度的物體渲染圖,用 Stable Diffusion+DINO-v2 融合模型提取特征,選擇與原始場景圖最匹配的姿勢。后處理階段還會自動修正物體重疊,確保物理上足夠合理,比如椅子不會嵌進(jìn)餐桌里,花瓶能穩(wěn)穩(wěn)立在柜子上。

圖片

圖三:系統(tǒng)流程圖

這種設(shè)計(jì)帶來三個顯著優(yōu)勢:

?零訓(xùn)練成本:完全利用現(xiàn)成模型,無需針對新場景類型微調(diào)

?風(fēng)格無限:每個物體都按需生成,不受預(yù)制模型庫限制

?可編輯性強(qiáng):單獨(dú)修改某個物體不會影響整體場景

實(shí)驗(yàn)結(jié)果:全面超越現(xiàn)有方案

團(tuán)隊(duì)在三個維度進(jìn)行了系統(tǒng)評估:

1. 布局合理性測試

對比當(dāng)時最強(qiáng)的 LayoutGPT,在臥室和客廳場景中:

  • 物體重疊率降低 6-10 倍(臥室 6.48% vs 37.26%)
  • 用戶調(diào)研顯示,72.58% 的參與者更青睞 ArtiScene 的布局
  • 生成家具數(shù)量更多(臥室平均 6.97 件 vs 4.30 件),且分布更自然

2. 風(fēng)格一致性測試

相比當(dāng)時效果最好的文生 3D 場景方法 Holodeck,在包含 29 種場景種類和風(fēng)格的測試集中:

  • CLIP 分?jǐn)?shù)提高 10%(29.45 vs 26.73)
  • GPT-4 評估中,95.46% 案例認(rèn)為 ArtiScene 更符合描述
  • 用戶調(diào)研顯示,82.96% 認(rèn)為風(fēng)格還原更準(zhǔn)確

圖片

圖四:和之前的 SOTA Holodeck 的比較。

3. 應(yīng)用靈活性展示

系統(tǒng)支持多種實(shí)用功能:

  • 物體編輯:單獨(dú)修改某個模型(如把普通汽車變成黃色保時捷)
  • 多場景適配:通過調(diào)整參數(shù)支持戶外場景生成
  • 人工引導(dǎo):允許直接輸入手繪設(shè)計(jì)圖替代 AI 生成場景圖

圖片

圖五:左:物體編輯;右:跳過最開始的文生圖環(huán)節(jié),直接用人工畫的圖生成場景。

展望

對于更復(fù)雜的多房間場景(如整個博物館、醫(yī)院),或者要求特定家具間的位置關(guān)系和個數(shù)等用戶輸入,由于文生圖模型在訓(xùn)練時就缺乏相關(guān)數(shù)據(jù),ArtiScene 在最開始就會受限于不夠優(yōu)質(zhì)的二維圖像。然而,這一模塊是可更換的,ArtiScene 不依賴于某一特定模型,未來如果有性能更好的同功能模型,我們也可以很容易把它們替換進(jìn)來。

本項(xiàng)目創(chuàng)新地采用二維圖像來引導(dǎo)三維場景生成,并用 LLM、VLM 等大模型構(gòu)成了一個魯棒的系統(tǒng),在生成結(jié)果的美觀度、多樣性和物理合理性上都遠(yuǎn)超之前的同類型方法。作者希望他們的工作可以啟發(fā)未來更多關(guān)于具身智能、AR/VR、室內(nèi) / 室外設(shè)計(jì)的思考。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-13 10:00:00

模型生成3D

2024-04-23 09:30:07

3D模型

2023-05-03 09:01:41

CanvasWebGL

2021-04-19 09:22:03

科技人工智能技術(shù)

2023-04-27 15:54:02

模型研究

2020-03-06 10:34:40

AI 數(shù)據(jù)人工智能

2024-10-15 13:07:38

2025-05-07 10:09:49

3D模型生成

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2019-11-18 10:22:01

深度學(xué)習(xí)編程人工智能

2023-12-07 10:37:55

3D框架AI

2025-03-27 09:26:30

2023-09-27 10:13:09

3D模型

2024-12-10 09:40:00

AI3D模型

2011-09-22 10:07:52

奧圖碼投影儀

2023-02-20 14:56:14

圖像

2023-06-02 13:47:44

英偉達(dá)AI

2025-01-07 13:19:48

模型AI訓(xùn)練

2020-08-26 10:37:21

阿里3D

2011-05-03 11:07:46

2D3D麗訊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號