偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sup id="71844"></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

NUS華人團隊最新模型，單視圖重建3D，又快又準(zhǔn)

作者：新智元 2023-04-24 16:25:47

人工智能新聞

計算機視覺迎來大突破！新加坡國立大學(xué)學(xué)者開發(fā)Anything-3D，單圖超快3D重建！

2D圖像的3D重建一直是CV領(lǐng)域的重頭戲。

層出不同的模型被開發(fā)出來試圖攻克這個難題。

今天，新加坡國立大學(xué)的學(xué)者共同發(fā)表了一篇論文，開發(fā)了一個全新的框架Anything-3D來解決這個老大難問題。

論文地址：https://arxiv.org/pdf/2304.10261.pdf

借助Meta「分割一切」模型，Anything-3D直接讓分割后的任意物體活起來了。

另外，再用上Zero-1-to-3模型，你就可以得到不同角度的柯基。

甚至，還可以進行人物3D重建。

可以說，這把真突破了。

Anything-3D！

在現(xiàn)實世界中，各種物體和各類環(huán)境既多樣又復(fù)雜。所以，在不受限制的情況下，從單一RGB圖像中進行三維重建面臨諸多困難。

在此，新加坡國立大學(xué)研究人員結(jié)合了一系列視覺語言模型和SAM（Segment-Anything）物體分割模型，生成了一個功能多、可靠性強的系統(tǒng)——Anything-3D。

目的就是在單視角的條件下，完成3D重建的任務(wù)。

他們采用BLIP模型生成紋理描述，用SAM模型提取圖像中的物體，然后利用文本→圖像的擴散模型Stable Diffusion將物體放置到Nerf（神經(jīng)輻射場）中。

在后續(xù)的實驗中，Anything-3D展示出了其強大的三維重建的能力。不僅準(zhǔn)確，適用面也非常廣泛。

Anything-3D在解決現(xiàn)有方法的局限這方面，效果明顯。研究人員通過對各類數(shù)據(jù)集的測驗和評估，展示了這種新框架的優(yōu)點。

上圖中，我們可以看到，「柯基吐舌頭千里奔襲圖」、「銀翅女神像委身豪車圖」，以及「田野棕牛頭戴藍繩圖」。

這是一個初步展示，Anything-3D框架能夠熟練地把在任意的環(huán)境中拍攝的單視角圖像中恢復(fù)成的3D的形態(tài)，并生成紋理。

盡管相機視角和物體屬性有很大的變化，但這種新框架始終能提供準(zhǔn)確性較高的結(jié)果。

要知道，從2D圖像中重建3D物體是計算機視覺領(lǐng)域課題的核心，對機器人、自動駕駛、增強現(xiàn)實、虛擬現(xiàn)實，以及三維打印等領(lǐng)域都有巨大影響。

雖說這幾年來取得了一些不錯的進展，但在非結(jié)構(gòu)化環(huán)境中進行單圖像物體重建的任務(wù)仍然是一個具有很大吸引力且亟待解決的問題。

目前，研究人員的任務(wù)就是從一張單一的二維圖像中生成一個或多個物體的三維表示，表示方法包括點云、網(wǎng)格或體積表示。

然而，這個問題從根本上來說并不成立。

由于二維投影所產(chǎn)生的內(nèi)在模糊性，不可能明確地確定一個物體的三維結(jié)構(gòu)。

再加上形狀、大小、紋理和外觀的巨大差異，重建自然環(huán)境下的物體非常復(fù)雜。此外，現(xiàn)實世界圖像中的物體經(jīng)常會被遮擋，這就會阻礙被遮擋部分的精準(zhǔn)重建。

同時，光照和陰影等變量也會極大地影響物體的外觀，而角度和距離的不同也會導(dǎo)致二維投影的明顯變化。

困難說夠了，Anything-3D可以出場了。

論文中，研究人員詳細介紹了這個開創(chuàng)性的系統(tǒng)框架，將視覺語言模型和物體分割模型融合在一起，輕輕松松就能把2D物體搞成3D的。

這樣，一個功能強大、自適應(yīng)能力強的系統(tǒng)就成了。單視圖重建？Easy.

研究人員表示，將這兩種模型結(jié)合，就可以檢索并確定出給定圖像的三維紋理和幾何形狀。

Anything-3D利用BLIP模型（Bootstrapping語言-圖像模型）預(yù)訓(xùn)練對圖像的文本描述，然后再用SAM模型識別物體的分布區(qū)域。

接下來，利用分割出來的物體和文本描述來執(zhí)行3D重建任務(wù)。

換句話說，該論文利用預(yù)先訓(xùn)練好的2D文本→圖像擴散模型來進行圖像的3D合成。此外，研究人員用分?jǐn)?shù)蒸餾來訓(xùn)練一個專門用于圖像的Nerf.

上圖就是生成3D圖像的全過程。左上角是2D原圖，先經(jīng)過SAM，分割出柯基，再經(jīng)過BLIP，生成文本描述，然后再用分?jǐn)?shù)蒸餾搞個Nerf出來。

通過對不同數(shù)據(jù)集的嚴(yán)格實驗，研究人員展示了這種方法的有效性和自適應(yīng)性，同時，在準(zhǔn)確性、穩(wěn)健性和概括能力方面都超過了現(xiàn)有的方法。

研究人員還對自然環(huán)境中3D物體重建中已有的挑戰(zhàn)進行了全面深入地分析，探討了新框架如何解決此類問題。

最終，通過將基礎(chǔ)模型中的零距離視覺和語言理解能力相融合，新框架更能從真實世界的各類圖像中重建物體，生成精確、復(fù)雜、適用面廣的3D表示。

可以說，Anything-3D是3D物體重建領(lǐng)域的一個重大突破。

下面是更多的實例：

炫酷黑內(nèi)飾小白保時捷，亮麗橙色挖機吊車，綠帽小黃橡皮鴨

時代眼淚褪色大炮、小豬豬可愛迷你存錢罐、朱砂紅四腿高腳凳

這個新框架可以交互式地識別單視角圖像中的區(qū)域，并用優(yōu)化的文本嵌入來表示2D物體。最終，使用一個3D感知的分?jǐn)?shù)蒸餾模型有效地生成高質(zhì)量的3D物體。

總之，Anything-3D展示了從單視角圖像中重建自然3D物體的潛力。

研究者稱，新框架3D重建的質(zhì)量還可以更完美，研究人員正在不斷努力提高生成的質(zhì)量。

此外，研究人員表示，目前沒有提供3D數(shù)據(jù)集的定量評估，如新的視圖合成和誤差重建，但在未來的工作迭代中會納入這些內(nèi)容。

同時，研究人員的最終目標(biāo)是擴大這個框架，以適應(yīng)更多的實際情況，包括稀疏視圖下的對象恢復(fù)。

作者介紹

Wang目前是新加坡國立大學(xué)（NUS）ECE系的終身制助理教授。

在加入新加坡國立大學(xué)之前，他曾是Stevens理工學(xué)院CS系的一名助理教授。在加入Stevens之前，我曾在伊利諾伊大學(xué)厄巴納-香檳分校Beckman研究所的Thomas Huang教授的圖像形成小組擔(dān)任博士后。

Wang在洛桑聯(lián)邦理工學(xué)院（EPFL）計算機視覺實驗室獲得博士學(xué)位，由Pascal Fua教授指導(dǎo)，并在2010年獲得香港理工大學(xué)計算機系的一等榮譽學(xué)士學(xué)位。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營