偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

混元3D開源端到端全景深度估計(jì)器,代碼+精選全景數(shù)據(jù)已上線,在線可玩

人工智能 新聞
騰訊混元3D團(tuán)隊(duì)提出了DA2,一個(gè)準(zhǔn)確的、零樣本泛化能力強(qiáng)且完全端到端的全景深度估計(jì)器。

全景圖具有完整的視場 (360°×180°),比透視圖提供更完整的視覺描述。得益于此特性,全景深度估計(jì)在3D視覺領(lǐng)域正日益受到關(guān)注。

然而,由于全景數(shù)據(jù)的稀缺,以往的方法通常局限于域內(nèi)設(shè)置,導(dǎo)致零樣本泛化能力較差。此外,由于全景圖固有的球面畸變,許多方法依賴于透視分割(例如,cubemaps,立方體貼圖),這導(dǎo)致效率不理想。

為了應(yīng)對(duì)這些挑戰(zhàn),騰訊混元3D團(tuán)隊(duì)提出了DA2,一個(gè)準(zhǔn)確的、零樣本泛化能力強(qiáng)且完全端到端的全景深度估計(jì)器。

背景與挑戰(zhàn)

△圖1:Teaser圖片

與常用的透視圖像不同,全景圖提供沉浸式的360°×180°視角,可從“任何方向”(Any Direction)捕捉視覺內(nèi)容。

這種寬闊的視場使全景圖成為計(jì)算機(jī)視覺領(lǐng)域中必不可少的視覺表示,并賦能了各種激動(dòng)人心的應(yīng)用,例如AR/VR和沉浸式圖像生成。

然而,僅有沉浸式視覺(二維)體驗(yàn)是不夠的。全景圖中的高質(zhì)量深度 (3D) 信息對(duì)3D場景重建/生成、物理模擬、世界模型等更高級(jí)的應(yīng)用至關(guān)重要。

受此啟發(fā),騰訊混元3D團(tuán)隊(duì)專注于以端到端的方式估計(jì)從每個(gè)全景像素到球體中心(即360°相機(jī))的scale-invariant[1]和distance[2],并實(shí)現(xiàn)高保真度和強(qiáng)大的零樣本泛化。

[1] Distance(距離)和depth(深度)具有三種類別,分別是metric,scale-invariant (biased), 和affine-invariant (relative)。Metric是指具有絕對(duì)scale(尺度)的絕對(duì)深度,是最嚴(yán)格的定義。scale-invariant是指不具備絕對(duì)尺度的深度,但是具有全局的shift(or bias,偏差),也是很嚴(yán)格的定義,metric和scale-invariant都可以完整保存具體的3D結(jié)構(gòu)。affine-invariant是最松的定義,它不能保存完好的3D結(jié)構(gòu),主要表達(dá)的是不同像素的前后深度順序。
[2] 嚴(yán)格來講,distance(距離)為:,depth(深度)為z。這里使用depth是為了更好的可讀性和連貫性。

挑戰(zhàn)在于:

  • 拍攝或渲染全景圖比透視圖更具挑戰(zhàn)性,因?yàn)槿吧疃葦?shù)據(jù)的數(shù)量和多樣性都非常有限。因此,早期的方法大多是在領(lǐng)域內(nèi)進(jìn)行訓(xùn)練和測試,零樣本泛化能力非常有限。
  • 由于全景圖固有的球面畸變,許多方法融合了ERP(1個(gè)全景圖)和立方體貼圖(6個(gè)透視視角)投影的特征。這些策略雖然有效,但仍然需要額外的模塊,因此不夠精簡,效率也不夠高。

核心貢獻(xiàn)

這項(xiàng)工作的首要目標(biāo)是擴(kuò)展全景數(shù)據(jù),并為DA2構(gòu)建堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

騰訊混元3D團(tuán)隊(duì)首先想到的,是基于大量高質(zhì)量的透視深度數(shù)據(jù),轉(zhuǎn)換得到全景數(shù)據(jù)。為此,他們提出了一個(gè)數(shù)據(jù)管理引擎,將透視樣本轉(zhuǎn)換為高質(zhì)量的全景數(shù)據(jù)。

△全景數(shù)據(jù)擴(kuò)充引擎

具體來說,給定一個(gè)已知水平和垂直視場角的透視RGB圖像,首先應(yīng)用透視到等距矩形(Perspective-to-Equirectangular,P2E)投影將圖像映射到球面空間。

然而,由于透視圖像的視場角有限(水平范圍通常為70°-90°),因此只能覆蓋球面空間的一小部分(如圖2左側(cè)球體所示)。因此,這樣的P2E投影圖像可以被視為“不完整”的全景圖。這種不完整性會(huì)導(dǎo)致性能不佳:1)該模型缺乏全局背景,因?yàn)樗鼜奈从^察到全景圖像的全貌,尤其是在兩極附近;2)球面畸變?cè)诔嗟篮蛢蓸O之間差異很大,高緯度地區(qū)會(huì)出現(xiàn)嚴(yán)重的拉伸。

為此,研究團(tuán)隊(duì)將使用全景圖的外推引擎進(jìn)行全景外推,以生成與模型輸入匹配的“完整”全景圖。對(duì)于相關(guān)的GT深度,研究團(tuán)隊(duì)僅應(yīng)用P2E投影,而未進(jìn)行外推,因?yàn)橥馔粕疃鹊慕^對(duì)精度很難得的保證??傮w而言,該數(shù)據(jù)擴(kuò)充引擎顯著提升了全景數(shù)據(jù)的數(shù)量和多樣性,并顯著增強(qiáng)了DA2的零樣本性能,如圖3所示。

△圖3:模型性能與數(shù)據(jù)規(guī)模的曲線

該數(shù)據(jù)擴(kuò)充引擎創(chuàng)建了約543K個(gè)全景樣本,將樣本總數(shù)從約63K擴(kuò)展到約607K(約10倍),顯著解決了數(shù)據(jù)稀缺導(dǎo)致泛化能力差的問題。

接下來,研究團(tuán)隊(duì)重點(diǎn)關(guān)注DA2的模型結(jié)構(gòu)和訓(xùn)練,以便有效地從大幅擴(kuò)展的數(shù)據(jù)中進(jìn)行學(xué)習(xí)。

△圖4:SphereViT 架構(gòu)及其訓(xùn)練損失

為了減輕球面畸變的影響,受Vision Transformers (ViT) 中位置嵌入的啟發(fā),研究團(tuán)隊(duì)提出了SphereViT——DA2的主要模型架構(gòu)。

具體來說,從球體布局出發(fā),研究團(tuán)隊(duì)首先計(jì)算以相機(jī)為中心的球面坐標(biāo)系中每個(gè)像素的球面角(方位角和極角)。

然后,使用正弦-余弦基函數(shù)將這個(gè)雙通道角度場擴(kuò)展至圖像特征維度,從而形成球面嵌入(Spherical Embedding)。由于所有全景圖都具有相同的完整視場,因此該球面嵌入可以固定且可重復(fù)使用。為了注入球面感知,只需讓圖像特征去“關(guān)注”球面嵌入,而不必反過來。也就是說,SphereViT并非像標(biāo)準(zhǔn)ViT那樣在自注意力機(jī)制之前將位置嵌入添加到圖像特征上,而是采用交叉注意力機(jī)制:將圖像特征視為查詢,將球面嵌入視為鍵和值。這種設(shè)計(jì)使圖像特征能夠明確地關(guān)注全景圖的球面幾何形狀,從而產(chǎn)生可感知畸變的表示并提升性能,如圖5(a)所示。

△圖5:消融研究

在訓(xùn)練過程中,模型的監(jiān)督機(jī)制結(jié)合了兩個(gè)方面:距離損失約束全局精確的距離值;法線損失促進(jìn)局部平滑、銳利的幾何表面,尤其是在距離值相似但表面法線差異較大的區(qū)域,如圖5(b)所示。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證DA2,研究團(tuán)隊(duì)結(jié)合多個(gè)公認(rèn)的評(píng)估數(shù)據(jù)集,對(duì)尺度不變距離進(jìn)行了全面的基準(zhǔn)測試。

△表1:定量比較

然而,由于全景數(shù)據(jù)的稀缺,現(xiàn)有的全景深度估計(jì)零樣本方法有限,而在透視深度估計(jì)方面,存在許多強(qiáng)大的零樣本方法。因此,為了確保更公平、更全面的比較,研究團(tuán)隊(duì)遵循MoGe (https://github.com/microsoft/moge)提出的全景深度估計(jì)流程,并將DA2與先前的零樣本透視深度估計(jì)器(Metric3D v1v2、VGGT、UniDepth v1v2、ZoeDepth、DepthAnuthing v1v2、Lotus、MoGe v1v2)也引入了基準(zhǔn)測試。

如表1所示,DA2展現(xiàn)出了SOTA性能,其AbsRel性能比最強(qiáng)的zero-shot方法平均提升了38%。

值得注意的是,它甚至超越了之前的in-domain方法,進(jìn)一步凸顯了其卓越的泛化能力。

△圖6:定性比較

研究團(tuán)隊(duì)還進(jìn)行了定性比較,如圖6所示。得益于本文提出的數(shù)據(jù)管理引擎,DA2訓(xùn)練所用的全景數(shù)據(jù)比UniK3D多出約21倍,展現(xiàn)出更精確的幾何預(yù)測。DA2也優(yōu)于MoGev2,因?yàn)楹笳叩娜靶阅苁艿饺诤线^程中多視角不一致性(例如不規(guī)則墻壁、破碎的建筑物等)的限制。

應(yīng)用場景

DA2憑借其卓越的零樣本泛化全景深度估計(jì)能力,有效地實(shí)現(xiàn)了廣泛的3D重建相關(guān)應(yīng)用,例如全景多視圖重建。

如圖7所示,DA2能夠根據(jù)房屋/公寓不同房間的全景圖像,重建全局對(duì)齊的3D點(diǎn)云,確保不同房間的多個(gè)全景視圖之間的空間一致性。

△圖7:Pano3R,全景多視圖重建

項(xiàng)目主頁:
https://depth-any-in-any-dir.github.io/

文章鏈接:
https://arxiv.org/abs/2509.26618
Github倉庫 (已開源):
https://github.com/EnVision-Research/DA-2
Huggingface demo (歡迎試玩):
https://huggingface.co/spaces/haodongli/DA-2
Huggingface model:
https://huggingface.co/haodongli/DA-2


責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2016-09-21 14:24:37

3D全景瀏覽器瀏覽器

2025-10-20 08:42:00

2025-07-24 09:10:00

2024-11-06 09:47:00

2016-09-13 17:51:23

Html5CSSWeb

2016-04-07 09:46:50

H5VR3d

2023-11-24 09:56:19

自動(dòng)駕駛訓(xùn)練

2024-01-08 09:33:28

自動(dòng)駕駛3D

2024-12-09 14:30:00

2025-01-08 09:15:00

2022-12-16 09:44:39

3D智能

2021-09-26 13:50:52

AI 數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2020-10-25 11:28:12

開源端到端流水線

2012-08-13 17:11:37

Silverlight

2024-04-17 09:56:24

算法模型

2024-04-29 09:36:14

仿真器傳感器

2023-05-12 14:13:23

3D建模OpenAI

2020-08-26 10:37:21

阿里3D

2016-07-21 14:13:16

VR
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)