偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

零樣本6D物體姿態(tài)估計框架SAM-6D,向具身智能更進一步

人工智能 新聞
零樣本 6D 姿態(tài)估計是一種更具泛化性的任務(wù)設(shè)置,給定任意物體的 CAD 模型,旨在場景中檢測出該目標物體,并估計其 6D 姿態(tài)。

物體姿態(tài)估計在許多現(xiàn)實世界應(yīng)用中起到至關(guān)重要的作用,例如具身智能、機器人靈巧操作和增強現(xiàn)實等。

在這一領(lǐng)域中,最先受到關(guān)注的任務(wù)是實例級別 6D 姿態(tài)估計,其需要關(guān)于目標物體的帶標注數(shù)據(jù)進行模型訓(xùn)練,使深度模型具有物體特定性,無法遷移應(yīng)用到新物體上。后來研究熱點逐步轉(zhuǎn)向類別級別 6D 姿態(tài)估計,用于處理未見過的物體,但要求該物體屬于已知的感興趣類別。

零樣本 6D 姿態(tài)估計是一種更具泛化性的任務(wù)設(shè)置,給定任意物體的 CAD 模型,旨在場景中檢測出該目標物體,并估計其 6D 姿態(tài)。盡管其具有重要意義,這種零樣本的任務(wù)設(shè)置在物體檢測和姿態(tài)估計方面都面臨著巨大的挑戰(zhàn)。

圖片

圖 1. 零樣本 6D 物體姿態(tài)估計任務(wù)示意

最近,分割一切模型 SAM [1] 備受關(guān)注,其出色的零樣本分割能力令人矚目。SAM 通過各種提示,如像素點、包圍框、文本和掩膜等,實現(xiàn)高精度的分割,這也為零樣本 6D 物體姿態(tài)估計任務(wù)提供了可靠的支撐, 展現(xiàn)了其前景的潛力。

因此,來自跨維智能、香港中文大學(xué)(深圳)、華南理工大學(xué)的研究人員提出了一個新穎的零樣本 6D 物體姿態(tài)估計框架 SAM-6D。該論文目前已被 CVPR 2024 接受。

圖片


  • 論文鏈接: https://arxiv.org/pdf/2311.15707.pdf
  • 代碼鏈接: https://github.com/JiehongLin/SAM-6D

SAM-6D 通過兩個步驟來實現(xiàn)零樣本 6D 物體姿態(tài)估計,包括實例分割和姿態(tài)估計。相應(yīng)地,給定任意目標物體,SAM-6D 利用兩個專用子網(wǎng)絡(luò),即實例分割模型(ISM)和姿態(tài)估計模型(PEM),來從 RGB-D 場景圖像中實現(xiàn)目標;其中,ISM 將 SAM 作為一個優(yōu)秀的起點,結(jié)合精心設(shè)計的物體匹配分數(shù)來實現(xiàn)對任意物體的實例分割,PEM 通過局部到局部的兩階段點集匹配過程來解決物體姿態(tài)問題。SAM-6D 的總覽如圖 2 所示。

圖片

圖 2. SAM-6D 總覽圖

總體來說,SAM-6D 的技術(shù)貢獻可概括如下:

  • SAM-6D 是一個創(chuàng)新的零樣本 6D 姿態(tài)估計框架,通過給定任意物體的 CAD 模型,實現(xiàn)了從 RGB-D 圖像中對目標物體進行實例分割和姿態(tài)估計,并在 BOP [2] 的七個核心數(shù)據(jù)集上表現(xiàn)優(yōu)異。
  • SAM-6D 利用分割一切模型的零樣本分割能力,生成了所有可能的候選對象,并設(shè)計了一個新穎的物體匹配分數(shù),以識別與目標物體對應(yīng)的候選對象。
  • SAM-6D 將姿態(tài)估計視為一個局部到局部的點集匹配問題,采用了一個簡單但有效的 Background Token 設(shè)計,并提出了一個針對任意物體的兩階段點集匹配模型;第一階段實現(xiàn)粗糙的點集匹配以獲得初始物體姿態(tài),第二階段使用一個新穎的稀疏到稠密點集變換器以進行精細點集匹配,從而對姿態(tài)進一步優(yōu)化。

實例分割模型 (ISM)

SAM-6D 使用實例分割模型(ISM)來檢測和分割出任意物體的掩膜。

給定一個由 RGB 圖像表征的雜亂場景,ISM 利用分割一切模型(SAM)的零樣本遷移能力生成所有可能的候選對象。對于每個候選對象,ISM 為其計算一個物體匹配分數(shù),以估計其與目標物體之間在語義、外觀和幾何方面的匹配程度。最后通過簡單設(shè)置一個匹配閾值,即可識別出與目標物體所匹配的實例。

物體匹配分數(shù)的計算通過三個匹配項的加權(quán)求和得到:

語義匹配項 —— 針對目標物體,ISM 渲染了多個視角下的物體模板,并利用 DINOv2 [3] 預(yù)訓(xùn)練的 ViT 模型提取候選對象和物體模板的語義特征,計算它們之間的相關(guān)性分數(shù)。對前 K 個最高的分數(shù)進行平均即可得到語義匹配項分數(shù),而最高相關(guān)性分數(shù)對應(yīng)的物體模板視為最匹配模板。

外觀匹配項 —— 對于最匹配模板,利用 ViT 模型提取圖像塊特征,并計算其與候選對象的塊特征之間的相關(guān)性,從而獲得外觀匹配項分數(shù),用于區(qū)分語義相似但外觀不同的物體。

幾何匹配項 —— 鑒于不同物體的形狀和大小差異等因素,ISM 還設(shè)計了幾何匹配項分數(shù)。最匹配模板對應(yīng)的旋轉(zhuǎn)與候選對象點云的平均值可以給出粗略的物體姿態(tài),利用該姿態(tài)對物體 CAD 模型進行剛性變換并投影可以得到邊界框。計算該邊界框與候選邊界框的交并比(IoU)則可得幾何匹配項分數(shù)。

姿態(tài)估計模型 (PEM)

對于每個與目標物體匹配的候選對象,SAM-6D 利用姿態(tài)估計模型(PEM)來預(yù)測其相對于物體 CAD 模型的 6D 姿態(tài)。 

將分割的候選對象和物體 CAD 模型的采樣點集分別表示為圖片 圖片,其中 N_m 和 N_o 表示它們點的數(shù)量;同時,將這兩個點集的特征表示為圖片圖片,C 表示特征的通道數(shù)。PEM 的目標是得到一個分配矩陣,用于表示從 P_m 到 P_o 之間的局部到局部對應(yīng)關(guān)系;由于遮擋的原因,P_o 只部分與匹配 P_m,而由于分割不準確性和傳感器噪聲,P_m 也只部分與匹配 P_o。

為了解決兩個點集非重疊點的分配問題,ISM 為它們分別配備了 Background Token,記為 圖片 和 圖片,則可以基于特征相似性有效地建立局部到局部對應(yīng)關(guān)系。具體來說,首先可以計算注意力矩陣如下:

圖片

接著可得分配矩陣

圖片

圖片 和 圖片 分別表示沿著行和列的 softmax 操作,圖片 表示一個常數(shù)。圖片 中的每一行的值(除了首行),表示點集 P_m 中每個點 P_m 與背景及 P_o 中點的匹配概率,通過定位最大分數(shù)的索引,則可以找到與 P_m 匹配的點(包括背景)。

一旦計算獲得 圖片 ,則可以聚集所有匹配點對 {(P_m,P_o)} 以及它們的匹配分數(shù),最終利用加權(quán) SVD 計算物體姿態(tài)。

圖片

圖 3. SAM-6D 中姿態(tài)估計模型 (PEM) 的示意圖

利用上述基于 Background Token 的策略,PEM 中設(shè)計了兩個點集匹配階段,其模型結(jié)構(gòu)如圖 3 所示,包含了特征提取、粗略點集匹配和精細點集匹配三個模塊。

粗糙點集匹配模塊實現(xiàn)稀疏對應(yīng)關(guān)系,以計算初始物體姿態(tài),隨后利用該姿態(tài)來對候選對象的點集進行變換,從而實現(xiàn)位置編碼的學(xué)習(xí)。

精細點集匹配模塊結(jié)合候選對象和目標物體的采樣點集的位置編碼,從而注入第一階段的粗糙對應(yīng)關(guān)系,并進一步建立密集對應(yīng)關(guān)系以得到更精確的物體姿態(tài)。為了在這一階段有效地學(xué)習(xí)密集交互,PEM 引入了一個新穎的稀疏到稠密點集變換器,它實現(xiàn)在密集特征的稀疏版本上的交互,并利用 Linear Transformer [5] 將增強后的稀疏特征擴散回密集特征。

實驗結(jié)果

對于 SAM-6D 的兩個子模型,實例分割模型(ISM)是基于 SAM 構(gòu)建而成的,無需進行網(wǎng)絡(luò)的重新訓(xùn)練和 finetune,而姿態(tài)估計模型(PEM)則利用 MegaPose [4] 提供的大規(guī)模 ShapeNet-Objects 和 Google-Scanned-Objects 合成數(shù)據(jù)集進行訓(xùn)練。

為驗證其零樣本能力,SAM-6D 在 BOP [2] 的七個核心數(shù)據(jù)集上進行了測試,包括了 LM-O,T-LESS,TUD-L,IC-BIN,ITODD,HB 和 YCB-V。表 1 和表 2 分別展示了不同方法在這七個數(shù)據(jù)集上的實例分割和姿態(tài)估計結(jié)果的比較。相較于其他方法,SAM-6D 在兩個方法上的表現(xiàn)均十分優(yōu)異,充分展現(xiàn)其強大的泛化能力。

圖片

表 1. 不同方法在 BOP 七個核心數(shù)據(jù)集上的實例分割結(jié)果比較

圖片

表 2. 不同方法在 BOP 七個核心數(shù)據(jù)集上的姿態(tài)估計結(jié)果比較

圖 4 展示了 SAM-6D 在 BOP 七個數(shù)據(jù)集上的檢測分割以及 6D 姿態(tài)估計的可視化結(jié)果,其中 (a) 和 (b) 分別為測試的 RGB 圖像和深度圖,(c) 為給定的目標物體,而 (d) 和 (e) 則分別為檢測分割和 6D 姿態(tài)的可視化結(jié)果。

圖片

圖 4. SAM-6D 在 BOP 的七個核心數(shù)據(jù)集上的可視化結(jié)果。

關(guān)于 SAM-6D 的更多實現(xiàn)細節(jié), 歡迎閱讀原論文.

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2010-03-15 09:40:19

Windows 8研發(fā)

2020-09-22 10:49:12

大數(shù)據(jù)旅游技術(shù)

2009-03-31 11:12:59

萬兆以太網(wǎng)

2014-11-28 13:37:30

DCN無線

2021-04-27 11:20:20

機器學(xué)習(xí)骨科醫(yī)療

2023-12-18 13:06:25

腦機接口AI

2023-04-12 16:12:09

2014-11-13 15:54:23

Imperva亞馬遜

2010-07-01 08:45:54

RHEL 6 Beta

2021-01-29 17:57:32

存儲

2020-09-10 09:44:35

JavaScript

2016-09-07 15:38:13

綠色數(shù)據(jù)中心能源消耗

2015-05-27 14:38:14

戴爾云計算

2017-03-16 09:26:27

谷歌神經(jīng)網(wǎng)絡(luò)智能化

2022-07-27 22:15:20

HarmonyOS鴻蒙鴻蒙系統(tǒng)

2011-09-16 11:38:34

AVGQQ電腦管家

2017-12-27 10:40:13

UnixLinux習(xí)慣

2011-08-02 14:31:16

激光打印機用戶體驗
點贊
收藏

51CTO技術(shù)棧公眾號