偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV 2025 HighlightAI|打通第一/第三人稱視覺(jué),跨視角視覺(jué)理解新SOTA

人工智能 新聞
INSAIT、復(fù)旦大學(xué)等單位聯(lián)合提出ObjectRelator框架,讓AI精準(zhǔn)匹配不同視角下的同一物體,實(shí)現(xiàn)跨視角的統(tǒng)一表征與理解。

具身智能落地邁出關(guān)鍵一步,AI擁有第一人稱與第三人稱的“通感”了!

INSAIT、復(fù)旦大學(xué)等單位聯(lián)合提出ObjectRelator框架,讓AI精準(zhǔn)匹配不同視角下的同一物體,實(shí)現(xiàn)跨視角的統(tǒng)一表征與理解。

實(shí)驗(yàn)中,ObjectRelator在Ego(第一人稱視覺(jué))轉(zhuǎn)Exo(三人稱視覺(jué))和Exo轉(zhuǎn)Ego兩個(gè)任務(wù)上都顯著超越了所有基線模型,拿下SOTA。

Ego→Exo效果,be like:

Exo→Ego也可以很好地對(duì)齊:

目前,該工作已被ICCV 2025接收為Highlight論文,代碼已開源。

Ego與Exo之間的鴻溝

在人類技能習(xí)得過(guò)程中,需要在兩個(gè)視角之間進(jìn)行流暢的轉(zhuǎn)換。

我們?cè)谟^看別人的演示過(guò)程時(shí),會(huì)嘗試在腦海中想象自己進(jìn)行這些操作的場(chǎng)景。然而這一跨視角理解的能力對(duì)于計(jì)算機(jī)和機(jī)器人來(lái)說(shuō)卻是一個(gè)巨大的挑戰(zhàn),制約著機(jī)器人學(xué)習(xí)、VR交互等關(guān)鍵領(lǐng)域的發(fā)展。

第一人稱視角具備較強(qiáng)的沉浸感與交互細(xì)節(jié)捕捉能力,能夠精確刻畫主體與環(huán)境之間的動(dòng)態(tài)交互過(guò)程。然而,其視覺(jué)范圍受限、畫面穩(wěn)定性較差,難以全面反映場(chǎng)景全貌。

相比之下,第三人稱視角具有更廣闊的空間感知能力,能夠清晰呈現(xiàn)場(chǎng)景與動(dòng)作的整體結(jié)構(gòu)及時(shí)空關(guān)系,但其畫面中目標(biāo)物體通常較小,細(xì)節(jié)信息相對(duì)不足。

如何在物體級(jí)別上建立第一人稱與第三人稱視角之間的視覺(jué)對(duì)應(yīng)與語(yǔ)義關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)跨視角的統(tǒng)一表征與理解,仍是當(dāng)前領(lǐng)域亟待解決的核心問(wèn)題。

現(xiàn)有工作的不足與挑戰(zhàn)

盡管近年來(lái)出現(xiàn)了諸如Mask2Former、SAM、SAM2等高性能圖像分割模型,但如下圖所示,他們普遍受限于從單一圖像(視角)中進(jìn)行圖像分割任務(wù),難以駕馭跨視角分割問(wèn)題。

PSALM是為數(shù)不多可以接受雙視角輸入進(jìn)行分割的模型,然而其在面臨Ego-Exo跨視角物體分割任務(wù)時(shí)仍面臨兩大核心挑戰(zhàn):

1、復(fù)雜的背景干擾

在復(fù)雜場(chǎng)景下拍攝的Ego/Exo畫面,尤其是Exo,其場(chǎng)景通常包含大量結(jié)構(gòu)復(fù)雜、語(yǔ)義多樣的背景元素,其中部分對(duì)象在外觀或形態(tài)上與目標(biāo)高度相似。此類高相似度干擾使得僅依賴視覺(jué)特征進(jìn)行匹配極易導(dǎo)致目標(biāo)混淆或誤識(shí)別,從而顯著削弱模型在跨視角目標(biāo)辨識(shí)與追蹤中的判別能力。

2、顯著的視覺(jué)變換

同一個(gè)物體,在Ego視角中可能占據(jù)圖像的大部分區(qū)域,而在Exo視角中則僅表現(xiàn)為畫面中的一個(gè)小尺度目標(biāo),其外觀形態(tài)、姿態(tài)角度以及相對(duì)空間位置均發(fā)生劇烈變化。此外,由于光照、遮擋和相機(jī)參數(shù)不同,物體的顏色、紋理等視覺(jué)特征在兩個(gè)視角下也會(huì)呈現(xiàn)出明顯的視覺(jué)差異。

如下對(duì)比圖顯示,(a)PSALM會(huì)定位到形狀相似而語(yǔ)義錯(cuò)誤的物體類型; (b)PSALM不能分割出形狀變化較大的正確物體。

兩大創(chuàng)新模塊,解鎖跨視角“通感”

為了攻克上述難題,ObjectRelator基于PSALM構(gòu)建了第一個(gè)跨視角多模態(tài)分割模型,能夠有效支持以Ego-Exo為代表的跨視角物體關(guān)聯(lián)人物。方法主要包含兩個(gè)核心模塊:

1、多模態(tài)條件融合模塊(MCFuse)

為了讓模型不只“看形狀”,還要“懂語(yǔ)義”,MCFuse首次將語(yǔ)言描述引入跨視角分割任務(wù)。它通過(guò)預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(LLaVA)為查詢物體生成一句簡(jiǎn)短的文本描述(如“一把黑色的剪刀”),再與視覺(jué)掩碼特征進(jìn)行融合。

融合過(guò)程中,模型通過(guò)交叉注意力機(jī)制、殘差鏈接、以及動(dòng)態(tài)融合權(quán)重三種策略共同權(quán)衡視覺(jué)與語(yǔ)言信息的重要性,從而更準(zhǔn)確地鎖定目標(biāo)物體。

2、跨視角對(duì)象對(duì)齊模塊(XObjAlign)

為了應(yīng)對(duì)物體在不同視角下的外觀變化,XObjAlign提出了一種自監(jiān)督對(duì)齊策略:在訓(xùn)練中,模型會(huì)同時(shí)提取同一物體在Ego視角和Exo視角下的特征,并通過(guò)一個(gè)一致性損失函數(shù)拉近它們的距離。這意味著,模型被強(qiáng)制學(xué)習(xí)一種“視角不變”的物體表示,從而在面對(duì)視角變化時(shí)仍能保持穩(wěn)定的識(shí)別能力。

實(shí)驗(yàn)結(jié)果:SOTA性能+任意跨視角的泛化能力

ObjectRelator在兩大跨視角數(shù)據(jù)集上進(jìn)行了驗(yàn)證:

  • Ego-Exo4D:目前最大的Ego-Exo跨視角數(shù)據(jù)集,涵蓋烹飪、維修、運(yùn)動(dòng)等六大場(chǎng)景。
  • HANDAL-X:作者構(gòu)建的新基準(zhǔn),專注于機(jī)器人操作場(chǎng)景下的物體分割。

1、主要實(shí)驗(yàn)結(jié)果與指標(biāo)

實(shí)驗(yàn)結(jié)果顯示,ObjectRelator在Ego→Exo和Exo→Ego兩個(gè)任務(wù)上都顯著超越了所有基線模型,在Small TrainSet上相比于微調(diào)后的PSALM模型IoU指標(biāo)分別提升4.6% 和5.1%,達(dá)到SOTA性能。

2、模塊有效性驗(yàn)證

消融實(shí)驗(yàn)充分驗(yàn)證了各個(gè)模塊的有效性與必要性。無(wú)論是單獨(dú)引入MCFuse還是XObjAlign,都能帶來(lái)顯著的性能提升。這一結(jié)果表明:融入語(yǔ)義信息與強(qiáng)化跨視角一致性是解決該任務(wù)的兩個(gè)正確且相互補(bǔ)的方向。

3、強(qiáng)大的泛化能力

在HANDAL-X數(shù)據(jù)集上的零樣本測(cè)試中,使用Ego-Exo4D數(shù)據(jù)訓(xùn)練的ObjectRelator模型,其性能遠(yuǎn)超在COCO等傳統(tǒng)數(shù)據(jù)集上訓(xùn)練的模型。

這證明了通過(guò)在跨視角數(shù)據(jù)上進(jìn)行訓(xùn)練,模型能夠?qū)W到一種可泛化到全新場(chǎng)景的跨視角理解能力。 同樣的,針對(duì)HANDAL-X數(shù)據(jù)集微調(diào)后的ObjectRelator模型能達(dá)到進(jìn)一步的性能提醒,超越PSALM的同時(shí)達(dá)到SOTA的效果。

4、可視化結(jié)果

更多的視頻可視化結(jié)果可以點(diǎn)擊項(xiàng)目主頁(yè)或項(xiàng)目demo進(jìn)行觀看。

論文鏈接:https://arxiv.org/pdf/2411.19083

項(xiàng)目主頁(yè):https://yuqianfu.com/ObjectRelator/ (代碼已開源)

項(xiàng)目demo:https://huggingface.co/spaces/YuqianFu/ObjectRelatorDemo

會(huì)議Poster:October 21, 15:00–17:00, Exhibit Hall I, Hawaii (歡迎前往現(xiàn)場(chǎng)與作者交流)

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2012-12-24 09:21:45

iOSUnity3D

2012-12-24 09:13:23

iOSUnity3D

2020-12-11 07:10:03

程序員

2012-02-10 09:34:02

2025-10-17 08:54:00

AI智能體模型

2025-02-21 13:00:00

2025-07-15 09:00:00

2014-06-12 11:08:28

游戲開發(fā)游戲引擎

2022-09-16 13:35:47

人工智能機(jī)器視覺(jué)機(jī)器學(xué)習(xí)

2025-07-29 08:45:00

AI模型應(yīng)用

2024-05-17 17:16:50

SOTA視覺(jué)模型

2025-04-25 09:05:00

2025-07-01 13:52:19

2024-09-14 08:54:38

2021-05-19 09:00:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-12-06 09:37:55

模型視覺(jué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)