超越CVPR 2024方法,DynRefer在區(qū)域級(jí)多模態(tài)識(shí)別任務(wù)上,多項(xiàng)SOTA
本文作者來(lái)自于中國(guó)科學(xué)院大學(xué)LAMP實(shí)驗(yàn)室,其中第一作者趙毓鐘是中國(guó)科學(xué)院大學(xué)的2023級(jí)博士生,共同一作劉峰是中國(guó)科學(xué)院大學(xué)2020級(jí)直博生。他們的主要研究方向是視覺(jué)語(yǔ)言模型和視覺(jué)目標(biāo)感知。
簡(jiǎn)介
DynRefer 通過(guò)模擬人類視覺(jué)認(rèn)知過(guò)程,顯著提升了區(qū)域級(jí)多模態(tài)識(shí)別能力。通過(guò)引入人眼的動(dòng)態(tài)分辨率機(jī)制,DynRefer 能夠以單個(gè)模型同時(shí)完成區(qū)域識(shí)別、區(qū)域?qū)傩詸z測(cè)和區(qū)域字幕生成(region-level captioning)任務(wù),并在上述任務(wù)都取得 SOTA 性能。其中在 RefCOCOg 數(shù)據(jù)集的 region-level captioning 任務(wù)上取得了 115.7 CIDEr,顯著高于 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。
- 論文標(biāo)題:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
- 論文鏈接:https://arxiv.org/abs/2405.16071
- 論文代碼:https://github.com/callsys/DynRefer
動(dòng)機(jī)
區(qū)域級(jí)多模態(tài)任務(wù)致力于將指定的圖像區(qū)域轉(zhuǎn)換為符合人類偏好的語(yǔ)言描述。人類完成區(qū)域級(jí)多模態(tài)任務(wù)時(shí)具有一種分辨率自適應(yīng)能力,即關(guān)注區(qū)域是高分辨率的,非關(guān)注區(qū)域是低分辨率的。然而,目前的區(qū)域級(jí)多模態(tài)大語(yǔ)言模型往往采用固定分辨率編碼的方案,即對(duì)整張圖像進(jìn)行編碼,然后通過(guò) RoI Align 將區(qū)域特征提取出來(lái)。這種做法缺乏人類視覺(jué)認(rèn)知系統(tǒng)中的分辨率自適應(yīng)能力,對(duì)關(guān)注區(qū)域的編碼效率和能力較低。為了實(shí)現(xiàn)高精度的區(qū)域級(jí)多模態(tài)理解,我們提出了一種動(dòng)態(tài)分辨率方案來(lái)模擬人類視覺(jué)認(rèn)知系統(tǒng),如下圖所示。
圖 1:傳統(tǒng)的區(qū)域級(jí)多模態(tài)方法(左)與 DynRefer 方法(右)的比較。
方法
1、模擬動(dòng)態(tài)分辨率的圖像(Multi-view construction)。由于主流的預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型(CLIP)只能接收均勻分辨率的輸入,我們通過(guò)構(gòu)造多個(gè)均勻分辨率的視圖來(lái)模擬一幅動(dòng)態(tài)分辨率圖像。該圖像在指代區(qū)域具有高分辨率,而在非指代區(qū)域低分辨率。具體流程如圖 2 上。原始圖像 x 被裁剪并調(diào)整大小為多個(gè)候選視圖。裁剪區(qū)域的計(jì)算方式為
,其中
。這里的
表示參考區(qū)域的邊界框,
表示整個(gè)圖像的尺寸,t 表示插值系數(shù)。在訓(xùn)練過(guò)程中,我們從候選視圖中隨機(jī)選擇 n 個(gè)視圖,以模擬由于注視和眼球快速運(yùn)動(dòng)而生成的圖像。這些 n 個(gè)視圖對(duì)應(yīng)于插值系數(shù) t,即
。我們固定保留僅包含參考區(qū)域的視圖(即
)。經(jīng)實(shí)驗(yàn)證明該視圖有助于保留區(qū)域細(xì)節(jié),對(duì)于所有區(qū)域多模態(tài)任務(wù)都至關(guān)重要。
圖 2:DynRefer 訓(xùn)練(上)與 推理(下)。
2、隨機(jī)動(dòng)態(tài)視圖嵌入(Stochastic Multi-view Embedding)。具體流程如圖 3 所示。采樣的 n 個(gè)視圖通過(guò)凍結(jié)的 CLIP 編碼成空間特征,然后經(jīng)過(guò) RoI-Align 模塊處理,以獲取區(qū)域嵌入,即
。如圖 3 左側(cè)所示。由于裁剪、調(diào)整大小和 RoI-Align 引入的空間誤差,這些區(qū)域嵌入在空間上并不對(duì)齊。受 deformable convolution 操作啟發(fā),我們提出了一個(gè)對(duì)齊模塊,通過(guò)將
對(duì)齊到
來(lái)減少偏差,其中
是僅包含參考區(qū)域的視圖編碼的區(qū)域嵌入。對(duì)于每個(gè)區(qū)域嵌入
,首先將其與
連接,然后通過(guò)卷積層計(jì)算一個(gè)二維偏移圖。
的空間特征然后根據(jù)二維偏移重新采樣。最后,對(duì)齊后的區(qū)域嵌入沿通道維度連接并通過(guò) linear 層進(jìn)行融合。輸出進(jìn)一步通過(guò)視覺(jué)重采樣模塊,即 Q-former,進(jìn)行壓縮,從而提取原始圖像 x 的參考區(qū)域
的區(qū)域表示(圖 3 中的
)。
圖 3:DynRefer 網(wǎng)絡(luò)結(jié)構(gòu)
3、視覺(jué)語(yǔ)言對(duì)齊 (Vision-language Alignment)。通過(guò)隨機(jī)多視圖嵌入模塊計(jì)算得到的區(qū)域表示
,由三個(gè)解碼器
解碼,如圖 3(右)所示,分別受三個(gè)多模態(tài)任務(wù)的監(jiān)督:?
i) 圖像區(qū)域標(biāo)簽生成。我們采用基于查詢的輕量級(jí)識(shí)別解碼器進(jìn)行區(qū)域標(biāo)簽生成。解碼器
如圖 3(右側(cè))所示。通過(guò)使用標(biāo)簽作為查詢,
作為鍵和值,計(jì)算預(yù)定義標(biāo)記的置信度來(lái)完成標(biāo)記過(guò)程。我們從真值字幕中解析出標(biāo)簽,以監(jiān)督識(shí)別解碼器。ii) 區(qū)域 - 文本對(duì)比學(xué)習(xí)。類似于區(qū)域標(biāo)記解碼器,解碼器
定義為基于查詢的識(shí)別解碼器。該解碼器計(jì)算字幕與區(qū)域特征之間的相似性分?jǐn)?shù),使用 SigLIP loss 進(jìn)行監(jiān)督。iii) 語(yǔ)言建模。我們采用預(yù)訓(xùn)練的大語(yǔ)言模型
將區(qū)域表示
轉(zhuǎn)換為語(yǔ)言描述。
圖 4:雙視圖(n=2)DynRefer 模型在區(qū)域級(jí)多模態(tài)任務(wù)上的表現(xiàn)。在不同的插值系數(shù) t 下,
。視圖一是固定的(
),視圖二隨機(jī)選擇或固定。
4、在推理過(guò)程中,經(jīng)過(guò)訓(xùn)練的 DynRefer 模型通過(guò)動(dòng)態(tài)分辨率在圖像上執(zhí)行多模態(tài)任務(wù)。通過(guò)調(diào)整采樣的 n 個(gè)視圖的插值系數(shù)
,我們可以得到具有動(dòng)態(tài)分辨率特性的區(qū)域表示。為了評(píng)估不同動(dòng)態(tài)分辨率下的特性,我們訓(xùn)練了一個(gè)雙視圖(n=2)的 DynRefer 模型,并在四個(gè)多模態(tài)任務(wù)上進(jìn)行評(píng)估。從圖 4 中的曲線可以看出,對(duì)于沒(méi)有上下文信息的視圖(
),屬性檢測(cè)(Attribute detection)獲得了更好的結(jié)果。這可以解釋為這種任務(wù)通常需要詳細(xì)的區(qū)域信息。而對(duì)于區(qū)域級(jí)字幕(Region-level captioning)和密集字幕生成(Dense captioning)任務(wù),需要上下文豐富的視圖(
),以便完整理解參考區(qū)域。需要注意的是,過(guò)多上下文的視圖(
)會(huì)降低所有任務(wù)的性能,因?yàn)樗鼈円肓诉^(guò)多與區(qū)域無(wú)關(guān)的信息。當(dāng)已知任務(wù)類型時(shí),我們可以根據(jù)任務(wù)特性采樣適當(dāng)?shù)囊晥D。當(dāng)任務(wù)類型未知時(shí),我們首先構(gòu)建一組在不同插值系數(shù) t 下的候選視圖集合,
。從候選集中,通過(guò)貪婪搜索算法采樣 n 個(gè)視圖。搜索的目標(biāo)函數(shù)定義為:
其中
表示第 i 個(gè)視圖的插值系數(shù),
表示第 i 個(gè)視圖,pHASH (?) 表示感知圖像哈希函數(shù),
表示異或操作。為了從全局視角比較視圖的信息,我們利用 "pHASH (?)" 函數(shù)將視圖從空間域轉(zhuǎn)換到頻域,然后編碼成哈希碼。對(duì)于
這一項(xiàng),我們減少上下文豐富視圖的權(quán)重,以避免引入過(guò)多冗余信息。
實(shí)驗(yàn)
Region-level Captioning
在區(qū)域字幕生成任務(wù),DynRefer 以更小的模型(4.2B v.s. 7B),在 RefCOCOg 和 VG 兩個(gè)數(shù)據(jù)集上、在 METEOR 和 CIDEr 兩個(gè)指標(biāo)上都顯著超過(guò)了 CVPR 2024 中的眾多方法,如 RegionGPT,GlaMM,Alpha-CLIP 和 Osprey 等,展現(xiàn)出 DynRefer 巨大的性能優(yōu)勢(shì)。
Dense Captioning
在密集字幕生成任務(wù),在 VG1.2 數(shù)據(jù)集,DynRefer 相較之前的 SOTA 方法 GRiT 提升了 7.1% mAP。
Open Vocabulary Attribute Detection
在區(qū)域?qū)傩詸z測(cè)任務(wù),DynRefer 也取得了 SOTA 的性能。
Open Vocabulary Region Recognition
在區(qū)域識(shí)別任務(wù),DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy,比 ICLR 24 的 ASM 高 15.7% mAP。
消融實(shí)驗(yàn)
- Line 1-6:隨機(jī)動(dòng)態(tài)多視圖要優(yōu)于固定視圖。
- Line 6-10:通過(guò)最大化信息選擇視圖優(yōu)于隨機(jī)選擇視圖。
- Line 10-13:多任務(wù)訓(xùn)練可以學(xué)習(xí)得到更好的區(qū)域表征。
可視化
下面幾張圖展示了 DynRefer 的推理結(jié)果,DynRefer 可以用一個(gè)模型同時(shí)輸出區(qū)域字幕、標(biāo)簽、屬性和類別。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
