偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

浙大李璽團(tuán)隊(duì):指代表達(dá)理解新方法,ScanFormer粗到細(xì)迭代消除視覺(jué)冗余

人工智能 新聞
基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開(kāi)始,逐步過(guò)濾掉指代表達(dá)無(wú)關(guān) / 背景區(qū)域來(lái)降低計(jì)算浪費(fèi),使模型更多地關(guān)注前景 / 任務(wù)相關(guān)區(qū)域。

該論文作者均來(lái)自于浙江大學(xué)李璽教授團(tuán)隊(duì),論文第一作者為博士生蘇偉同學(xué),通訊作者為李璽教授(IET Fellow,國(guó)家杰青)。李璽教授團(tuán)隊(duì)近年來(lái)在國(guó)際權(quán)威期刊(如 TPAMI、IJCV 等)和國(guó)際頂級(jí)學(xué)術(shù)會(huì)議(ICCV、CVPR、ECCV 等)上發(fā)表 180 余篇 CV/AIGC 相關(guān)的研究工作,和國(guó)內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開(kāi)展合作。

作為基礎(chǔ)的視覺(jué)語(yǔ)言任務(wù),指代表達(dá)理解(referring expression comprehension, REC)根據(jù)自然語(yǔ)言描述來(lái)定位圖中被指代的目標(biāo)。REC 模型通常由三部分組成:視覺(jué)編碼器、文本編碼器和跨模態(tài)交互,分別用于提取視覺(jué)特征、文本特征和跨模態(tài)特征特征交互與增強(qiáng)。

目前的研究大多集中在設(shè)計(jì)高效的跨模態(tài)交互模塊以提升任務(wù)精度,缺少對(duì)視覺(jué)編碼器探索。常見(jiàn)做法是利用在分類、檢測(cè)任務(wù)上預(yù)訓(xùn)練的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等。這些模型以滑動(dòng)窗口或劃分 patch 的方式遍歷圖像所有的空間位置來(lái)提取特征,其計(jì)算復(fù)雜度會(huì)隨圖像分辨率快速增長(zhǎng),在基于 Transformer 的模型中更加明顯。

由于圖像的空間冗余特性,圖像中存在大量低信息量的背景區(qū)域以及與指代表達(dá)無(wú)關(guān)的區(qū)域,以相同的方式在這些區(qū)域提取特征會(huì)增加計(jì)算量但對(duì)有效特征提取沒(méi)有任何幫助。更加高效的方式是提前預(yù)測(cè)圖像區(qū)域的文本相關(guān)性和內(nèi)容的豐富程度,對(duì)文本相關(guān)的前景區(qū)域充分提取特征,對(duì)背景區(qū)域粗略提取特征。對(duì)于區(qū)域預(yù)測(cè),一個(gè)較為直觀的方式是通過(guò)圖像金字塔來(lái)實(shí)現(xiàn),在金字塔頂層的粗粒度圖像中提前辨識(shí)背景區(qū)域,之后逐步加入高分辨率的細(xì)粒度前景區(qū)域。

基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開(kāi)始,逐步過(guò)濾掉指代表達(dá)無(wú)關(guān) / 背景區(qū)域來(lái)降低計(jì)算浪費(fèi),使模型更多地關(guān)注前景 / 任務(wù)相關(guān)區(qū)域。

圖片

  • 論文標(biāo)題:ScanFormer: Referring Expression Comprehension by Iteratively Scanning
  • 論文鏈接:https://arxiv.org/pdf/2406.18048

方法介紹

一、Coarse-to-fine 迭代感知框架

為簡(jiǎn)化結(jié)構(gòu),我們采用統(tǒng)一文本和視覺(jué)模態(tài)的 ViLT [1] 模型,并將其沿深度維度分為 Encoder1 和 Encoder2 兩部分以用于不同的任務(wù)。

首先,提取文本特征并將其存入 KV Cache;然后構(gòu)造圖像金字塔并從金字塔頂層依次往下迭代,在每次迭代中,輸入當(dāng)前尺度被選擇的 patch,Encoder1 用于預(yù)測(cè)每個(gè) patch 對(duì)應(yīng)的下一個(gè)尺度的細(xì)粒度 patch 的選擇情況,特別地,頂層圖像的 patch 全部被選上,以保證模型能獲得粗粒度的全圖信息。Encoder2 進(jìn)一步提取特征并基于當(dāng)前尺度的 [cls] token 來(lái)預(yù)測(cè)該尺度的 bounding box。

與此同時(shí),Encoder1 和 Encoder2 的中間特征會(huì)被存入 KV Cache 以方便被后續(xù)的尺度利用。隨著尺度的增加,細(xì)粒度特征被引入,位置預(yù)測(cè)會(huì)更加準(zhǔn)確,同時(shí)大部分無(wú)關(guān)的 patch 被丟棄以節(jié)省大量計(jì)算。

此外,每個(gè)尺度內(nèi)部的 patch 具有雙向注意力,同時(shí)會(huì)關(guān)注前序尺度所有的 patch 和文本特征。這種尺度間的因果注意力可以進(jìn)一步降低計(jì)算需求。

圖片

二、動(dòng)態(tài) patch 選擇

每個(gè) patch 的選擇情況由前一尺度生成的選擇因子決定,對(duì)于應(yīng)用的位置有兩種方案,其一是用于 Encoder 每層 MHSA 的所有 head 中,然而,對(duì)于 N 層 H 頭的 Encoder,很難獲得有效的的梯度信息來(lái)更新,因此學(xué)到的選擇因子不太理想;其二是直接用于 Encoder 的輸入,即 patch embedding 上,由于只用在這一個(gè)位置,因此更容易學(xué)習(xí),本文最終也采用了此方案。

另外,需要注意的是,即使輸入 patch embedding 被置 0,由于 MHSA 和 FFN 的存在,該 patch 在后續(xù)層的特征仍然會(huì)變?yōu)榉?0 并影響其余 patch 的特征。幸運(yùn)的是,當(dāng) token 序列中存在許多相同 token 時(shí),可以簡(jiǎn)化 MHSA 的計(jì)算,實(shí)現(xiàn)實(shí)際的推理加速。此外,為了增強(qiáng)模型的靈活性,本文并沒(méi)有直接將 patch embedding 置 0,而是將其替換為一個(gè)可學(xué)習(xí)的常量 token。

因此,patch 的選擇問(wèn)題被轉(zhuǎn)換成 patch 的替換問(wèn)題。patch 選擇的過(guò)程可以分解為常量 token 替換和 token 合并兩步。未被選擇的 patch 會(huì)被替換為同一個(gè)常量 token。由于這些未被選擇的 token 是相同的,根據(jù) scaled dot product attention 的計(jì)算方式,這些 token 可以被合并為一個(gè) token 并乘上總數(shù),等價(jià)于將加到維度上,因此點(diǎn)積注意力的計(jì)算方式不變,常見(jiàn)的加速方法依舊可用。

圖片

實(shí)驗(yàn)結(jié)果

本文方法在 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 四個(gè)數(shù)據(jù)集上取得了和 state-of-the-art 相近的性能。通過(guò)在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練并在具體數(shù)據(jù)集上微調(diào),模型的性能可以進(jìn)一步大幅提升,并達(dá)到和預(yù)訓(xùn)練模型如 MDETR [2] 和 OFA [3] 等相近的結(jié)果。

圖片

圖片

在推理速度上,提出的方法達(dá)到了實(shí)時(shí)的推理速度,同時(shí)能保證較高的任務(wù)精度。

圖片

此外,實(shí)驗(yàn)部分也對(duì)模型的 patch 選擇情況以及每個(gè)尺度(scale1 和 scale2)定位精度的分布做了統(tǒng)計(jì)。

如左圖所示,隨著尺度的增加,細(xì)粒度的圖像特征被加入,模型精度逐步提升。因此可以嘗試加入早退機(jī)制,在定位精度滿足要求時(shí)及時(shí)退出,避免進(jìn)一步在高分辨率圖像上計(jì)算,實(shí)現(xiàn)根據(jù)樣本自適應(yīng)選擇合適的分辨率的效果。本文也進(jìn)行了一些初步的嘗試,包括加入 IoU、GIoU 和不確定性等預(yù)測(cè)分支,回歸 early exit 的指標(biāo),但發(fā)現(xiàn)效果不太理想,如何設(shè)計(jì)合適且準(zhǔn)確的 early exit 指標(biāo)有待繼續(xù)探索。

右圖展示了不同尺度的 patch 選擇情況,在所有的尺度上,被選擇的 patch 占均比較小,大部分的 patch 都可以被剔除,因此可以有效地節(jié)省計(jì)算資源。對(duì)于每個(gè)樣本(圖像 + 指代表達(dá)),實(shí)際選擇的 patch 數(shù)量相對(duì)較少,大概占總數(shù)的 65%。

圖片

最后,實(shí)驗(yàn)部分展示了一些可視化結(jié)果,隨著尺度的增加(紅→綠→藍(lán)),模型的定位精度逐步提高。另外,根據(jù)由被選擇的 patch 重建的圖像,可以看出模型對(duì)于背景區(qū)域只關(guān)注了粗尺度的信息,對(duì)于相關(guān)的前景區(qū)域,模型能夠關(guān)注細(xì)粒度的細(xì)節(jié)信息。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2022-12-08 13:00:10

AI性別偏見(jiàn)

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2022-11-28 07:32:46

迭代器remove數(shù)據(jù)庫(kù)

2024-09-03 14:10:00

模型測(cè)試

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2022-07-07 10:47:16

IngressKubernetes

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2018-10-07 07:00:59

2024-10-23 19:47:54

2024-01-23 17:33:36

2009-07-31 08:56:59

ASP.NET頁(yè)面刷新

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收

2025-06-06 09:15:00

2011-12-01 14:15:19

信息優(yōu)化惠普

2010-06-18 09:48:22

2011-03-14 10:10:01

2023-07-27 13:12:55

自動(dòng)駕駛RGB機(jī)器

2014-03-11 09:42:42

網(wǎng)絡(luò)可視化網(wǎng)絡(luò)監(jiān)控
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)