偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<mark id="r04zh"><dd id="r04zh"></dd></mark>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

首個(gè)通用雙向Adapter多模態(tài)目標(biāo)追蹤方法BAT，入選AAAI 2024

作者：機(jī)器之心 2024-01-24 13:16:00

人工智能新聞

來自天津大學(xué)的研究人員設(shè)計(jì)出了一種雙向 adapter 用于多模態(tài)跟蹤 (BAT)。與在主導(dǎo)模態(tài)中添加輔助模態(tài)信息作為提示以增強(qiáng)基礎(chǔ)模型在下游任務(wù)中的表示能力的方法 (通常使用 RGB 作為主要模態(tài)) 不同，該方法沒有預(yù)設(shè)固定的主導(dǎo)模態(tài) - 輔助模態(tài)，而是在輔助模態(tài)向主導(dǎo)模態(tài)變化的過程中動(dòng)態(tài)提取有效信息。

目標(biāo)跟蹤是計(jì)算機(jī)視覺的一項(xiàng)基礎(chǔ)視覺任務(wù)，由于計(jì)算機(jī)視覺的快速發(fā)展，單模態(tài) (RGB) 目標(biāo)跟蹤近年來取得了重大進(jìn)展?？紤]到單一成像傳感器的局限性，我們需要引入多模態(tài)圖像 (RGB、紅外等) 來彌補(bǔ)這一缺陷，以實(shí)現(xiàn)復(fù)雜環(huán)境下全天候目標(biāo)跟蹤。

然而，現(xiàn)有的多模態(tài)跟蹤任務(wù)也面臨兩個(gè)主要問題：

由于多模態(tài)目標(biāo)跟蹤的數(shù)據(jù)標(biāo)注成本高，大多數(shù)現(xiàn)有數(shù)據(jù)集規(guī)模有限，不足以支持構(gòu)建有效的多模態(tài)跟蹤器；
因?yàn)椴煌某上穹绞皆谧兓沫h(huán)境中對(duì)物體的敏感度不同，開放世界中主導(dǎo)模態(tài)是動(dòng)態(tài)變化的，多模態(tài)數(shù)據(jù)之間的主導(dǎo)相關(guān)性并不固定。

在 RGB 序列上進(jìn)行預(yù)訓(xùn)練，然后以完全微調(diào)的方式轉(zhuǎn)移到多模態(tài)場景的許多多模態(tài)跟蹤工作存在時(shí)間昂貴和效率低下的問題，同時(shí)表現(xiàn)出有限的性能。

除了完全微調(diào)方法之外，受自然語言處理 (NLP) 領(lǐng)域參數(shù)高效微調(diào)方法成功的啟發(fā)，一些最近的方法通過凍結(jié)骨干網(wǎng)絡(luò)參數(shù)并附加一組額外可學(xué)習(xí)的參數(shù)，將參數(shù)高效 prompt 微調(diào)引入到多模態(tài)跟蹤中。

這些方法通常以一種模態(tài) (通常是 RGB) 為主導(dǎo)模態(tài)，另一種模態(tài)作為輔助模態(tài)。然而，這些方法忽略了多模態(tài)數(shù)據(jù)的動(dòng)態(tài)主導(dǎo)相關(guān)性，難以在如圖 1 所示的復(fù)雜場景中充分利用互補(bǔ)的多模態(tài)信息，從而限制了跟蹤性能。

圖 1：復(fù)雜場景下不同的主導(dǎo)模態(tài)。

為了解決上述問題，來自天津大學(xué)的研究人員設(shè)計(jì)出了一種雙向 adapter 用于多模態(tài)跟蹤 (BAT)。與在主導(dǎo)模態(tài)中添加輔助模態(tài)信息作為提示以增強(qiáng)基礎(chǔ)模型在下游任務(wù)中的表示能力的方法 (通常使用 RGB 作為主要模態(tài)) 不同，該方法沒有預(yù)設(shè)固定的主導(dǎo)模態(tài) - 輔助模態(tài)，而是在輔助模態(tài)向主導(dǎo)模態(tài)變化的過程中動(dòng)態(tài)提取有效信息。

BAT 由兩個(gè)共享參數(shù)的特定于模態(tài)分支的基礎(chǔ)模型編碼器和一個(gè)通用的雙向 adapter 組成。在訓(xùn)練過程中，BAT 沒有對(duì)基礎(chǔ)模型進(jìn)行完全的微調(diào)，每個(gè)特定的模態(tài)分支由具有固定參數(shù)的基礎(chǔ)模型初始化，僅訓(xùn)練新增的雙向 adapter。每個(gè)模態(tài)分支從其他模態(tài)中學(xué)習(xí)提示信息，與當(dāng)前模態(tài)的特征信息相結(jié)合，增強(qiáng)表征能力。兩個(gè)特定模態(tài)的分支通過通用雙向 adapter 執(zhí)行交互，在多模態(tài)非固定關(guān)聯(lián)范式中動(dòng)態(tài)地相互融合主導(dǎo)輔助信息。

通用雙向 adapter 具有輕量級(jí)沙漏結(jié)構(gòu)，它可以嵌入到基礎(chǔ)模型的每一層 transformer 編碼器中，而不需要引入大量的可學(xué)習(xí)參數(shù)。通過添加少量的訓(xùn)練參數(shù) (0.32M)，BAT 與全微調(diào)方法和基于提示學(xué)習(xí)的方法相比具有更低的訓(xùn)練成本，獲得了更好的跟蹤性能。

論文《Bi-directional Adapter for Multi-modal Tracking》：

論文鏈接：https://arxiv.org/abs/2312.10611

代碼鏈接：https://github.com/SparkTempest/BAT

主要貢獻(xiàn)

我們首先提出了一個(gè)基于 adapter 的多模態(tài)跟蹤視覺提示框架。我們的模型能夠感知開放場景中主導(dǎo)模態(tài)的動(dòng)態(tài)變化，以自適應(yīng)的方式有效融合多模態(tài)信息。
據(jù)我們所知，我們首次為基礎(chǔ)模型提出了一個(gè)通用的雙向 adapter。它結(jié)構(gòu)簡單、高效，能有效地實(shí)現(xiàn)多模態(tài)交叉提示跟蹤。通過僅添加 0.32M 可學(xué)習(xí)參數(shù)，我們的模型可以魯棒應(yīng)對(duì)開放場景下的多模態(tài)跟蹤。
我們深入分析了我們的通用 adapter 在不同層深的影響。我們還在實(shí)驗(yàn)中探索了更高效的 adapter 架構(gòu)，并驗(yàn)證了我們在多個(gè) RGBT 跟蹤相關(guān)數(shù)據(jù)集上的優(yōu)勢。

核心方法

如圖 2 所示，我們提出了一個(gè)基于雙向 Adapter 的多模態(tài)追蹤視覺提示框架 (BAT)，框架具有 RGB 模態(tài)和熱紅外模態(tài)的雙流編碼器結(jié)構(gòu)，每個(gè)流使用相同的基礎(chǔ)模型參數(shù)。雙向 Adapter 與雙流編碼器層并行設(shè)置，從兩個(gè)模態(tài)相互交叉提示多模態(tài)數(shù)據(jù)。

方法沒有對(duì)基礎(chǔ)模型進(jìn)行完全的微調(diào)，僅通過學(xué)習(xí)輕量級(jí)雙向 Adapter，將預(yù)先訓(xùn)練好的 RGB 追蹤器高效地轉(zhuǎn)移到多模態(tài)場景中，實(shí)現(xiàn)了出色的多模態(tài)互補(bǔ)性和卓越的追蹤精度。

圖 2：BAT 的總體架構(gòu)。

首先將每種模態(tài)的模板幀（第一幀中目標(biāo)物體的初始框）和搜索幀（后續(xù)追蹤圖像）轉(zhuǎn)換為，將它們拼接在一起分別傳遞給 N 層雙流 transformer 編碼器。

雙向 adapter 與雙流編碼器層并行設(shè)置，可以學(xué)習(xí)從一種模態(tài)到另一種模態(tài)的特征提示。為此，將兩個(gè)分支的輸出特征相加并輸入到預(yù)測頭 H 中，得到最終的跟蹤結(jié)果框 B。

雙向 adapter 采用模塊化設(shè)計(jì)，分別嵌入到多頭自注意力階段和 MLP 階段，如圖 1 右側(cè)所示雙向 adapter 的詳細(xì)結(jié)構(gòu)，其設(shè)計(jì)用于將特征提示從一種模態(tài)轉(zhuǎn)移到另一種模態(tài)。它由三個(gè)線性投影層組成，tn 表示每個(gè)模態(tài)的 token 個(gè)數(shù)，輸入 token 首先通過下投影被降維為 de 并通過一個(gè)線性投影層，然后向上投影到原始維度 dt 并作為特征提示反饋到其他模態(tài)的 transformer 編碼器層。

通過這種簡單的結(jié)構(gòu)，雙向 adapter 可以有效地在模態(tài)之間進(jìn)行特征提示，實(shí)現(xiàn)多模態(tài)跟蹤。

由于凍結(jié)了 transformer 編碼器和預(yù)測頭，因此只需要優(yōu)化新增 adapter 的參數(shù)。值得注意的是，與大多數(shù)傳統(tǒng) adapter 不同，我們的雙向 adapter 是作為動(dòng)態(tài)變化的主導(dǎo)模態(tài)的跨模態(tài)特征提示而發(fā)揮作用的，確保了開放世界中良好的跟蹤性能。

實(shí)驗(yàn)效果

如表 1 所示，在 RGBT234 和 LasHeR 兩個(gè)數(shù)據(jù)集上的對(duì)比表明我們在的方法在準(zhǔn)確率和成功率上均優(yōu)于最先進(jìn)的方法。如圖 3 所示，在 LasHeR 數(shù)據(jù)集的不同場景屬性下，與最先進(jìn)方法的性能比較也證明了所提出方法的優(yōu)越性。

這些實(shí)驗(yàn)充分證明了我們的雙流追蹤框架與雙向 Adapter 成功地追蹤了大多數(shù)復(fù)雜環(huán)境中的目標(biāo)，并自適應(yīng)地從動(dòng)態(tài)變化的主導(dǎo) - 輔助模態(tài)中提取有效信息，達(dá)到了最先進(jìn)的性能。

表 1 RGBT234 和 LasHeR 數(shù)據(jù)集上的整體性能。

圖 3 LasHeR 數(shù)據(jù)集中不同屬性下 BAT 和競爭方法的比較。

實(shí)驗(yàn)證明我們在復(fù)雜場景中從不斷變化的主導(dǎo) - 輔助模式中動(dòng)態(tài)提示有效信息的有效性。如圖 4 所示，與固定主導(dǎo)模態(tài)的相關(guān)方法相比，我們的方法即使在 RGB 完全不可用的情況下也能有效地追蹤目標(biāo)，當(dāng) RGB 和 TIR 在后續(xù)場景中都能提供有效的信息時(shí)，追蹤效果要好得多。我們的雙向 Adapter 從 RGB 和 IR 模態(tài)中動(dòng)態(tài)提取目標(biāo)的有效特征，捕獲更準(zhǔn)確的目標(biāo)響應(yīng)位置，并消除 RGB 模態(tài)的干擾。

圖 4 跟蹤結(jié)果的可視化。

我們同樣在 RGBE 追蹤數(shù)據(jù)集上評(píng)估了我們的方法。如圖 5 所示，在 VisEvent 測試集上與其他方法相比，我們的方法在不同復(fù)雜場景下的追蹤結(jié)果最為準(zhǔn)確，證明了我們的 BAT 模型的有效性和泛化性。

圖 5 VisEvent 數(shù)據(jù)集下追蹤結(jié)果。

圖 6 attention 權(quán)重可視化。

我們在圖 6 中可視化了不同層跟蹤目標(biāo)的注意力權(quán)重。與 baseline-dual (基礎(chǔ)模型參數(shù)初始化的雙流框架) 方法相比，我們的 BAT 有效地驅(qū)動(dòng)輔助模態(tài)向主導(dǎo)模態(tài)學(xué)習(xí)更多的互補(bǔ)信息，同時(shí)隨著網(wǎng)絡(luò)深度的增加保持主導(dǎo)模態(tài)的有效性，從而提高了整體跟蹤性能。

實(shí)驗(yàn)表明，BAT 成功地捕獲了多模態(tài)互補(bǔ)信息，實(shí)現(xiàn)了樣本自適應(yīng)動(dòng)態(tài)跟蹤。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<em id="74ijb"><samp id="74ijb"></samp></em>

<tt id="74ijb"><abbr id="74ijb"><i id="74ijb"></i></abbr></tt>

<tfoot id="74ijb"><tbody id="74ijb"></tbody></tfoot>