遠(yuǎn)距離的小目標(biāo)也可以準(zhǔn)確檢測

作者：計算機(jī)視覺研究院 2024-07-17 10:30:00

早期目標(biāo)檢測（OD，object detection）是許多動態(tài)系統(tǒng)安全的關(guān)鍵任務(wù)。目前的OD算法對于遠(yuǎn)距離的小物體的成功率有限。

本文經(jīng)計算機(jī)視覺研究院公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

1.概述

目前的OD算法對于長距離的小物體的成功率有限。為了提高這項任務(wù)的準(zhǔn)確性和效率，我們提出了一套新的算法，將圖像劃分為塊，選擇具有不同尺度對象的塊，詳細(xì)說明小對象的細(xì)節(jié)，并盡早檢測到它。我們的方法建立在transformer的網(wǎng)絡(luò)上，并集成了擴(kuò)散模型以提高檢測精度。如在BDD100K，我們的算法將小目標(biāo)的mAP從1.03提高到8.93，并將計算中的數(shù)據(jù)量減少了77%以上。

2.背景

物體檢測（OD）在許多現(xiàn)實場景的應(yīng)用中發(fā)揮著至關(guān)重要的作用，如自動駕駛和機(jī)器人。盡管針對這項任務(wù)的各種算法激增，但現(xiàn)有方法在早期目標(biāo)檢測方面仍然面臨重大挑戰(zhàn)，這是實現(xiàn)快速和主動決策的關(guān)鍵方面。在這樣的場景中，由于距離長，捕獲圖像中的對象的大小通常會顯著減小。

如上圖所示，當(dāng)圖像僅包含有限數(shù)量的對象，并且由于數(shù)據(jù)量不足，目標(biāo)檢測的性能顯著不理想。為了應(yīng)對這一挑戰(zhàn)，我們可以利用超分辨率（SR）算法來重建更高分辨率的圖像，從而增加可用于后續(xù)目標(biāo)檢測模型的數(shù)據(jù)。SR也是計算機(jī)視覺中的一個經(jīng)典問題，擁有大量為該任務(wù)量身定制的解決方案。

最近，與生成對抗性網(wǎng)絡(luò)（GAN）相比，擴(kuò)散模型，如DDPM，在圖像生成方面表現(xiàn)出了顯著的能力，并表現(xiàn)出了更大的穩(wěn)定性。此外，專注于條件擴(kuò)散模型（CDM）應(yīng)用于SR的研究取得了顯著進(jìn)展。通過利用擴(kuò)散模型生成高分辨率圖像，我們可以顯著提高目標(biāo)檢測性能。然而，擴(kuò)散模型具有巨大的計算成本，這對自動駕駛等現(xiàn)實的應(yīng)用構(gòu)成了挑戰(zhàn)。從上圖中的圖像示例來看，圖像的整體細(xì)化會對背景像素造成相當(dāng)大的計算負(fù)擔(dān)，導(dǎo)致資源的過度浪費(fèi)，對OD沒有任何有意義的貢獻(xiàn)。

3.新框架詳細(xì)分解

如下圖所示，DPR包括三個關(guān)鍵模塊：Patch-Selector, Patch-Refiner, Patch-Organizer。Patch-Selector模塊負(fù)責(zé)提取補(bǔ)丁特征并執(zhí)行分類。接下來，Patch-Refiner模塊詳細(xì)闡述了正補(bǔ)丁，利用CDM將其重建到更高的分辨率，從而提高了目標(biāo)檢測精度。最后，為了完全展示我們提出的方法的效率和準(zhǔn)確性，我們使用廉價的插值技術(shù)來放大負(fù)補(bǔ)丁，并將所有補(bǔ)丁組織成完整的圖像，以便于與原始圖像進(jìn)行直接比較。接下來我們對所有模塊進(jìn)行了詳細(xì)討論，并概述了算法1中提出的DPR的具體訓(xùn)練過程。此外，算法2詳細(xì)說明了采樣和測試過程。

Patch-Selector模塊的設(shè)計如下圖：(a)利用分層結(jié)構(gòu)編碼器，輸入圖像被嵌入到三個不同尺度的特征中。隨后，對這些特征中的補(bǔ)丁進(jìn)行分類和聚合，以形成最終輸出。(b)每個變換器層（TL）包括一個特征合并塊和多個基于窗口的自關(guān)注塊。

4.實驗及可視化

為了權(quán)衡計算和性能，在下表中對將圖像從64×64放大到512×512時的不同閾值進(jìn)行了補(bǔ)丁分類實驗。第二排的mAP為4.33，是最佳選擇，計算量減少了63%。

對于具有相同閾值的從128×128到1024×1024的FBDD上采樣，我們的PS模塊僅輸出22.8%的CDM生成和OD補(bǔ)丁，并且與CDM相比，PS的FLOP可以忽略不計，這意味著與全圖像生成相比，我們節(jié)省了77.2%的計算，如下表所示：

上圖顯示了集成補(bǔ)丁后BI和DPR的可視化比較。雖然DPR生成的總體圖像看起來與BI相似，但包含對象的關(guān)鍵補(bǔ)丁顯示出更精細(xì)的細(xì)節(jié)，這表明CDM只需要處理少量數(shù)據(jù)，從而實現(xiàn)更高效的計算。

責(zé)任編輯：張燕妮來源：計算機(jī)視覺研究院

目標(biāo)檢測算法

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

遠(yuǎn)距離的小目標(biāo)也可以準(zhǔn)確檢測

1.概述

2.背景

3.新框架詳細(xì)分解

4.實驗及可視化