偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DECO: 純卷積Query-Based檢測器超越DETR!

人工智能 智能汽車
本文旨在研究是否能夠構(gòu)建一種基于查詢的端到端目標(biāo)檢測框架,而不采用復(fù)雜的Transformer架構(gòu)。提出了一種名為Detection ConvNet(DECO)的新型檢測框架,包括主干網(wǎng)絡(luò)和卷積編碼器-解碼器結(jié)構(gòu)。通過精心設(shè)計(jì)DECO編碼器和引入一種新穎的機(jī)制,使DECO解碼器能夠通過卷積層實(shí)現(xiàn)目標(biāo)查詢和圖像特征之間的交互。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

標(biāo)題:DECO: Query-Based End-to-End Object Detection with ConvNets

論文:https://arxiv.org/pdf/2312.13735.pdf

源碼:https://github.com/xinghaochen/DECO

原文:https://zhuanlan.zhihu.com/p/686011746@王云鶴

引言

Detection Transformer(DETR)推出之后,迅速引發(fā)了目標(biāo)檢測領(lǐng)域的一股熱潮,很多的后續(xù)工作也從精度和速度方面對原始的 DETR 進(jìn)行了改進(jìn)。然而,Transformer 是否真的大一統(tǒng)視覺領(lǐng)域呢,至少從 ConvNeXt 和 RepLKNet 等工作表明,CNN 結(jié)構(gòu)在視覺領(lǐng)域還是有很大的潛力的。

圖片

我們這個工作探究的就是如何利用純卷積的架構(gòu),來得到一個性能能打的類 DETR 框架的檢測器。致敬 DETR,我們稱我們的方法為DECO (Detection ConvNets)。采用 DETR 類似的結(jié)構(gòu)設(shè)定,搭配不同的 Backbone,DECO 在 COCO 上取得了38.6%和40.8%的AP,在V100上取得了35 FPS和28 FPS的速度,取得比DETR更好的性能。搭配類似RT-DETR的多尺度特征等模塊,DECO取得了47.8% AP和34 FPS的速度,總體性能跟很多DETR改進(jìn)方法比都有不錯的優(yōu)勢。

方法

網(wǎng)絡(luò)架構(gòu)

DETR的主要特點(diǎn)是利用Transformer Encoder-Decoder的結(jié)構(gòu),對一張輸入圖像,利用一組Query跟圖像特征進(jìn)行交互,可以直接輸出指定數(shù)量的檢測框,從而可以擺脫對NMS等后處理操作的依賴。我們提出的DECO總體架構(gòu)上跟DETR類似,也包括了Backbone來進(jìn)行圖像特征提取,一個Encoder-Decoder的結(jié)構(gòu)跟Query進(jìn)行交互,最后輸出特定數(shù)量的檢測結(jié)果。唯一的不同在于,DECO的Encoder和Decoder是純卷積的結(jié)構(gòu),因此DECO是一個由純卷積構(gòu)成的Query-Based端對端檢測器。

編碼器

DETR 的 Encoder 結(jié)構(gòu)替換相對比較直接,我們選擇使用4個ConvNeXt Block來構(gòu)成Encoder結(jié)構(gòu)。具體來說,Encoder的每一層都是通過疊加一個7x7的深度卷積、一個LayerNorm層、一個1x1的卷積、一個GELU激活函數(shù)以及另一個1x1卷積來實(shí)現(xiàn)的。此外,在DETR中,因?yàn)門ransformer架構(gòu)對輸入具有排列不變性,所以每層編碼器的輸入都需要添加位置編碼,但是對于卷積組成的Encoder來說,則無需添加任何位置編碼

解碼器

相比而言,Decoder的替換則復(fù)雜得多。Decoder的主要作用為對圖像特征和Query進(jìn)行充分的交互,使得Query可以充分感知到圖像特征信息,從而對圖像中的目標(biāo)進(jìn)行坐標(biāo)和類別的預(yù)測。Decoder主要包括兩個輸入:Encoder的特征輸出和一組可學(xué)的查詢向量(Query)。我們把Decoder的主要結(jié)構(gòu)分為兩個模塊:自交互模塊(Self-Interaction Module, SIM)和交叉交互模塊(Cross-Interaction Module, CIM)。

這里,SIM模塊主要融合Query和上層Decoder層的輸出,這部分的結(jié)構(gòu),可以利用若干個卷積層來組成,使用9x9 depthwise卷積和1x1卷積分別在空間維度和通道維度進(jìn)行信息交互,充分獲取所需的目標(biāo)信息以送到后面的CIM模塊進(jìn)行進(jìn)一步的目標(biāo)檢測特征提取。Query為一組隨機(jī)初始化的向量,該數(shù)量決定了檢測器最終輸出的檢測框數(shù)量,其具體的值可以隨實(shí)際需要進(jìn)行調(diào)節(jié)。對DECO來說,因?yàn)樗械慕Y(jié)構(gòu)都是由卷積構(gòu)成的,因此我們把Query變成二維,比如100個Query,則可以變成10x10的維度。

CIM模塊的主要作用是讓圖像特征和Query進(jìn)行充分的交互,使得Query可以充分感知到圖像特征信息,從而對圖像中的目標(biāo)進(jìn)行坐標(biāo)和類別的預(yù)測。對于Transformer結(jié)構(gòu)來說,利用cross attention機(jī)制可以很方便實(shí)現(xiàn)這一目的,但對于卷積結(jié)構(gòu)來說,如何讓兩個特征進(jìn)行充分交互,則是一個最大的難點(diǎn)。

要把大小不同的SIM輸出和encoder輸出全局特征進(jìn)行融合,必須先把兩者進(jìn)行空間對齊然后進(jìn)行融合,首先我們對SIM的輸出進(jìn)行最近鄰上采樣:

圖片

使得上采樣后的特征與Encoder輸出的全局特征有相同的尺寸,然后將上采樣后的特征和encoder輸出的全局特征進(jìn)行融合,然后進(jìn)入深度卷積進(jìn)行特征交互后加上殘差輸入:

圖片

最后將交互后的特征通過FNN進(jìn)行通道信息交互,之后pooling到目標(biāo)數(shù)量大小得到decoder的輸出embedding:

圖片

最后我們將得到的輸出embedding送入檢測頭,以進(jìn)行后續(xù)的分類和回歸。

多尺度特征

跟原始的DETR一樣,上述框架得到的DECO有個共同的短板,即缺少多尺度特征,而這對于高精度目標(biāo)檢測來說是影響很大的。Deformable DETR通過使用一個多尺度的可變形注意力模塊來整合不同尺度的特征,但這個方法是跟Attention算子強(qiáng)耦合的,因此沒法直接用在我們的DECO上。為了讓DECO也能處理多尺度特征,我們在Decoder輸出的特征之后,采用了RT-DETR提出的一個跨尺度特征融合模塊。實(shí)際上,DETR誕生之后衍生了一系列的改進(jìn)方法,我們相信很多策略對于DECO來說同樣是適用的,這也希望感興趣的人共同來探討。

實(shí)驗(yàn)

我們在COCO上進(jìn)行了實(shí)驗(yàn),在保持主要架構(gòu)不變的情況下將DECO和DETR進(jìn)行了比較,比如保持Query數(shù)量一致,保持Decoder層數(shù)不變等,僅將DETR中的Transformer結(jié)構(gòu)按上文所述換成我們的卷積結(jié)構(gòu)??梢钥闯觯珼ECO取得了比DETR更好的精度和速度的Tradeoff。

我們也把搭配了多尺度特征后的DECO跟更多目標(biāo)檢測方法進(jìn)行了對比,其中包括了很多DETR的變體,從下圖中可以看到,DECO取得了很不錯的效果,比很多以前的檢測器都取得了更好的性能。

文章中DECO的結(jié)構(gòu)進(jìn)行了很多的消融實(shí)驗(yàn)及可視化,包括在Decoder中選用的具體融合策略(相加、點(diǎn)乘、Concat),以及Query的維度怎么設(shè)置才有最優(yōu)的效果等,也有一些比較有趣的發(fā)現(xiàn),更詳細(xì)的結(jié)果和討論請參看原文。

總結(jié)

本文旨在研究是否能夠構(gòu)建一種基于查詢的端到端目標(biāo)檢測框架,而不采用復(fù)雜的Transformer架構(gòu)。提出了一種名為Detection ConvNet(DECO)的新型檢測框架,包括主干網(wǎng)絡(luò)和卷積編碼器-解碼器結(jié)構(gòu)。通過精心設(shè)計(jì)DECO編碼器和引入一種新穎的機(jī)制,使DECO解碼器能夠通過卷積層實(shí)現(xiàn)目標(biāo)查詢和圖像特征之間的交互。在COCO基準(zhǔn)上與先前檢測器進(jìn)行了比較,盡管簡單,DECO在檢測準(zhǔn)確度和運(yùn)行速度方面取得了競爭性表現(xiàn)。具體來說,使用ResNet-50和ConvNeXt-Tiny主干,DECO在COCO驗(yàn)證集上分別以35和28 FPS獲得了38.6%和40.8%的AP,優(yōu)于DET模型。希望DECO提供了設(shè)計(jì)目標(biāo)檢測框架的新視角。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2010-12-28 11:17:50

chkrootkitrootkit檢測器

2023-06-02 13:19:15

模型AI

2023-07-31 11:30:27

研究技術(shù)

2025-01-03 12:00:00

AI檢測模型

2024-05-17 09:30:29

2023-07-26 09:00:00

人工智能AI檢測

2020-12-24 17:57:35

卷積神經(jīng)網(wǎng)絡(luò)特征檢測器視覺轉(zhuǎn)換器

2024-01-15 14:03:00

2022-03-11 10:18:04

Meta死鎖Android

2010-12-24 10:26:19

2022-11-21 15:18:05

模型檢測

2014-01-09 09:42:56

Python語言檢測器

2010-12-22 21:52:12

rkhunter

2020-09-22 20:14:51

人工智能

2009-03-25 15:21:17

2023-10-23 12:05:17

2024-08-01 09:00:00

目標(biāo)檢測端到端

2024-08-26 08:16:13

2014-04-16 14:00:01

墨跡空氣檢測器曝光

2023-02-01 13:15:41

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號