偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

改進(jìn)的YOLO：AF-FPN替換金字塔模塊提升目標(biāo)檢測(cè)精度

作者：計(jì)算機(jī)視覺(jué)研究院 2024-06-26 10:16:41

人工智能新聞

隨著世界邁向第四次工業(yè)革命，電動(dòng)車(chē)越來(lái)越普遍，但是路上的交通標(biāo)志也五花八門(mén)，如果利用計(jì)算機(jī)視覺(jué)技術(shù)可以全部檢測(cè)識(shí)別，那也是一大進(jìn)步！

本文經(jīng)計(jì)算機(jī)視覺(jué)研究院公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

源代碼：https://arxiv.org/pdf/2112.08782.pdf

一、前言

交通標(biāo)志檢測(cè)對(duì)于無(wú)人駕駛系統(tǒng)來(lái)說(shuō)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，特別是對(duì)于多尺度目標(biāo)的檢測(cè)和檢測(cè)的實(shí)時(shí)性問(wèn)題。在交通標(biāo)志檢測(cè)過(guò)程中，目標(biāo)的尺度變化很大，會(huì)對(duì)檢測(cè)精度產(chǎn)生一定的影響。

特征金字塔被廣泛用于解決這個(gè)問(wèn)題，但它可能會(huì)破壞不同尺度交通標(biāo)志的特征一致性。而且，在實(shí)際應(yīng)用中，常用的方法很難在保證檢測(cè)實(shí)時(shí)性的同時(shí)提高多尺度交通標(biāo)志的檢測(cè)精度。

在今天分享中，研究者提出了一種改進(jìn)的特征金字塔模型，命名為AF-FPN，它利用自適應(yīng)注意力模塊（AAM）和特征增強(qiáng)模塊（FEM）來(lái)減少特征圖生成過(guò)程中的信息丟失并增強(qiáng)表示能力的特征金字塔。將YOLOv5中原有的特征金字塔網(wǎng)絡(luò)替換為AF-FPN，在保證實(shí)時(shí)檢測(cè)的前提下提高了YOLOv5網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的檢測(cè)性能。此外，提出了一種新的自動(dòng)學(xué)習(xí)數(shù)據(jù)增強(qiáng)方法來(lái)豐富數(shù)據(jù)集并提高模型的魯棒性，使其更適合實(shí)際場(chǎng)景。在Tsinghua-Tencent 100K (TT100K) 數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果證明了與幾種最先進(jìn)的方法相比所提出的方法的有效性和優(yōu)越性。

二、背景

交通標(biāo)志識(shí)別系統(tǒng)化是自動(dòng)駕駛中最重要的一部分，怎樣去提升交通標(biāo)志檢測(cè)和識(shí)別技術(shù)的精度和實(shí)時(shí)性能，這個(gè)也是現(xiàn)在當(dāng)技術(shù)實(shí)際落地時(shí)需要解決的重要問(wèn)題。傳統(tǒng)的CNN通常需要大量的參數(shù)和浮點(diǎn)運(yùn)算 (FLOP) 以達(dá)到準(zhǔn)確性令人滿(mǎn)意的效果，例如ResNet-50有大約2560萬(wàn)個(gè)參數(shù)和需要4.1B FLOPs來(lái)處理大小為224×224的圖像。然而，移動(dòng)設(shè)備（例如智能手機(jī)和自動(dòng)駕駛汽車(chē)）有限的內(nèi)存和計(jì)算資源不能用于大型網(wǎng)絡(luò)的部署和推理。作為一個(gè)one-stage檢測(cè)器，使用YOLOv5是由于具有計(jì)算量小、速度快的優(yōu)點(diǎn)。

三、新框架詳細(xì)分析

The improved YOLOv5s network framework

作為當(dāng)前YOLO系列中的最新框架，卓越的YOLOv5其靈活性使其便于快速在車(chē)輛硬件方面進(jìn)行部署。YOLOv5包含四個(gè)模型，分別是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s是YOLO系列最小的模型，更適合部署在車(chē)載移動(dòng)硬件平臺(tái)，由于其內(nèi)存大小為14.10M，但識(shí)別精度達(dá)不到準(zhǔn)確、高效識(shí)別的要求，尤其是用于識(shí)別小規(guī)模目標(biāo)。YOLOv5的基本框架可以分為四個(gè)部分：input、backbone、neck和prediction。Input部分通過(guò)數(shù)據(jù)增強(qiáng)來(lái)豐富數(shù)據(jù)集，它具有對(duì)硬件設(shè)備要求低，計(jì)算量成本低。但是它會(huì)導(dǎo)致數(shù)據(jù)集中原來(lái)的小目標(biāo)變小，從而導(dǎo)致數(shù)據(jù)集的惡化，降低模型的泛化性能。Backbone部分主要由CSP模塊組成，它們通過(guò)CSPDarknet53執(zhí)行特征提取。FPN和PANet用于聚合Neck現(xiàn)階段的圖像特征。最后，網(wǎng)絡(luò)通過(guò)Prediction進(jìn)行目標(biāo)預(yù)測(cè)和輸出。

研究者引入AF-FPN和自動(dòng)學(xué)習(xí)數(shù)據(jù)增強(qiáng)來(lái)解決模型大小和識(shí)別精度不兼容的問(wèn)題，進(jìn)一步提高模型的識(shí)別性能。將原有的FPN結(jié)構(gòu)替換為AF-FPN，以提高識(shí)別多尺度目標(biāo)的能力，并在識(shí)別速度和準(zhǔn)確率之間做出有效的權(quán)衡。

此外，研究者去除原始網(wǎng)絡(luò)中的mosaic augmentation，并根據(jù)自動(dòng)學(xué)習(xí)數(shù)據(jù)增強(qiáng)策略使用最佳數(shù)據(jù)增強(qiáng)方法來(lái)豐富數(shù)據(jù)集并提高訓(xùn)練效果。改進(jìn)后的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

AF-FPN structure

AF-FPN在傳統(tǒng)特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上，增加了自適應(yīng)注意力模塊（AAM）和特征增強(qiáng)模塊（FEM）。前一部分由于減少了特征通道，減少了在高層特征圖中上下文信息的丟失；后一部分增強(qiáng)了特征金字塔的表示并加快了推理速度，同時(shí)實(shí)現(xiàn)了最先進(jìn)的性能。AF-FPN的結(jié)構(gòu)如下圖所示。

AAM的具體結(jié)構(gòu)如下圖所示，作為自適應(yīng)注意力模塊的輸入，C5的大小為S=h×w。它首先通過(guò)自適應(yīng)池化層獲得不同尺度（β1×S，β2×S，β3×S）的上下文特征。然后每個(gè)上下文特征經(jīng)過(guò)1×1卷積，得到相同的通道維度256。使用雙線(xiàn)性插值將它們上采樣到S的尺度，用于后續(xù)融合。

空間注意力機(jī)制通過(guò)一個(gè)Concat層將三個(gè)上下文特征的通道合并，然后特征圖依次通過(guò)1×1卷積層、ReLU激活層、3×3卷積層和sigmoid激活層生成對(duì)應(yīng)的空間權(quán)重。生成的權(quán)重圖和合并通道后的特征圖進(jìn)行Hadamard乘積運(yùn)算，分離后加入到輸入特征圖M5中，將上下文特征聚合到M6中。最終的特征圖具有豐富的多尺度上下文信息，在一定程度上緩解了由于通道數(shù)減少而造成的信息丟失。

FEM主要利用空洞卷積根據(jù)檢測(cè)到的交通標(biāo)志的不同尺度自適應(yīng)學(xué)習(xí)每個(gè)特征圖中不同的感受野，從而提高多尺度目標(biāo)檢測(cè)和識(shí)別的準(zhǔn)確性。如上圖所示，它可以分為兩個(gè)部分：多分支卷積層和多分支池化層。多分支卷積層用于通過(guò)空洞卷積為輸入特征圖提供不同大小的感受野。并且平均池化層用于融合來(lái)自三個(gè)分支感受野的交通信息，以提高多尺度預(yù)測(cè)的準(zhǔn)確性。

Data Augmentation

數(shù)據(jù)增強(qiáng)我就簡(jiǎn)單描述下，具體如下示例：

四、實(shí)驗(yàn)結(jié)果及可視化

Size distribution of sign instances from the TT100K

在TT100K數(shù)據(jù)集上與其他模型的性能比較

每種方法對(duì)19種交通標(biāo)志的漏檢率比較

移動(dòng)設(shè)備部署及通過(guò)攝像頭拍攝的檢測(cè)實(shí)例

責(zé)任編輯：張燕妮來(lái)源：計(jì)算機(jī)視覺(jué)研究院

計(jì)算機(jī)視覺(jué)檢測(cè)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)