偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

YOLO 詳解:基于深度學(xué)習(xí)的物體檢測

人工智能 深度學(xué)習(xí)
與依賴基于分類方法的傳統(tǒng)物體檢測模型不同,YOLO 通過基于回歸的方法直接推斷邊界框來預(yù)測物體位置。

引言

本文介紹了YOLO(You Only Look Once),一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的物體檢測模型。與依賴基于分類方法的傳統(tǒng)物體檢測模型不同,YOLO通過基于回歸的方法直接推斷邊界框來預(yù)測物體位置。這種端到端的CNN模型以其卓越的處理速度和高預(yù)測精度脫穎而出,在這兩方面都優(yōu)于許多現(xiàn)有的物體檢測架構(gòu)。

圖1. YOLO檢測圖

背景

近年來,物體檢測的進(jìn)展主要依賴于基于CNN的架構(gòu),包括R-CNN和DPM等著名模型。然而,大多數(shù)傳統(tǒng)模型涉及多階段流程,導(dǎo)致推理時(shí)間較長且復(fù)雜性增加。此外,它們復(fù)雜的結(jié)構(gòu)使得優(yōu)化和參數(shù)調(diào)整變得困難。相比之下,YOLO引入了一種基于回歸的端到端CNN架構(gòu),提供了幾個(gè)關(guān)鍵優(yōu)勢:

  • 實(shí)時(shí)推理:YOLO實(shí)現(xiàn)了每秒45幀的驚人處理速度,當(dāng)使用Titan X GPU時(shí),其變體甚至可以達(dá)到每秒150幀。這使得模型能夠以極低的25毫秒延遲實(shí)時(shí)處理視頻流。
  • 全局推理:在訓(xùn)練階段,YOLO一次性處理整個(gè)圖像,捕捉物體外觀和上下文信息。這種整體方法有助于減少背景錯(cuò)誤,這是滑動(dòng)窗口或基于區(qū)域提議方法的常見問題。
  • 學(xué)習(xí)可泛化的表示:作者通過在自然圖像上訓(xùn)練的模型對藝術(shù)作品圖像進(jìn)行測試,展示了YOLO的強(qiáng)大泛化能力。這一表現(xiàn)顯著優(yōu)于傳統(tǒng)物體檢測模型。

方法

統(tǒng)一檢測

圖2. YOLO流程:該模型通過以下過程推斷物體的邊界框

如圖2所示,YOLO模型通過邊界框回歸對給定圖像進(jìn)行分割并檢測物體。所有這些過程都在單個(gè)CNN模型中完成。

首先,模型將輸入圖像劃分為S × S的網(wǎng)格。每個(gè)網(wǎng)格單元預(yù)測B個(gè)邊界框并返回相應(yīng)的置信度分?jǐn)?shù)。置信度分?jǐn)?shù)是模型準(zhǔn)確預(yù)測目標(biāo)物體的信心度量。作者將置信度分?jǐn)?shù)定義為以下公式。

圖3. 計(jì)算不同邊界框IOU的示例:綠色框是真實(shí)值,紅色框是預(yù)測值

注意,IOU表示“交并比”,如圖3所示。它通過以下方程獲得:

重疊區(qū)域表示預(yù)測值和真實(shí)值重疊的區(qū)域,而并集區(qū)域是預(yù)測值和真實(shí)值區(qū)域的并集。

預(yù)測的邊界框有5個(gè)值。這些值是x、y、w、h和置信度。x和y值表示框的中心坐標(biāo)相對于網(wǎng)格單元邊界的位置。w和h值表示預(yù)測邊界框的長度和高度相對于整個(gè)圖像的比例。最后,置信度表示置信度分?jǐn)?shù)。

在圖2中,底部的彩色框表示每個(gè)網(wǎng)格單元的類別預(yù)測。這些預(yù)測表示為條件概率P(Class∣Object),表示在邊界框中存在物體的情況下,特定類別出現(xiàn)的可能性。

每個(gè)網(wǎng)格單元獨(dú)立于邊界框數(shù)量預(yù)測這些概率值。然后,通過將條件概率P(Class∣Object)與置信度分?jǐn)?shù)P(Object) × IOU相乘,計(jì)算出類別特定的置信度分?jǐn)?shù)。這個(gè)最終分?jǐn)?shù)既包含了特定類別出現(xiàn)在邊界框中的概率,也包含了預(yù)測框與目標(biāo)物體匹配的準(zhǔn)確性。

網(wǎng)絡(luò)設(shè)計(jì)

圖4. YOLO模型結(jié)構(gòu)

如前文所述,作者將YOLO設(shè)計(jì)為CNN結(jié)構(gòu)。該網(wǎng)絡(luò)是一個(gè)簡單的結(jié)構(gòu),通過CNN層提取圖像特征,并通過最后的全連接層(FC層)輸出預(yù)測邊界框值的概率。

該模型是通過模擬GoogleNet構(gòu)建的。網(wǎng)絡(luò)有24個(gè)CNN層和兩個(gè)FC層。所提出的模型與GoogLeNet的區(qū)別在于inception模塊。YOLO模型使用1 × 1的降維層,后接3 × 3的卷積層,而不是inception模塊。

作者還介紹了Fast YOLO,這是YOLO的更快版本。該模型使用9個(gè)卷積層,濾波器數(shù)量比YOLO少。除了模型大小外,YOLO和Fast YOLO的所有超參數(shù)都相同。

模型中的最后一個(gè)張量的形狀為S × S × (5B + C),其中C是類別概率。由于作者設(shè)置B = 2,C = 20,S = 7,最終張量的形狀為7 × 7 × 30。

模型訓(xùn)練

(1) 預(yù)訓(xùn)練

設(shè)計(jì)模型的前20個(gè)CNN層使用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。該訓(xùn)練一直進(jìn)行到模型的分類性能達(dá)到88%的top-5準(zhǔn)確率。然后,這個(gè)預(yù)訓(xùn)練模型用于物體檢測任務(wù),并添加了4個(gè)CNN層和2個(gè)FC層。這里,添加的層是隨機(jī)初始化的。為了提高物體檢測性能,作者將輸入圖像分辨率從224 × 224增加到448 × 448。

(2) 模型輸出

YOLO的最后一層返回類別概率和邊界框坐標(biāo)。注意,邊界框的坐標(biāo)、寬度和高度通過歸一化限制在0到1之間。

(3) 損失函數(shù)

損失函數(shù)考慮了所有預(yù)測邊界框的估計(jì)類別、坐標(biāo)、高度和寬度。損失函數(shù)表達(dá)式如下。

在這種情況下,1?表示單元格i中是否存在物體,而1??表示單元格i中的第j個(gè)邊界框預(yù)測器負(fù)責(zé)進(jìn)行預(yù)測。

作者優(yōu)先考慮坐標(biāo)預(yù)測的損失,而不是沒有物體的單元格的損失。為此,引入了兩個(gè)加權(quán)因子:一個(gè)用于坐標(biāo)預(yù)測(λcoord),另一個(gè)用于非物體預(yù)測(λnoobj)。在本研究中,λcoord設(shè)置為5,λnoobj設(shè)置為0.5。

推理

YOLO模型預(yù)測多個(gè)邊界框,本文中具體為98個(gè)框。作者提到,所提出的模型可以快速推理,因?yàn)樗恍枰淮尉W(wǎng)絡(luò)評估。

網(wǎng)格設(shè)計(jì)強(qiáng)制了邊界框預(yù)測的空間多樣性。大多數(shù)目標(biāo)物體落入一個(gè)單元格,模型只為每個(gè)物體預(yù)測一個(gè)框。此外,相對較大的目標(biāo)可以通過多個(gè)單元格很好地定位。作者使用非極大值抑制來處理這些問題。這種抑制方法使mAP提高了23%。

與其他檢測系統(tǒng)的比較

本文簡要介紹了所提出的模型與其他現(xiàn)有方法的區(qū)別。

(1) 可變形部件模型

雖然可變形部件模型(DPM)通過分離的步驟檢測目標(biāo)物體,但所提出的YOLO通過CNN模塊整合了這些單獨(dú)的過程。

(2) R-CNN

現(xiàn)有的R-CNN通過評估候選邊界框的分?jǐn)?shù)來預(yù)測目標(biāo)物體的位置。YOLO的不同之處在于它使用較少的候選邊界框,并且提取物體特征的過程完全通過CNN完成。

(3) 其他快速檢測器

這項(xiàng)工作提到了基于DPM的其他方法,如Fast R-CNN和Faster R-CNN。所提到的研究側(cè)重于提高幀處理速度,而作者則更注重在保持實(shí)時(shí)處理速度(每秒30幀)的同時(shí)提高預(yù)測準(zhǔn)確性。

(4) Deep MultiBox

所提到的方法SSD(Deep Multibox)無法執(zhí)行通用物體檢測,需要進(jìn)一步的圖像塊分類,而所提出的YOLO是端到端的檢測框架。

(5) OverFeat

Overfeat和YOLO在目的上相似。然而,所提到的模型側(cè)重于定位,而YOLO則專注于優(yōu)化檢測性能。

(6) MultiGrasp

MultiGrasp和YOLO的檢測過程相似,但所提到的方法是用于抓取檢測的模型,而所提出的網(wǎng)絡(luò)則設(shè)計(jì)用于更具挑戰(zhàn)性的任務(wù)——物體檢測。

實(shí)驗(yàn)

數(shù)據(jù)集

圖5. VOC 2007數(shù)據(jù)中的物體檢測示例

使用了物體檢測領(lǐng)域的公共數(shù)據(jù)集PASCAL VOC 2007。該數(shù)據(jù)集包含許多圖像,其中有各種類型的物體,如汽車、狗、人、自行車等。作者還包含了VOC 2012數(shù)據(jù)集進(jìn)行額外實(shí)驗(yàn)。圖5展示了使用VOC數(shù)據(jù)集的示例結(jié)果。

模型設(shè)置

(1) 超參數(shù)

  • 訓(xùn)練輪數(shù):135
  • 批量大小:64
  • 優(yōu)化器:隨機(jī)梯度下降(SGD)
  • 動(dòng)量:0.9
  • 衰減:0.0005
  • 學(xué)習(xí)率:0.001(第一輪),0.01(第2 ~ 75輪),0.001(第76 ~ 105輪),0.0001(最后30輪)
  • Dropout:0.5

(2) 數(shù)據(jù)增強(qiáng)

在這項(xiàng)工作中,應(yīng)用了數(shù)據(jù)增強(qiáng)以防止訓(xùn)練模型的過擬合。作者隨機(jī)調(diào)整原始圖像的大小或平移,最多調(diào)整其原始大小的20%。此外,圖像的顏色曝光和飽和度在HSV顏色空間中隨機(jī)調(diào)整,最多調(diào)整1.5倍。

(3) 評估指標(biāo)

作者采用了兩個(gè)測量指標(biāo),mAP(平均精度)和FPS(每秒幀數(shù))。前者代表模型的檢測準(zhǔn)確性,后者是實(shí)時(shí)處理能力的度量。

結(jié)果

圖6. PASCAL VOC 2007數(shù)據(jù)集上的比較結(jié)果。一些模型同時(shí)使用VOC 2007和VOC 2012進(jìn)行訓(xùn)練

作者將YOLO與其他現(xiàn)有的物體檢測方法(包括Faster R-CNN)進(jìn)行了比較。這里,F(xiàn)PS達(dá)到30或更高的系統(tǒng)被歸類為實(shí)時(shí)檢測器。mAP和FPS的比較結(jié)果如圖6所示。其他現(xiàn)有方法的準(zhǔn)確性略高于YOLO,但處理速度非常慢。另一方面,所提出的模型在實(shí)時(shí)能力和準(zhǔn)確性之間取得了適當(dāng)?shù)钠胶狻?/p>

圖7. Fast R-CNN和YOLO檢測結(jié)果的錯(cuò)誤分析圖

與當(dāng)時(shí)最先進(jìn)的Fast R-CNN模型進(jìn)行了深入比較。作者根據(jù)交并比(IOU)指標(biāo)描述了檢測結(jié)果如下。

  • 正確:類別正確且IOU > 0.5。
  • 定位:類別正確且0.1 < IOU < 0.5。
  • 相似:類別相似,IOU > 0.1。
  • 其他:類別錯(cuò)誤,IOU > 0.1。
  • 背景:任何物體的IOU < 0.1

兩個(gè)模型的檢測結(jié)果圖如圖7所示。Fast R-CNN在準(zhǔn)確性上略優(yōu)于YOLO,但它也占據(jù)了相當(dāng)大比例的完全錯(cuò)誤情況(背景)。而YOLO模型正確推斷物體類別的比率高于對比模型。

與Fast R-CNN的結(jié)合

圖8. 結(jié)合模型的mAP結(jié)果。測試使用VOC 2007數(shù)據(jù)集進(jìn)行

作者設(shè)計(jì)了以Fast R-CNN為骨干網(wǎng)絡(luò)的YOLO模型,并觀察了檢測性能的變化。與原始骨干網(wǎng)絡(luò)的結(jié)果比較如圖8所示。圖8中不同F(xiàn)ast R-CNN變體的括號(hào)中的文本指的是模型訓(xùn)練方法。將Fast R-CNN插入YOLO架構(gòu)中,結(jié)果優(yōu)于不同的學(xué)習(xí)方法。此外,YOLO也受到骨干網(wǎng)絡(luò)的影響。

圖9. VOC 2012數(shù)據(jù)集上的mAP結(jié)果。這里,一些是實(shí)時(shí)模型,一些不是

作者還通過使用VOC 2012數(shù)據(jù)集進(jìn)行測試,參考了比較結(jié)果。一些實(shí)時(shí)技術(shù)和不考慮處理速度的簡單檢測方法。實(shí)驗(yàn)結(jié)果列在圖9中。圖9中的陰影行表示所提出的方法YOLO。作者提到,所提出的網(wǎng)絡(luò)在相對較小的準(zhǔn)確性犧牲下確保了實(shí)時(shí)性。

泛化能力

本文還介紹了使用其他數(shù)據(jù)集的額外實(shí)驗(yàn)。作者使用VOC 2007數(shù)據(jù)集訓(xùn)練YOLO模型,并在未見過的數(shù)據(jù)集上進(jìn)行測試。有趣的是,繪畫數(shù)據(jù)集(Picasso、People-art)也包括在內(nèi)。

圖10. 使用Picasso數(shù)據(jù)集測試的幾個(gè)模型的精確率-召回率曲線

圖11. 幾個(gè)數(shù)據(jù)集上的定量結(jié)果

作者通過跨數(shù)據(jù)集實(shí)驗(yàn)驗(yàn)證了模型的泛化性能。圖10和圖11分別展示了精確率-召回率曲線、AP和F1的結(jié)果。與其他現(xiàn)有的物體檢測模型相比,YOLO表現(xiàn)出更好的泛化性能。特別是在訓(xùn)練數(shù)據(jù)(VOC 2007)和未見數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果差異相對較小,這意味著YOLO模型對圖像外觀具有魯棒性。

圖12. 使用各種圖像估計(jì)的邊界框

圖12展示了YOLO模型的定性結(jié)果。有一些錯(cuò)誤的預(yù)測,如左下角第二個(gè)(一個(gè)飛行的人被估計(jì)為飛機(jī))。然而,如其他結(jié)果所示,所提出的YOLO模型即使在單一類型的訓(xùn)練數(shù)據(jù)集下,也能準(zhǔn)確識(shí)別各種類型圖像中的物體。

結(jié)論

本文介紹了YOLO(You Only Look Once),這是一種非??焖偾乙子趯?shí)現(xiàn)的物體檢測模型。與基于分類模型的傳統(tǒng)物體檢測方法不同,YOLO采用基于回歸的設(shè)計(jì),實(shí)現(xiàn)了更直接和高效的物體檢測。通過比較分析和泛化實(shí)驗(yàn),作者展示了YOLO在實(shí)現(xiàn)高精度和卓越處理速度的同時(shí),也證明了其對各種物體檢測任務(wù)的適應(yīng)性。

回顧

YOLO(You Only Look Once)代表了物體檢測技術(shù)發(fā)展的一個(gè)重要里程碑,為后續(xù)眾多版本和改進(jìn)奠定了基礎(chǔ)。其創(chuàng)新的損失函數(shù)和簡化的檢測方法相比早期方法帶來了顯著的性能提升。然而,正如作者在論文中承認(rèn)的那樣,YOLO也存在一些局限性。這些局限性包括處理同一物體不同長寬比的挑戰(zhàn),以及準(zhǔn)確檢測非常小物體的困難。盡管存在這些限制,YOLO對實(shí)時(shí)物體檢測的貢獻(xiàn)及其對后續(xù)模型的影響是不可否認(rèn)的。

參考文獻(xiàn)

(1) GoogleNet:https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

(2) ImageNet:https://www.image-net.org/

(3) Deformable Parts Models(DPM):https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Girshick_Deformable_Part_Models_2015_CVPR_paper.pdf

(4) Fast R-CNN:https://openaccess.thecvf.com/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

(5) You Only Look Once: Unified, Real-Time Object Detection:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf

責(zé)任編輯:趙寧寧 來源: 小白玩轉(zhuǎn)Python
相關(guān)推薦

2024-06-24 05:00:00

YOLO模型人工智能

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機(jī)器學(xué)習(xí)

2024-08-27 10:20:00

2025-01-06 12:20:00

YOLO物體識(shí)別開發(fā)

2022-02-14 11:37:59

自動(dòng)駕駛算法技術(shù)

2024-01-04 08:00:00

人工智能深度學(xué)習(xí)

2021-07-09 10:45:23

BBAugPyTorch神經(jīng)網(wǎng)絡(luò)

2024-02-16 08:00:00

機(jī)器學(xué)習(xí)ML-data預(yù)訓(xùn)練模型

2017-11-06 14:00:46

深度學(xué)習(xí)神經(jīng)科學(xué)夢境

2024-10-28 16:12:26

2019-05-24 10:30:38

2023-05-22 08:00:00

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2025-03-13 11:11:04

2024-07-10 10:19:26

2017-02-16 08:25:35

2023-10-10 19:00:57

云網(wǎng)關(guān)報(bào)文檢測

2019-06-25 10:09:42

Web攻擊機(jī)器學(xué)習(xí)網(wǎng)絡(luò)攻擊

2017-08-03 11:00:20

2024-11-04 08:14:48

2024-10-05 13:00:00

模型優(yōu)化訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)