計算機視覺項目對象檢測的初學(xué)者指南
譯文【51CTO.com快譯】近年來,隨著人工智能技術(shù)的發(fā)展和進(jìn)步,計算機視覺和深度學(xué)習(xí)受到了業(yè)界廣泛的關(guān)注。值得稱道的是,以前被認(rèn)為極具挑戰(zhàn)性的對象檢測應(yīng)用程序現(xiàn)在變得更容易創(chuàng)建。
對象檢測可以定義為一種計算機視覺技術(shù),旨在識別和定位圖像或視頻中的對象。雖然計算機通常能夠比人類更快地處理信息,但是計算機仍然很難檢測到圖像或視頻上的各種對象。這是因為計算機只能以二進(jìn)制語言解釋大部分輸出。
本文旨在簡要討論:
- 對象檢測的基礎(chǔ)知識
- 對象檢測模型
- 對象檢測的好處
- 挑戰(zhàn)和解決方案
在討論這幾點之前,需要了解圖像分類和對象檢測之間的區(qū)別。初學(xué)者容易混淆。
對象檢測和圖像分類的區(qū)別
先對對象檢測和圖像分類進(jìn)行一下分析以了解它們之間的區(qū)別。當(dāng)人工智能系統(tǒng)查看狗的圖片時,可以立即指出是動物的圖像,也就是說出圖像的內(nèi)容。這就是圖像分類的全部內(nèi)容。
而只要有一個對象,就可以使用圖像分類技術(shù)。但是如果有多個對象,那就是對象檢測技術(shù)發(fā)揮作用的時候。通過圍繞感興趣的對象構(gòu)建矩形框,可以幫助人工智能系統(tǒng)識別每個框包含的對象。還可以使用這一方法指示對象的確切位置。而一張圖片可能包含多個對象,因此可能會顯示多個邊界框。
對象檢測的應(yīng)用是無限的,但它們通常識別和檢測真實物體,例如人類、建筑物、汽車等等。此外,人工智能系統(tǒng)需要大量不同類型對象的標(biāo)記數(shù)據(jù),以便將來識別這些對象。這意味著在標(biāo)記數(shù)據(jù)集上訓(xùn)練的機器學(xué)習(xí)模型將有更多的機會做出準(zhǔn)確的預(yù)測。
有一些行業(yè)廠商提供了數(shù)據(jù)注釋服務(wù),用戶只需要根據(jù)其要求選擇合適的服務(wù)。這種技術(shù)廣泛應(yīng)用于人物/物體跟蹤和視頻監(jiān)控攝像頭的應(yīng)用中,以下將進(jìn)一步詳細(xì)說明。
對象檢測模型
現(xiàn)在大家已經(jīng)清楚了對象檢測的定義,那么來看看一些流行的對象檢測模型。
(1)R-CNN、Faster R-CNN、Mask R-CNN
最流行的對象檢測模型屬于基于區(qū)域的CNN模型系列。該模型徹底改變了對象檢測領(lǐng)域過去的工作方式。在過去的幾年,它們不僅變得更加準(zhǔn)確,而且更加高效。
(2)SSD和YOLO
2016年發(fā)布的單發(fā)探測器系列有很多模型。雖然單次多盒檢測(SSD)模型的檢測速度比CNN模型快,但它們的準(zhǔn)確率遠(yuǎn)低于CNN。
YOLO模型與基于區(qū)域的算法有很大不同。就像SDD模型一樣,YOLO模型比R-CNN模型更快,但由于精度低而有些落后。對于移動或嵌入式設(shè)備,SDD模型是很好的選擇。
(3)CenterNet
近年來,這些對象檢測模型越來越受歡迎。CentreNet遵循基于關(guān)鍵點的對象檢測方法。
與SSD模型或R-CNN模型相比,該模型被證明更高效、更準(zhǔn)確。這種方法的唯一缺點是訓(xùn)練過程緩慢。
對象檢測對現(xiàn)實世界的好處
對象檢測與其他類似的計算機視覺技術(shù)(例如圖像分割和圖像識別)完全相互關(guān)聯(lián),可幫助人們理解和分析視頻和圖像中的場景。如今,在對象檢測市場中有一些實際用例,對不同行業(yè)領(lǐng)域產(chǎn)生了巨大影響。
(1)自動駕駛汽車
自動駕駛汽車成功背后的主要原因是基于實時對象檢測人工智能的模型。這些系統(tǒng)使人們能夠定位、識別和跟蹤周圍的物體,以確保安全和效率。
(2)視頻監(jiān)控
實時對象檢測和跟蹤物體運動使視頻監(jiān)控攝像頭能夠跟蹤特定位置(例如機場)的場景記錄。這種最先進(jìn)的技術(shù)可以準(zhǔn)確識別和定位視頻中給定對象的多個實例。當(dāng)對象實時地穿過給定場景或穿過特定幀時,視頻監(jiān)控系統(tǒng)會存儲帶有實時跟蹤源的信息。
(3)人群計數(shù)
對于購物中心、機場、城市廣場和主題公園等人口稠密地區(qū),這一應(yīng)用程序的優(yōu)異表現(xiàn)令人難以置信。事實證明,這個對象檢測應(yīng)用程序有助于大型企業(yè)和市政當(dāng)局跟蹤特定時間范圍內(nèi)的道路交通、違法行為和車輛數(shù)量。
(4)異常檢測
有多種異常檢測應(yīng)用程序可用于使用對象檢測的不同行業(yè)。例如在農(nóng)業(yè)領(lǐng)域,對象檢測模型可以準(zhǔn)確識別和發(fā)現(xiàn)植物病害的潛在實例。在這些技術(shù)的幫助下,農(nóng)民將會得到通知,能夠防止他們的農(nóng)作物受到病害威脅。
作為另一個例子,該模型已被用于識別皮膚感染和有癥狀的病變。一些應(yīng)用程序已經(jīng)將對象檢測模型用于皮膚護(hù)理和痤瘡治療。
需要記住的是,在創(chuàng)建任何類型的對象檢測模型時都會遇到一些問題。但是可以使用一些解決方案來解決這些挑戰(zhàn)。
對象檢測建模的挑戰(zhàn)和解決方案
(1)對象定位
對象檢測的第一個挑戰(zhàn)是對物體的圖像和位置進(jìn)行分類,這稱為對象定位。為了解決這個問題,大多數(shù)開發(fā)人員經(jīng)常使用多任務(wù)損失函數(shù)來懲罰定位和分類錯誤。
解決方案:基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)顯示一類對象檢測框架,其中包含對象可能位于的區(qū)域生成方案,然后是CNN模型處理以對對象位置進(jìn)行分類和糾正。Fast-RCNN模型可以改善R-CNN的初始結(jié)果。顧名思義, FastR-CNN模型提供了驚人的速度,并且準(zhǔn)確度也提高了,因為定位和對象分類任務(wù)使用多任務(wù)損失函數(shù)進(jìn)行了優(yōu)化。
(2)實時檢測速度
快速的對象檢測算法一直是同時準(zhǔn)確地對關(guān)鍵目標(biāo)進(jìn)行分類和定位以滿足實時視頻處理的主要問題。多年來,一些算法已經(jīng)將測試時間從每秒0.02幀提高到每秒155幀。
解決方案:Faster R-CNN和Fast R-CNN模型旨在加快R-CNN方法的原始速度。由于R-CNN使用選擇性搜索來生成2000個候選感興趣區(qū)域并單獨通過每個基于CNN的模型,因此這可能會導(dǎo)致模型處理失敗后的嚴(yán)重瓶頸。而Fast R-CNN模型通過CNN base傳輸一次圖像,然后將通過選擇性搜索創(chuàng)建的ROI匹配到特征圖,同時將處理時間減少20倍。
(3)多縱橫比和大小
對于多個對象檢測應(yīng)用程序,人們感興趣的項目可能會出現(xiàn)在多個縱橫比和不同的大小。研究人員證明了多種方法可以確保檢測算法能夠識別不同視角和大小的不同對象。
解決方案:不是采用選擇性搜索,而是使用區(qū)域提議網(wǎng)絡(luò)更新Faster R-CNN,該網(wǎng)絡(luò)在圖片的卷積特征圖上使用一個小的滑動窗口來生成感興趣的候選區(qū)域??梢栽诓煌恢妙A(yù)測多個興趣區(qū)域,并相對于參考錨框進(jìn)行描述。選擇這些錨框的大小和形狀以跨越一系列的縱橫比和不同的大小。它允許多種類型的對象進(jìn)行識別,希望在定位任務(wù)期間不需要調(diào)整邊界框坐標(biāo)。
(4)帶注釋的數(shù)據(jù)數(shù)量有限
需要考慮的不可否認(rèn)的事實之一是帶注釋的數(shù)據(jù)數(shù)量有限,這成為構(gòu)建應(yīng)用程序的障礙。這些數(shù)據(jù)集專門包含數(shù)十到數(shù)百個對象的真實示例,而圖像分類數(shù)據(jù)集包含大約10萬個不同的類。
解決方案:市場上現(xiàn)在提供了一些圖像數(shù)據(jù)集,例如由微軟公司提供的COCO Dataset,它目前采用一些對象檢測注釋數(shù)據(jù)。該數(shù)據(jù)集包含30萬張根據(jù)精確位置標(biāo)簽具有80個不同對象類別的分割圖片。每個圖像平均包含7個對象和項目,它們以非常大的比例出現(xiàn)。減少數(shù)據(jù)稀缺的最主要的方法之一是YOLO9000(YOLO的第二個版本)。YOLO9000處理了YOLO的許多關(guān)鍵更新,但它也旨在縮小圖像分類和對象檢測之間的數(shù)據(jù)集差距。此外,它同時訓(xùn)練ImageNet和COCO,這是一個具有數(shù)萬個對象類的圖像分類數(shù)據(jù)集。 結(jié)語
根據(jù)來源,對象檢測被認(rèn)為比圖像分類困難得多,特別是為了解決上述問題。研究人員繼續(xù)努力減少這些障礙,有時會產(chǎn)生驚人的成果,然而仍然存在重大問題。當(dāng)然,所有的對象檢測模型都在努力處理更小的對象,尤其是那些被部分遮擋在一起收集的對象。具有對象分類和定位精度的實時檢測仍然是一個值得注意的問題,研究人員在做出設(shè)計決策時通常會優(yōu)先考慮其中一件事。從樂觀的角度來看,視頻跟蹤技術(shù)可能會在未來在其他應(yīng)用場景中會看到一些進(jìn)展。
原文標(biāo)題:Beginner’s Guide to Object Detection for Computer Vision Project,作者:Analytics Insight
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】





























