偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何采用深度學(xué)習(xí)進(jìn)行對(duì)象檢測(cè)

譯文
人工智能 深度學(xué)習(xí)
深度神經(jīng)網(wǎng)絡(luò)因其具有的處理視覺(jué)信息的強(qiáng)大能力而聞名。在過(guò)去幾年中,它們已成為許多計(jì)算機(jī)視覺(jué)應(yīng)用程序的關(guān)鍵組成部分。

【51CTO.com快譯】深度神經(jīng)網(wǎng)絡(luò)因其具有的處理視覺(jué)信息的強(qiáng)大能力而聞名。在過(guò)去幾年中,它們已成為許多計(jì)算機(jī)視覺(jué)應(yīng)用程序的關(guān)鍵組成部分。

神經(jīng)網(wǎng)絡(luò)可以解決的關(guān)鍵問(wèn)題之一是檢測(cè)和定位圖像中的對(duì)象。對(duì)象檢測(cè)用于許多不同的領(lǐng)域,其中包括自動(dòng)駕駛、視頻監(jiān)控、醫(yī)療保健等。

以下簡(jiǎn)要回顧幫助計(jì)算機(jī)檢測(cè)對(duì)象的深度學(xué)習(xí)架構(gòu):

卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)應(yīng)用的一個(gè)關(guān)鍵組成部分。卷積神經(jīng)網(wǎng)絡(luò)(CNN) 是由深度學(xué)習(xí)技術(shù)先驅(qū)Yann LeCun在上世紀(jì)80年代開(kāi)發(fā)的一種神經(jīng)網(wǎng)絡(luò),可以有效捕捉多維空間中的模式。這使得卷積神經(jīng)網(wǎng)絡(luò)(CNN)特別適用于檢測(cè)圖像,盡管它們也用于處理其他類型的數(shù)據(jù)。為了更簡(jiǎn)單地?cái)⑹觯诒疚闹锌紤]的卷積神經(jīng)網(wǎng)絡(luò)是二維的。

每個(gè)卷積神經(jīng)網(wǎng)絡(luò)都由一個(gè)或多個(gè)卷積層組成,這是一個(gè)從輸入圖像中提取有意義值的軟件組件。每個(gè)卷積層都由多個(gè)過(guò)濾器和矩陣組成,這些過(guò)濾器和矩陣在圖像上滑動(dòng),并在不同位置注冊(cè)像素值的加權(quán)和。每個(gè)過(guò)濾器具有不同的值,并從輸入圖像中提取不同的特征。而卷積層的輸出是一組“特征圖”。

當(dāng)堆疊在一起時(shí),卷積層可以檢測(cè)視覺(jué)模式的層次結(jié)構(gòu)。例如,較低層將為垂直和水平邊、角和其他簡(jiǎn)單模式生成特征圖。較高的層可以檢測(cè)復(fù)雜的圖案,例如網(wǎng)格和圓形。而最高層可以檢測(cè)更復(fù)雜的對(duì)象,例如汽車、房屋、樹(shù)木和人員。

神經(jīng)網(wǎng)絡(luò)的每一層都對(duì)輸入圖像中的特定特征進(jìn)行編碼。

大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)使用池化層來(lái)逐漸減小其特征圖的大小,并保留最突出的部分。最大池化(Max-pooling)是目前卷積神經(jīng)網(wǎng)絡(luò)(CNN)中使用的主要池化層類型,它保持像素塊中的最大值。例如,如果使用大小為2像素的池化層,它將從前一層生成的特征圖中提取2×2像素的塊并保留最大值。這一操作將其特征圖的大小減半,并保留最相關(guān)的特征。池化層使卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠泛化其能力,并且對(duì)跨圖像的對(duì)象位移不那么敏感。

最后,卷積層的輸出被展平為一個(gè)一維矩陣,該矩陣是圖像中包含的特征的數(shù)值表示。然后將該矩陣輸入到一系列“完全連接”的人工神經(jīng)元層中,這些層將特征映射到網(wǎng)絡(luò)預(yù)期的輸出類型。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)的架構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)最基本的任務(wù)是圖像分類,其中網(wǎng)絡(luò)將圖像作為輸入并返回一系列值,這些值表示圖像屬于多個(gè)類別之一的概率。例如,假設(shè)你要訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)流行的開(kāi)源數(shù)據(jù)集ImageNet中包含的所有1,000類對(duì)象。在這種情況下,輸出層將有1,000個(gè)數(shù)字輸出,每個(gè)輸出都包含圖像屬于這些類別之一的概率。

你可以從頭開(kāi)始創(chuàng)建和測(cè)試自己的卷積神經(jīng)網(wǎng)絡(luò)。但大多數(shù)機(jī)器學(xué)習(xí)研究人員和開(kāi)發(fā)人員使用幾種主流的卷積神經(jīng)網(wǎng)絡(luò),例如AlexNet、VGG16和ResNet-50。

對(duì)象檢測(cè)數(shù)據(jù)集

對(duì)象檢測(cè)網(wǎng)絡(luò)需要在精確標(biāo)注的圖像上進(jìn)行訓(xùn)練

雖然圖像分類網(wǎng)絡(luò)可以判斷圖像是否包含某個(gè)對(duì)象,但它不會(huì)說(shuō)明對(duì)象在圖像中的位置。對(duì)象檢測(cè)網(wǎng)絡(luò)提供圖像中包含的對(duì)象類別,并提供該對(duì)象坐標(biāo)的邊界框。

對(duì)象檢測(cè)網(wǎng)絡(luò)與圖像分類網(wǎng)絡(luò)非常相似,并使用卷積層來(lái)檢測(cè)視覺(jué)特征。事實(shí)上,大多數(shù)對(duì)象檢測(cè)網(wǎng)絡(luò)使用圖像分類的卷積神經(jīng)網(wǎng)絡(luò)(CNN)并將其重新用于對(duì)象檢測(cè)。

對(duì)象檢測(cè)是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)問(wèn)題,這意味著必須在標(biāo)記的示例上訓(xùn)練模型。訓(xùn)練數(shù)據(jù)集中的每張圖像都必須附有一個(gè)文件,其中包含其包含的對(duì)象的邊界和類別。有幾個(gè)開(kāi)源工具可以創(chuàng)建對(duì)象檢測(cè)注釋。

對(duì)象檢測(cè)訓(xùn)練數(shù)據(jù)的注釋文件示例

對(duì)象檢測(cè)網(wǎng)絡(luò)在注釋數(shù)據(jù)上進(jìn)行訓(xùn)練,直到它可以在圖像中找到與每種對(duì)象對(duì)應(yīng)的區(qū)域。

以下了解一些對(duì)象檢測(cè)神經(jīng)網(wǎng)絡(luò)架構(gòu)。

R-CNN深度學(xué)習(xí)模型

R-CNN架構(gòu)

基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)由加州大學(xué)伯克利分校的人工智能研究人員于2014年提出。R-CNN由三個(gè)關(guān)鍵組件組成:

首先,區(qū)域選擇器使用“選擇性搜索”算法,在圖像中查找可能代表對(duì)象的像素區(qū)域,也稱為“感興趣區(qū)域”(RoI)。區(qū)域選擇器為每個(gè)圖像生成大約2,000個(gè)感興趣區(qū)域(RoI)。

其次,感興趣區(qū)域(RoI)被壓縮成預(yù)定義的大小,并傳遞給卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)每個(gè)區(qū)域進(jìn)行處理,通過(guò)一系列卷積操作分別提取特征,卷積神經(jīng)網(wǎng)絡(luò)(CNN)使用全連接層將特征圖編碼為一維數(shù)值向量。

最后,分類器機(jī)器學(xué)習(xí)模型將從卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲得的編碼特征映射到輸出類。分類器有一個(gè)單獨(dú)的“背景”輸出類,它對(duì)應(yīng)于任何不是對(duì)象的東西。

使用R-CNN進(jìn)行對(duì)象檢測(cè)

最初有關(guān)R-CNN的一篇論文建議研究人員使用AlexNet卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并使用支持向量機(jī)(SVM)進(jìn)行分類。但在這篇論文發(fā)表后的幾年后,研究人員使用更新的網(wǎng)絡(luò)架構(gòu)和分類模型來(lái)提高R-CNN的性能。

R-CNN存在一些問(wèn)題。首先,模型必須為每張圖像生成和裁剪2,000個(gè)單獨(dú)的區(qū)域,這可能需要很長(zhǎng)時(shí)間。其次,模型必須分別計(jì)算2,000個(gè)區(qū)域的特征。這需要大量計(jì)算并減慢了過(guò)程,使得R-CNN不適合實(shí)時(shí)對(duì)象檢測(cè)。最后,該模型由三個(gè)獨(dú)立的組件組成,這使得集成計(jì)算和提高速度變得困難。

Fast R-CNN

Fast R-CNN架構(gòu)

2015年,這篇R-CNN論文的第一作者提出了一種名為Fast R-CNN的新架構(gòu),解決了其前身的一些問(wèn)題。FastR-CNN將特征提取和區(qū)域選擇集成到單個(gè)機(jī)器學(xué)習(xí)模型中。

Fast R-CNN接收?qǐng)D像和一組感興趣區(qū)域(RoI),并返回圖像中檢測(cè)到的對(duì)象的邊界框和類的列表。

Fast R-CNN的關(guān)鍵創(chuàng)新之一是“RoI池化層”,該操作采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征圖和圖像的感興趣區(qū)域,并為每個(gè)區(qū)域提供相應(yīng)的特征。這使得Fast R-CNN能夠在一次性提取圖像中所有感興趣區(qū)域的特征,而R-CNN則分別處理每個(gè)區(qū)域。這顯著提高了處理速度。

然而還有一個(gè)問(wèn)題仍未解決。Fast R-CNN仍然需要提取圖像區(qū)域并將其作為輸入提供給模型。FastR-CNN還沒(méi)有準(zhǔn)備好進(jìn)行實(shí)時(shí)對(duì)象檢測(cè)。

Faster R-CNN

Faster R-CNN架構(gòu)

Faster R-CNN于2016年推出,通過(guò)將區(qū)域提取機(jī)制集成到對(duì)象檢測(cè)網(wǎng)絡(luò)中,解決了對(duì)象檢測(cè)最后的難題。

Faster R-CNN將圖像作為輸入,并返回對(duì)象類及其相應(yīng)邊界框的列表。

Faster R-CNN的架構(gòu)在很大程度上類似于FastR-CNN的架構(gòu)。它的主要?jiǎng)?chuàng)新是“區(qū)域提議網(wǎng)絡(luò)”(RPN),該組件采用卷積神經(jīng)網(wǎng)絡(luò)生成的特征圖,并提出一組可能定位對(duì)象的邊界框。然后將提議的區(qū)域傳遞給RoI池化層。其余的過(guò)程類似于Fast R-CNN。

通過(guò)將區(qū)域檢測(cè)集成到主要的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,F(xiàn)aster R-CNN實(shí)現(xiàn)了接近實(shí)時(shí)的目標(biāo)檢測(cè)速度。

YOLO

YOLO架構(gòu)

2016年,華盛頓大學(xué)、艾倫人工智能研究所和Facebook人工智能研究所的研究人員推出了“YOLO”,這是一個(gè)神經(jīng)網(wǎng)絡(luò)家族,通過(guò)深度學(xué)習(xí)提高了對(duì)象檢測(cè)的速度和準(zhǔn)確性。

YOLO的主要改進(jìn)是將整個(gè)對(duì)象檢測(cè)和分類過(guò)程集成在一個(gè)網(wǎng)絡(luò)中。YOLO不是分別提取特征和區(qū)域,而是通過(guò)一個(gè)個(gè)網(wǎng)絡(luò)在一次傳遞中執(zhí)行所有操作,因此被稱之為“你只看一次” (YOLO)。

YOLO能夠以視頻流幀率執(zhí)行對(duì)象檢測(cè),適用于需要實(shí)時(shí)推理的應(yīng)用程序。

在過(guò)去的幾年中,深度學(xué)習(xí)對(duì)象檢測(cè)取得了長(zhǎng)足的進(jìn)步,從一個(gè)由不同組件拼湊而成的單一神經(jīng)網(wǎng)絡(luò)發(fā)展成為功能強(qiáng)大并且更加高效的神經(jīng)網(wǎng)絡(luò)。如今,許多應(yīng)用程序使用對(duì)象檢測(cè)網(wǎng)絡(luò)作為其主要組件,這一技術(shù)存在于人們的手機(jī)、計(jì)算機(jī)、相機(jī)、汽車等設(shè)備中。而人們?nèi)绻私飧酉冗M(jìn)的神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)什么功能,這將是有趣的事情,可能也會(huì)令人毛骨悚然。

原文標(biāo)題:An introduction to object detection with deep learning,作者:Ben Dickson

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2017-08-03 11:00:20

2019-05-24 10:30:38

2021-11-02 11:48:39

深度學(xué)習(xí)惡意軟件觀察

2024-07-02 10:28:59

2023-10-23 10:19:23

自動(dòng)駕駛深度學(xué)習(xí)

2021-10-08 09:46:42

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機(jī)器學(xué)習(xí)

2025-02-11 08:30:00

2017-09-15 18:13:57

機(jī)器學(xué)習(xí)深度學(xué)習(xí)語(yǔ)音識(shí)別

2010-08-25 10:18:27

2021-02-03 13:56:09

KerasAPI深度學(xué)習(xí)

2020-10-15 12:00:01

Python 開(kāi)發(fā)編程語(yǔ)言

2016-03-16 09:33:40

2020-11-11 10:54:55

物聯(lián)網(wǎng)設(shè)計(jì)系統(tǒng)

2019-06-25 10:09:42

Web攻擊機(jī)器學(xué)習(xí)網(wǎng)絡(luò)攻擊

2009-12-28 11:14:53

ADO 連接對(duì)象

2017-08-10 15:31:57

Apache Spar TensorFlow

2018-05-18 09:57:04

深度學(xué)習(xí)乳腺癌神經(jīng)網(wǎng)絡(luò)

2024-09-13 15:24:20

深度學(xué)習(xí)自動(dòng)微分

2019-09-18 07:20:34

深度學(xué)習(xí)人臉識(shí)別人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)