偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

卷積神經(jīng)網(wǎng)絡(luò)如何進(jìn)行圖像識別

人工智能 深度學(xué)習(xí)
在機(jī)器視覺的概念中,圖像識別是指軟件具有分辨圖片中的人物、位置、物體、動作以及筆跡的能力。計算機(jī)可以應(yīng)用機(jī)器視覺技巧,結(jié)合人工智能以及攝像機(jī)來進(jìn)行圖像識別。

[[202854]]

什么是圖像識別?為什么要進(jìn)行圖像識別?

在機(jī)器視覺的概念中,圖像識別是指軟件具有分辨圖片中的人物、位置、物體、動作以及筆跡的能力。計算機(jī)可以應(yīng)用機(jī)器視覺技巧,結(jié)合人工智能以及攝像機(jī)來進(jìn)行圖像識別。

對于人類和動物的大腦來說,識別物體是很簡單的,但是同樣的任務(wù)對計算機(jī)來說卻是很難完成的。當(dāng)我們看到一個東西像樹、或者汽車、或者我們的朋友,我們在分辨他是什么之前,通常不需要下意識的去研究他。然而,對于計算機(jī)來說,辨別任何事物(可能是鐘表、椅子、人或者動物)都是非常難的問題,并且找到問題解決方法的代價很高。

 

圖像識別算法一般采用機(jī)器學(xué)習(xí)方法,模擬人腦進(jìn)行識別的方式。根據(jù)這種方法,我們可以教會計算機(jī)分辨圖像中的視覺元素。計算機(jī)依靠大型數(shù)據(jù)庫,通過對數(shù)據(jù)呈現(xiàn)的模式進(jìn)行識別,可以對圖像進(jìn)行理解,然后形成相關(guān)的標(biāo)簽和類別。

圖像識別技術(shù)的普及應(yīng)用

圖像識別技術(shù)有許多應(yīng)用。其中最常見的就是圖像識別技術(shù)助力的人物照片分類。誰不想更好地根據(jù)視覺主題來管理巨大的照片庫呢?小到特定的物品,大到廣泛的風(fēng)景。

圖片識別技術(shù)賦予了照片分類應(yīng)用的用戶體驗新感受。除了提供照片存儲,應(yīng)用程序也可以更進(jìn)一步,為人們提供更好的發(fā)現(xiàn)和搜索功能。有了通過機(jī)器學(xué)習(xí)進(jìn)行自動圖像管理的功能,它們就可以做到這一點。在應(yīng)用程序中整合的圖像識別程序界面可以根據(jù)機(jī)器所鑒定的特征對圖像進(jìn)行分類,并且根據(jù)主題將照片分組。

圖像識別的其他應(yīng)用包括存儲照片和視頻網(wǎng)站、互動營銷以及創(chuàng)意活動,社交網(wǎng)絡(luò)的人臉和圖像識別,以及具有大型視覺圖像庫網(wǎng)站的圖像分類。

圖像識別是一項艱巨的任務(wù)

圖像識別不是一項容易的任務(wù),一個好的方法是將元數(shù)據(jù)應(yīng)用到非結(jié)構(gòu)數(shù)據(jù)上。聘請專家對音樂和電影庫進(jìn)行人工標(biāo)注或許是一個令人生畏的艱巨任務(wù),然而有的挑戰(zhàn)幾乎是不可能完成的,諸如教會無人駕駛汽車的導(dǎo)航系統(tǒng)將過馬路的行人與各種各樣的機(jī)動車分辨出來,或者將用戶每天傳到社交媒體上的數(shù)以百萬計的視頻或照片進(jìn)行標(biāo)注以及分類。

解決這個問題的一個方法是使用神經(jīng)網(wǎng)絡(luò)。理論上,我們可以使用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行分析,但是實際上從計算角度來看代價很高。舉個例子,一個傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)在處理一張很小的圖片時(假設(shè)30*30像素)仍然需要50萬個參數(shù)以及900個輸入神經(jīng)元。一個相當(dāng)強(qiáng)大的機(jī)器可以運行這個網(wǎng)絡(luò),但是一旦圖片變大了(例如500*500像素),參數(shù)以及輸入的數(shù)目就會達(dá)到非常高的數(shù)量級。

神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像識別的另一個會出現(xiàn)的問題是:過擬合。簡單地說,過擬合一般發(fā)生在模型過于貼合訓(xùn)練數(shù)據(jù)的情況下。一般而言,這會導(dǎo)致參數(shù)增加(進(jìn)一步增加了計算成本)以及模型對于新數(shù)據(jù)的結(jié)果在總體表現(xiàn)中有所下降。

卷積神經(jīng)網(wǎng)絡(luò)

 

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型

根據(jù)神經(jīng)網(wǎng)絡(luò)的構(gòu)建方式,一個相對簡單的改變就可以讓較大的圖像變得更好處理。改變的結(jié)果就是我們所見到的卷積神經(jīng)網(wǎng)絡(luò)(CNNs,ConvNets)。

神經(jīng)網(wǎng)絡(luò)的廣適性是他們的優(yōu)點之一,但是在處理圖像時,這個優(yōu)點就變成了負(fù)擔(dān)。卷積神經(jīng)網(wǎng)絡(luò)對此專門進(jìn)行了折衷:如果一個網(wǎng)絡(luò)專為處理圖像而設(shè)計,有些廣適性需要為更可行的解決方案做出讓步。

對于任意圖像,像素之間的距離與其相似性有很強(qiáng)的關(guān)系,而卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計正是利用了這一特點。這意味著,對于給定圖像,兩個距離較近的像素相比于距離較遠(yuǎn)的像素更為相似。然而,在普通的神經(jīng)網(wǎng)絡(luò)中,每個像素都和一個神經(jīng)元相連。在這種情況下,附加的計算負(fù)荷使得網(wǎng)絡(luò)不夠精確。

卷積神經(jīng)網(wǎng)絡(luò)通過消除大量類似的不重要的連接解決了這個問題。技術(shù)上來講,卷積神經(jīng)網(wǎng)絡(luò)通過對神經(jīng)元之間的連接根據(jù)相似性進(jìn)行過濾,使圖像處理在計算層面可控。對于給定層,卷積神經(jīng)網(wǎng)絡(luò)不是把每個輸入與每個神經(jīng)元相連,而是專門限制了連接,這樣任意神經(jīng)元只能接受來自前一層的一小部分的輸入(例如3*3或5*5)。因此,每個神經(jīng)元只需要負(fù)責(zé)處理一張圖像的一個特定部分。(順便提一下,這基本就是人腦的獨立皮質(zhì)神經(jīng)元工作的方式。每個神經(jīng)元只對完整視野的一小部分進(jìn)行響應(yīng))。

卷積神經(jīng)網(wǎng)絡(luò)的工作過程

 

上圖從左到右可以看出:

  • 網(wǎng)絡(luò)對輸入的真實圖像進(jìn)行掃描提取特征。傳遞特征的濾波器由淺色方塊表示。
  • 激活圖由堆棧形式排列,每一個對應(yīng)所用的濾波器。較大的方形是要進(jìn)行下采樣的塊。
  • 激活圖通過下采樣進(jìn)行壓縮。
  • 下采樣后的激活圖經(jīng)過濾波器產(chǎn)生新的一組激活圖。
  • 第二次下采樣——對第二組激活圖進(jìn)行壓縮。
  • 全連接層為每個節(jié)點的輸出指定一個標(biāo)簽。

卷積神經(jīng)網(wǎng)絡(luò)的濾波器如何對連接根據(jù)相似性進(jìn)行濾波?訣竅在于新加的兩種層結(jié)構(gòu):池化層和卷積層。我們下面將步驟進(jìn)行分解。用為了只完成一件事情而設(shè)計的網(wǎng)絡(luò)實例進(jìn)行介紹,即決定一張圖片中是否含有一個老爺爺。

過程的***步是卷積層,它自己本身就包含幾個小步驟。

  • 首先,我們要將包含老爺爺?shù)膱D片分解為一系列有重疊的3*3的像素塊。
  • 在這之后,我們將每個像素塊輸入一個簡單的、單層的神經(jīng)網(wǎng)路,保持權(quán)重不變。這一步將像素塊集轉(zhuǎn)化成一個矩陣。只要我們保持每塊像素塊都比較小(這里是3*3),處理它們所需的網(wǎng)絡(luò)也可以保持可控以及小型。
  • 下一步,輸出值會被排成矩陣,以數(shù)據(jù)形式表示照片中每個區(qū)域的內(nèi)容,不同軸分別代表顏色、寬度、和高度通道。對于每一個圖像塊,都有一個3*3*3的表示。(如果要處理視頻,可以加入第四維度代表時間)。

接下來是池化層。池化層對這些3或4維的矩陣在空間維度上進(jìn)行下采樣。處理結(jié)果是池化陣列,其中只包含重要部分圖像,并且丟棄了其他部分,這樣一來最小化了計算成本,同時也能避免過擬合問題。

經(jīng)過下采樣的矩陣作為全連接層的輸入。由于經(jīng)過了池化和卷積操作,輸入的尺寸被大幅減小,我們現(xiàn)在有了正常網(wǎng)絡(luò)能處理的,同時能保持?jǐn)?shù)據(jù)最重要特性的東西。***一步的輸出代表系統(tǒng)對于圖片中有老爺爺這一判斷的確信度。

在實際應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)的工作過程很復(fù)雜,包括大量的隱藏、池化和卷積層。除此之外,真實的卷積神經(jīng)網(wǎng)絡(luò)一般會涉及上百甚至上千個標(biāo)簽,而不只是樣例中的一個。

如何搭建卷積神經(jīng)網(wǎng)絡(luò)

從頭開始構(gòu)建一個卷積神經(jīng)網(wǎng)絡(luò)是很費時費力的工作。目前已經(jīng)有了許多API能夠?qū)崿F(xiàn)關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的想法,而不需要工程師去了解機(jī)器學(xué)習(xí)的原理或者計算機(jī)視覺的專業(yè)知識。

Google云視覺

Google云視覺是使用REST API搭建的視覺識別API。它基于開源的TensorFlow框架。它可以檢測到獨立的人臉或物體,并且包含十分全面的標(biāo)簽集。

IBM Watson 視覺識別

IBM Watson 視覺識別是Waston Developer Cloud服務(wù)的一部分,并且自帶大量內(nèi)置類別,但它實際是為訓(xùn)練基于你提供圖片的自定義類別而打造的。同時,和Google云視覺一樣,它也提供了大量花哨的特性,包括NSFW以及OCR檢測。

Clarif.ai

Clarif.ai也是一個使用REST API的初創(chuàng)圖像識別服務(wù)。關(guān)于Clarif.ai有趣的一點是,它自帶的一系列模塊可以用于修改算法,將其應(yīng)用到特定的主題上,例如食物、旅游和結(jié)婚。

盡管上述的API適合一些一般的應(yīng)用,但***還是針對特定問題開發(fā)一個自定義的解決方案。幸運的是,大量可用的庫解決了優(yōu)化和計算方面的問題,開發(fā)人員和數(shù)據(jù)科學(xué)家可以只關(guān)注訓(xùn)練模型,這樣一來他們的工作便輕松了一些。這些庫包括Theano、 Torch、 DeepLearning4J以及TensorFlow,已成功地運用在各種各樣的應(yīng)用程序中。

卷積神經(jīng)網(wǎng)絡(luò)的有趣小應(yīng)用:自動為無聲電影添加聲音

要為無聲電影添加匹配的聲音,系統(tǒng)必須在這個任務(wù)中自動合成聲音。該系統(tǒng)使用上千個視頻樣例進(jìn)行訓(xùn)練,視頻帶有鼓棍敲打不同表面產(chǎn)生的不同聲音。一個深度學(xué)習(xí)模型將視頻的幀和預(yù)錄的聲音建立聯(lián)系,然后選擇能夠***匹配場景的音頻進(jìn)行播放。系統(tǒng)會通過圖靈測試進(jìn)行評估,讓人來決定那個視頻是合成的,哪個是真實的聲音。這是卷積神經(jīng)網(wǎng)絡(luò)和LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的一個很潮的應(yīng)用。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2022-10-11 23:35:28

神經(jīng)網(wǎng)絡(luò)VGGNetAlexNet

2022-10-19 07:42:41

圖像識別神經(jīng)網(wǎng)絡(luò)

2018-08-28 16:45:38

圖像識別神經(jīng)網(wǎng)絡(luò)人工智能

2017-04-26 09:30:53

卷積神經(jīng)網(wǎng)絡(luò)實戰(zhàn)

2018-02-05 08:58:36

Python神經(jīng)網(wǎng)絡(luò)識別圖像

2022-06-16 10:29:33

神經(jīng)網(wǎng)絡(luò)圖像分類算法

2017-05-04 18:30:34

大數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)

2022-04-07 09:01:52

神經(jīng)網(wǎng)絡(luò)人工智能

2021-04-09 20:49:44

PythonOCR圖像

2021-07-22 08:16:02

人工智能AI

2019-06-06 09:00:02

卷積神經(jīng)網(wǎng)絡(luò)CNNAI

2022-10-20 09:33:35

2019-01-05 08:40:17

VGG神經(jīng)網(wǎng)絡(luò)

2018-04-08 11:20:43

深度學(xué)習(xí)

2025-09-16 07:04:00

2020-03-25 09:48:10

AI芯片神經(jīng)網(wǎng)絡(luò)

2018-04-24 10:45:00

Python人工智能圖像識別

2023-11-24 09:26:29

Java圖像

2018-01-29 00:16:16

神經(jīng)網(wǎng)絡(luò)遞歸卷積深度學(xué)習(xí)

2018-04-09 10:20:32

深度學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號