偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

純干貨 | 深度學習研究綜述

人工智能 深度學習
深度學習已經在很多領域得到了大力的發(fā)展,尤其是語音,圖像,視頻等領域都得到了較大的進步,都優(yōu)于以前的方法。現(xiàn)在比較熱門的是人臉檢測識別(刷臉),智能管理(考勤,車牌檢測,監(jiān)控),醫(yī)學檢查與預測(腦電波返回圖可預測疾病等)等技術。

[[195952]]

一、深度學習

說到深度學習,估計只要有接觸的您,一定會知曉一二,其實深度學習就是機器學習領域的一個新研究方向。

剛剛開始的階段,在語音識別和 計算機視覺等多類應用中取得了突破性的進展,尤其在語音領域。 其動機在于建立模型模擬人類大腦的神經大體結構,在處理訓練數(shù)據(jù)(圖像、 語音或文本)信號時,通過多個變換階段分層對數(shù)據(jù)特征進行描述,進而給出數(shù)據(jù)的表達, 以圖像數(shù)據(jù)為例, 靈長類的視覺系統(tǒng)中對這類信號的處理依次為: 首先是檢測邊緣,紋理等簡單的初始形狀特征,然后再逐步形成更復雜的視覺形狀,同樣地, 深度學習通過組合低層特征形成更加抽象的高層表示、屬性類別或特征,給出數(shù)據(jù)的分層特征表示。

作為深度學習的“深度”,到底是怎么理解的???

深度學習之所以被稱為“深度” ,其實想相對于那些傳統(tǒng)機器學習而言。就好比我們的模型深度更加深入,在學習過程中,非線性操作的層級數(shù)比之前多很多。淺層學習主要是依賴人工特征,也就是依賴人工以往的經驗去提取數(shù)據(jù)的特征,用模型學習后的特征表示是沒有層次機構的單層特征。而深度學習是在原始輸入數(shù)據(jù)上,通過逐層變化提取特征,將樣本數(shù)據(jù)在原始的數(shù)據(jù)空間特征表示轉換到新的特征空間(就好比SVM對于線性不可分的情況,可以利用核的思想,將原數(shù)據(jù)的特征空間投影到更高的空間去表達),然后自動去學習得到層次化的特征表示,從而更有利于物體的分類或特征的可視化。 深度學習理論的另一個理論動機是: 如果一個函數(shù)可用K層結構以簡潔的形式表達,那么用 K-1層的結構表達則可能需要指數(shù)級數(shù)量的參數(shù)( 相對于輸入信號) ,且泛化能力不足。

深度學習的概念最先有這個想法的是G.E. Hinton等人在2006年提出,主要就是將樣本數(shù)據(jù)通過一定的訓練方法得到多層網(wǎng)絡結構的機器學習過程。傳統(tǒng)的神經網(wǎng)絡隨機初始化網(wǎng)絡中的權值,導致網(wǎng)絡很容易收斂到局部最小值,為解決這一問題,Hinton提出使用無監(jiān)督預訓練方法優(yōu)化網(wǎng)絡權值的初值,再進行權值微調的方法,拉開了深度學習的序幕。

其實深度學習就是通過結構中大量單一神經元,每個神經元與海量其他神經元連接,其中連接強度就是我們所說的權值,是下訓練學習過程中不斷的去修改并決定網(wǎng)絡的具體功能。

深度神經網(wǎng)絡是由多個單層非線性網(wǎng)絡疊加而成的,常見的單層網(wǎng)絡按照編碼解碼情況分為3 類:只包含編碼器部分、只包含解碼器部分、既有編碼器部分也有解碼器部分。編碼器提供從輸入到隱含特征空間的自底向上的映射,解碼器以重建結果盡可能接近原始輸入為目標將隱含特征映射到輸入空間。

單層卷積的變換過程:

 

 

二、深度學習應用

深度學習已經在很多領域得到了大力的發(fā)展,尤其是語音,圖像,視頻等領域都得到了較大的進步,都優(yōu)于以前的方法?,F(xiàn)在比較熱門的是人臉檢測識別(刷臉),智能管理(考勤,車牌檢測,監(jiān)控),醫(yī)學檢查與預測(腦電波返回圖可預測疾病等)等技術。下面根據(jù)所處理數(shù)據(jù)類型的不同, 對深度學習的應用進行介紹。

5. 1 深度學習在語音識別、 合成及機器翻譯中的應用

微軟研究人員使用深度信念網(wǎng)絡對數(shù)以千計的senones( 一種比音素小很多的建模單元) 直接建模,提出了第 1 個成功應用于大詞匯量語音識別系統(tǒng)的上下文相關的深層神經網(wǎng)絡——隱馬爾可夫混合模型(CD-DNN-HMM),比之前最領先的基于常規(guī) CDGMM-HMM 的大詞匯量語音識別系統(tǒng)相對誤差率減少16%以上。

隨后又在含有300h語音訓練數(shù)據(jù)的Switchboard標準數(shù)據(jù)集上對CD-DNN-HMM模型進行評測。 基準測試字詞錯誤率為18. 5%,與之前最領先的常規(guī)系統(tǒng)相比,相對錯誤率減少了33%。

H. Zen等人提出一種基于多層感知機的語音合成模型。該模型先將輸入文本轉換為一個輸入特征序列,輸入特征序列的每幀分別經過多層感知機映射到各自的輸出特征,然后生成語音參數(shù),最后經過聲紋合成生成語音。訓練數(shù)據(jù)包含由一名女性專業(yè)演講者以美國英語錄制的3.3萬段語音素材,其合成結果的主觀評價和客觀評價均優(yōu)于基于HMM方法的模型。

K. Cho等人提出一種基于循環(huán)神經網(wǎng)絡(recurrent neural network,RNN) 的向量化定長表示模型(RNNenc 模型) ,應用于機器翻譯。該模型包含2個RNN 一個RNN用于將一組源語言符號序列編碼為一組固定長度的向量,另一個RNN將該向量解碼為一組目標語言的符號序列。

在該模型的基礎上,D. Bahdanau等人克服了固定長度的缺點(固定長度是其效果提升的瓶頸) ,提出了RNNsearch 的模型。該模型在翻譯每個單詞時,根據(jù)該單詞在源文本中最相關信息的位置以及已翻譯出的其他單詞, 預測對應于該單詞的目標單詞。該模型包含一個雙向RNN作為編碼器,以及一個用于單詞翻譯的解碼器。在進行目標單詞位置預測時,使用一個多層感知機模型進行位置對齊。采用BLEU評價指標,RNNsearch模型在ACL2014 機器翻譯研討會( ACL WMT 2014) 提供的英 /法雙語并行語料庫上的翻譯結果評分均高于RNNenc 模型的評分,略低于傳統(tǒng)的基于短語的翻譯系統(tǒng)Moses (本身包含具有4.18億個單詞的多語言語料庫) 。另外,在剔除包含未知詞匯語句的測試預料庫上,RNNsearch的評分甚至超過了Moses。

5. 2 深度學習在圖像分類及識別中的應用

5. 2. 1 深度學習在大規(guī)模圖像數(shù)據(jù)集中的應用

A. Krizhevsky等人首次將卷積神經網(wǎng)絡應用于ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge,ILSVRC) 中,所訓練的深度卷積神經網(wǎng)絡在ILSVRC—2012挑戰(zhàn)賽中,取得了圖像分類和目標定位任務的第一。其中,圖像分類任務中, 前5選項錯誤率為15. 3%,遠低于第 2 名的26. 2% 的錯誤率;在目標定位任務中,前5選項錯誤率34%,也遠低于第 2 名的50%。

在ILSVRC—2013 比賽中,M.D. Zeiler 等人采用卷積神經網(wǎng)絡的方法, 對文獻的方法進行了改進,并在每個卷積層上附加一個反卷積層用于中間層特征的可視化,取得了圖像分類任務的第一名。其前5選項錯誤率為11. 7% , 如果采用ILSVRC—2011數(shù)據(jù)進行預訓練,錯誤率則降低到11. 2% 。在目標定位任務中,P. Sermanet等人采用卷積神經網(wǎng)絡結合多尺度滑動窗口的方法,可同時進行圖像分類、定位和檢測,是比賽中唯一一個同時參加所有任務的隊伍。多目標檢測任務中,獲勝隊伍的方法在特征提取階段沒有使用深度學習模型,只在分類時采用卷積網(wǎng)絡分類器進行重打分。

在ILSVRC—2014比賽中,幾乎所有的參賽隊伍都采用了卷積神經網(wǎng)絡及其變形方法。其中GoogLeNet小組采用卷積神經網(wǎng)絡結合Hebbian理論提出的多尺度的模型,以6.7%的分類錯誤,取得圖形分類“指定數(shù)據(jù)”組的第一名; CASIAWS小組采用弱監(jiān)督定位和卷積神經網(wǎng)絡結合的方法,取得圖形分類“額外數(shù)據(jù)” 組的第一名,其分類錯誤率為11%。

在目標定位任務中,VGG小組在深度學習框架Caffe 的基礎上,采用 3 個結構不同的卷積神經網(wǎng)絡進行平均評估,以26%的定位錯誤率取得“指定數(shù)據(jù)”組 的 第 一 名;Adobe組選用額外的2000類ImageNet數(shù)據(jù)訓練分類器,采用卷積神經網(wǎng)絡架構進行分類和定位,以30%的錯誤率,取得了“額外數(shù)據(jù)” 組的第一名。

在多目標檢測任務中,NUS小組采用改進的卷積神經網(wǎng)絡——(network in network,NIN)與多種其他方法融合的模型,以37%的平均準確率(mean average precision,mAP) 取得“提供數(shù)據(jù)” 組的第一名;GoogLeNet以44%的平均準確率取得“額外數(shù)據(jù)” 組的第一名。從深度學習首次應用于ILSVRC挑戰(zhàn)賽并取得突出的成績,到2014年挑戰(zhàn)賽中幾乎所有參賽隊伍都采用深度學習方法,并將分類識錯率降低到6.7%,可看出深度學習方法相比于傳統(tǒng)的手工提取特征的方法在圖像識別領域具有巨大優(yōu)勢。

5. 2. 2 深度學習在人臉識別中的應用

基于卷積神經網(wǎng)絡的學習方法,香港中文大學的DeepID項目以及FB的DeepFace項目在戶外人臉識別(labeled faces in thewild,LFW)數(shù)據(jù)庫上的人臉識別正確率分別達97.45%和97.35%,只比人類識別 97. 5%的正確率略低一點點。DeepID項目采用4層卷積神經網(wǎng)絡(不含輸入層和輸出層)結構,DeepFace 采用 5 層卷積神經網(wǎng)絡(不含輸入層和輸出層,其中后3層沒有采用權值共享以獲得不同的局部統(tǒng)計特征)結構。

之后,采用基于卷積神經網(wǎng)絡的學習方法,香港中文大 學 的DeepID2項 目將 識 別 率 提 高 到 了99.15%,超過目前所有領先的深度學習和非深度學習算法在LFW數(shù)據(jù)庫上的識別率以及人類在該 數(shù) 據(jù) 庫 的 識 別 率。DeepID2項目采用和DeepID項目類似的深度結構,包含4個卷積層,其中第3層采用2×2鄰域的局部權值共享,第 4 層沒有采用權值共享,且輸出層與第 3、4層都全連接。

5. 3 深度學習在視頻分類及行為識別中的應用

A. Karpathy等人基于卷積神經網(wǎng)絡提供了一種應用于大規(guī)模視頻分類上的經驗評估模型, 將Sports-1M數(shù)據(jù)集的100萬段YouTube視頻數(shù)據(jù)分為487類。該模型使用4種時空信息融合方法用于卷積神經網(wǎng)絡的訓練,融合方法包括單幀( single frame) 、不相鄰兩幀 (late fusion) 、相鄰多幀(early fusion) 以及多階段相鄰多幀( slow fusion);此外提出了一種多分辨率的網(wǎng)絡結構,大大提升了神經網(wǎng)絡應用于大規(guī)模數(shù)據(jù)時的訓練速度。該模型在Sports-1M上的分類準確率達63.9%,相比于基于人工特征的方法(55.3%),有很大提升。此外,該模型表現(xiàn)出較好的泛化能力,單獨使用slow fusion 融合方法所得模型在UCF101動作識別數(shù)據(jù)集上的識別率為65.4%,而該數(shù)據(jù)集的基準識別率為43.9% 。

S. Ji 等人提出一個三維卷積神經網(wǎng)絡模型用于行為識別。該模型通過在空間和時序上運用三維卷積提取特征,從而獲得多個相鄰幀間的運動信息。該模型基于輸入幀生成多個特征圖通道,將所有通道的信息結合獲得最后的特征表示。該三維卷積神經網(wǎng)絡模型在TRECVID數(shù)據(jù)上優(yōu)于其他方法,表明該方法對于真實環(huán)境數(shù)據(jù)有較好的效果;該模型在KTH 數(shù)據(jù)上的表現(xiàn),遜于其他方法, 原因是為了簡化計算而縮小了輸入數(shù)據(jù)的分辨率。

M. Baccouche等人提出一種時序的深度學習模型,可在沒有任何先驗知識的前提下,學習分類人體行為。模型的第一步,是將卷積神經網(wǎng)絡拓展到三維自動學習時空特征。接下來使用RNN方法訓練分類每個序列。該模型在KTH上的測試結果優(yōu)于其他已知深度模型,KTH1和KTH2上的精度分別為94.39%和92.17%。事實上,深度學習的應用遠不止這些,但是本文只是分別從數(shù)據(jù)的維度上(音頻文本,一維;圖像,二維;視頻,三維)對深度學習的典型應用進行詳細介紹,目的在于突出深度學習帶來的優(yōu)越性能以及其對不同數(shù)據(jù)的應用能力。其他應用還包括圖像超分辨率重建、紋理識別、行人檢測、場景標記、門牌識別等。

三、深度學習的問題及趨勢

深度學習算法在計算機視覺(圖像識別、視頻識別等)和語音識別中的應用, 尤其是大規(guī)模數(shù)據(jù)集下的應用取得突破性的進展,但仍有以下問題值得進一步研究:

  • 無標記數(shù)據(jù)的特征學習

目前, 標記數(shù)據(jù)的特征學習仍然占據(jù)主導地位,而真實世界存在著海量的無標記數(shù)據(jù),將這些無標記數(shù)據(jù)逐一添加人工標簽,顯然是不現(xiàn)實的。所以, 隨著數(shù)據(jù)集和存儲技術的發(fā)展,必將越來越重視對無標記數(shù)據(jù)的特征學習,以及將無標記數(shù)據(jù)進行自動添加標簽技術的研究。

  • 模型規(guī)模與訓練速度、 訓練精度之間的權衡

一般地,相同數(shù)據(jù)集下,模型規(guī)模越大,訓練精度越高,訓練速度會越慢。例如一些模型方法采用ReLU非線性變換、GPU 運算,在保證精度的前提下,往往需要訓練5~7d。雖然離線訓練并不影響訓練之后模型的應用,但是對于模型優(yōu)化,諸如模型規(guī)模調整、超參數(shù)設置、訓練時調試等問題,訓練時間會嚴重影響其效率。故而,如何在保證一定的訓練精度的前提下,提高訓練速度,依然是深度學習方向研究的課題之一。

  • 與其他方法的融合

從上述應用實例中可發(fā)現(xiàn),單一的深度學習方法,往往并不能帶來最好的效果,通常融合其他方法或多種方法進行平均打分,會帶來更高的精確率. 因此, 深度學習方法與其他方法的融合,具有一定的研究意義。 

責任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關推薦

2022-10-26 15:41:38

深度學習Deepfake機器學習

2024-04-08 00:12:19

2023-01-13 16:43:13

深度學習模型數(shù)據(jù)集

2017-09-20 16:25:00

深度學習視覺領域計算機

2017-02-06 13:31:11

調度技術集群

2017-01-24 11:51:14

騰訊云深度學習

2021-07-01 15:56:42

深度學習人工智能互聯(lián)網(wǎng)

2018-05-21 09:34:29

系統(tǒng)層面深度學習

2024-04-18 10:39:57

2023-08-03 07:39:10

MongoDB數(shù)據(jù)備份

2024-09-02 09:12:00

場景管理

2020-09-18 06:51:05

攻擊文本構造

2017-12-09 21:08:35

C++人工智能機器學習

2017-03-17 08:30:08

機器學習深度學習人工智能

2020-06-18 16:05:20

機器學習人工智能算法

2022-06-02 15:31:26

深度學習AI

2023-08-23 12:38:10

2021-04-08 21:16:39

區(qū)塊鏈區(qū)塊鏈技術

2023-02-26 14:17:44

2017-08-07 10:08:29

深度學習分類體系信息檢索
點贊
收藏

51CTO技術棧公眾號