偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

關于神經(jīng)網(wǎng)絡技術演化史

人工智能 深度學習
神經(jīng)網(wǎng)絡和深度學習技術是當今大多數(shù)高級智能應用的基礎。在本文中,來自阿里巴巴搜索部門的高級算法專家孫飛博士將簡要介紹神經(jīng)網(wǎng)絡的發(fā)展,并討論該領域的最新方法。文章主要圍繞以下五個方面展開:神經(jīng)網(wǎng)絡的演變

神經(jīng)網(wǎng)絡和深度學習技術是當今大多數(shù)高級智能應用的基礎。在本文中,來自阿里巴巴搜索部門的高級算法專家孫飛博士將簡要介紹神經(jīng)網(wǎng)絡的發(fā)展,并討論該領域的最新方法。

文章主要圍繞以下五個方面展開:

  1. 神經(jīng)網(wǎng)絡的演變
  2. 傳感器模型
  3. 前饋神經(jīng)網(wǎng)絡
  4. 反向傳播
  5. 深度學習基礎知識

1、神經(jīng)網(wǎng)絡的演變

在我們深入研究神經(jīng)網(wǎng)絡的歷史發(fā)展之前,讓我們先介紹一下神經(jīng)網(wǎng)絡的概念。神經(jīng)網(wǎng)絡主要從信息處理角度對人腦神經(jīng)元網(wǎng)絡進行抽象, 建立某種簡單模型,這種模型使用大量的計算神經(jīng)元,這些神經(jīng)元通過加權連接層連接。每一層神經(jīng)元都能夠進行大規(guī)模的并行計算并在它們之間傳遞信息。

下面的時間軸顯示了神經(jīng)網(wǎng)絡的演變:

關于神經(jīng)網(wǎng)絡技術演化史

神經(jīng)網(wǎng)絡的起源甚至可以追溯到計算機本身的發(fā)展,第一個神經(jīng)網(wǎng)絡出現(xiàn)在20世紀40年代。我們將回顧一下歷史,幫助大家更好地理解神經(jīng)網(wǎng)絡的基礎知識。

第一代神經(jīng)網(wǎng)絡神經(jīng)元起著驗證作用。這些神經(jīng)元的設計者只是想確認他們可以構建用于計算的神經(jīng)網(wǎng)絡。這些網(wǎng)絡不能用于培訓或?qū)W習;它們只是作為邏輯門電路。它們的輸入和輸出是二進制的,權重是預定義的。

第二階段的神經(jīng)網(wǎng)絡發(fā)展出現(xiàn)在20世紀50年代和60年代。這涉及到羅斯布拉特在傳感器模型和赫伯特學習原理方面的開創(chuàng)性工作。

2、傳感器模型

我們上面提到的傳感器模型和神經(jīng)元模型是相似的,但是有一些關鍵的區(qū)別。傳感器模型中的激活算法可以是中斷算法,也可以是sigmoid算法,其輸入可以是實數(shù)向量,而不是神經(jīng)元模型使用的二進制向量。與神經(jīng)元模型不同,傳感器模型具有學習能力。

接下來,我們將討論傳感器模型的一些特殊特性。

我們可以考慮輸入值 (x1..., xn) 為N維空間中的坐標,wTx-w0 = 0為N維空間中的超平面。顯然,如果wTx-w0 < 0,那么點落在超平面以下,而如果wTx-w0 > 0,則點落在超平面上。

傳感器模型對應于分類器的超平面,能夠在N維空間中分離不同類型的點。看下圖,我們可以看到傳感器模型是一個線性分類器。

 

關于神經(jīng)網(wǎng)絡技術演化史

 

傳感器模型能夠方便地對基本的邏輯操作進行分類,如AND、OR和NOT。

我們可以通過傳感器模型對所有的邏輯操作進行分類嗎?答案當然是否定的。例如,通過單一的線性傳感器模型很難對Exclusive OR ( 異或)操作進行分類,這是神經(jīng)網(wǎng)絡在第一個峰值之后很快進入發(fā)展的低點的主要原因之一。包括Minsky在內(nèi)的幾位作者討論了傳感器模型的問題。然而,在這個問題上許多人誤解了他們的意思。

事實上,像Minsky這樣的作者指出,一個人可以通過多層傳感器模型實現(xiàn)異或操作;然而,由于學術界當時缺乏研究多層傳感器模型的有效方法,神經(jīng)網(wǎng)絡的發(fā)展陷入了第一個低谷。

下圖直觀地展示了多層傳感器模型如何實現(xiàn)異或操作:

 

關于神經(jīng)網(wǎng)絡技術演化史

 

3、前饋神經(jīng)網(wǎng)絡

進入20世紀80年代,由于傳感器模型神經(jīng)網(wǎng)絡的表達能力局限于線性分類任務,神經(jīng)網(wǎng)絡的發(fā)展開始進入多層傳感器階段。經(jīng)典的多層神經(jīng)網(wǎng)絡是前饋神經(jīng)網(wǎng)絡。

從下圖中我們可以看到,它涉及一個輸入層、一個包含未定義節(jié)點數(shù)量的隱藏層和一個輸出層。

 

關于神經(jīng)網(wǎng)絡技術演化史

我們可以用多層傳感器模型來表示任何邏輯運算,但這就引入了三層之間的加權學習問題。當xk從輸入層傳輸?shù)诫[藏層上的加權vkj,然后通過sigmoid這樣的激活算法,我們可以從隱藏層中檢索相應的值hj。同樣,我們可以使用類似的操作,使用hj值從輸出層派生yi節(jié)點值。為了學習,我們需要w和v矩陣的加權信息,這樣我們才能最終得到估計值y和實際值d。

如果你對機器學習有基本的了解,你就會明白為什么我們要用梯度下降法來學習一個模型。對傳感器模型應用梯度下降的原理是相當簡單的,我們可以從下圖中看到。首先,我們要確定模型的損失。

示例使用一個平方根損失和試圖關閉之間的差距模擬值y和實際價值d。為了計算方便,在大多數(shù)情況下,我們使用根關系E = 1/2(dy)^ 2 = 1/2(d-f(x))^ 2。

根據(jù)梯度下降法原則,權重更新周期:wj←wi +α(d?f(x))f′(x),α是我們可以手動調(diào)整學習的速度。

 

關于神經(jīng)網(wǎng)絡技術演化史

4、反向傳播(Back-Propagation)

如何在多層前饋神經(jīng)網(wǎng)絡中學習所有參數(shù)?頂層的參數(shù)很容易獲得。通過比較計算模型輸出的估計值與實測值的差值,利用梯度下降原理得到參數(shù)結果,可以得到參數(shù)。當我們試圖從隱藏層獲取參數(shù)時,問題就出現(xiàn)了。即使我們可以計算模型的輸出,我們也無法知道期望值是多少,因此我們也無法有效地訓練多層神經(jīng)網(wǎng)絡。這個問題困擾了研究人員很長一段時間,導致神經(jīng)網(wǎng)絡在20世紀60年代之后發(fā)展停滯不前。

后來,在70年代,一些科學家獨立地提出了反向傳播算法的想法。這種類型的算法背后的基本思想其實很簡單。雖然當時沒有辦法根據(jù)隱藏層的期望值來更新,但是可以通過隱藏層傳遞的錯誤來更新隱藏層和其他層之間的權重。當計算梯度時,由于隱藏層中的所有節(jié)點都與輸出層中的多個節(jié)點相關,所以前一層中的所有層都被聚集并一起處理。

反向傳播的另一個優(yōu)點是我們可以同時在同一層上執(zhí)行節(jié)點的梯度和加權,因為它們是不相關的。我們可以用偽代碼表示整個反向傳播過程如下:

 

關于神經(jīng)網(wǎng)絡技術演化史

接下來,我們來討論一下反向傳播神經(jīng)網(wǎng)絡的其他特征。反向傳播實際上是一個鏈式法則。它可以很容易地推廣任何具有映射的計算。根據(jù)梯度函數(shù),我們可以使用反向傳播神經(jīng)網(wǎng)絡生成局部優(yōu)化解,而不是全局優(yōu)化解。然而,從一般的角度來看,反向傳播算法產(chǎn)生的結果通常是一個令人滿意的優(yōu)化解決方案。

下圖是反向傳播算法的直觀表示:

 

關于神經(jīng)網(wǎng)絡技術演化史

在大多數(shù)情況下,反向傳播神經(jīng)網(wǎng)絡會找到范圍內(nèi)最小的可能值;但是,如果我們離開這個范圍,我們可能會發(fā)現(xiàn)更好的價值。在實際應用中,有許多簡單有效的方法來解決這類問題,例如,我們可以嘗試不同的隨機初始化方法。此外,在實踐中,在現(xiàn)代深度學習領域中經(jīng)常使用的模型中,初始化方法對最終結果有重要的影響。強迫模型離開優(yōu)化范圍的另一種方法是在訓練過程中引入隨機噪聲,或者使用遺傳算法防止訓練模型在非理想優(yōu)化位置停止。

反向傳播神經(jīng)網(wǎng)絡是機器學習的一個很好的模型,當談到機器學習時,我們不得不注意到在機器學習過程中經(jīng)常遇到的一個基本問題,那就是過擬合問題。過度擬合的一個常見表現(xiàn)是在訓練過程中,即使模型的損失不斷下降,測試組的損失和誤差也會增加。有兩種典型的避免過度擬合的方法:

早期停止:我們可以提前分離一個驗證組,并在培訓期間對這個已經(jīng)驗證過的組運行它。我們可以觀察模型的損失,如果驗證組的損失已經(jīng)停止下降,而培訓組的損失仍在下降,那么我們可以提前停止培訓,防止過度擬合。

正則化:我們可以在神經(jīng)網(wǎng)絡中增加規(guī)則。現(xiàn)在流行的drop方法是隨機刪除一些節(jié)點或邊。這種方法可以作為正則化的一種形式,在防止過擬合方面非常有效。

盡管神經(jīng)網(wǎng)絡在20世紀80年代非常流行,但不幸的是,它們在20世紀90年代進入了發(fā)展的另一個低谷。許多因素促成了這一低點。例如,Support Vector Machines,在20世紀90年代是一個流行的模型,在各種大型會議上登臺,并在各種領域得到應用。Support Vector Machines具有優(yōu)秀的統(tǒng)計學習理論,易于直觀理解。它們也非常有效,并產(chǎn)生接近理想的結果。

在這種轉(zhuǎn)變中,Support Vector Machines背后的統(tǒng)計學習理論的興起給神經(jīng)網(wǎng)絡的發(fā)展帶來了不小的壓力。另一方面,從神經(jīng)網(wǎng)絡本身的角度來看,即使你可以在理論上使用反向傳播網(wǎng)絡來訓練任何神經(jīng)網(wǎng)絡,在實際應用中,我們注意到,隨著神經(jīng)網(wǎng)絡中層數(shù)的增加,訓練神經(jīng)網(wǎng)絡的難度也會成倍增加。例如,在20世紀90年代初,人們注意到在一個神經(jīng)網(wǎng)絡中,有相當多的層,通常會出現(xiàn)梯度損失或梯度爆炸。

例如,一個簡單的梯度損失的例子是,神經(jīng)網(wǎng)絡中的每一層都是一個乙基結構層,因此,它在反向傳播過程中的損失被鏈接到一個乙基結構梯度中。當一系列元素串在一起時,如果其中一個梯度非常小,那么梯度就會變得越來越小。實際上,在傳播了一層或兩層之后,這個梯度就消失了。梯度損失導致深層參數(shù)停止變化,很難得到有意義的結果。這就是為什么多層神經(jīng)網(wǎng)絡很難訓練的原因之一。

學術界對這一問題進行了深入的研究,得出的結論是,最簡單的處理方法是改變激活算法。一開始我們嘗試使用修正的激活算法,因為sigmoid算法是一種很容易導致梯度損失的索引方法。另一方面,修正了sigmoid函數(shù)并替換了max (0,x)從下圖我們可以看到,在0以上的估計值的梯度是1,這就避免了梯度消失的問題。但是,當估計值小于0時,我們可以看到梯度又為0,所以ReLU算法必須是不完美的。后來,一些改進的算法出現(xiàn)了,包括Leaky ReLU和參數(shù)整流器(PReLU)。估計x小于0時,我們可以將它轉(zhuǎn)換成一個像0.01或α系數(shù),以防止它實際上是0。

 

 

關于神經(jīng)網(wǎng)絡技術演化史

隨著神經(jīng)網(wǎng)絡的發(fā)展,我們后來提出了許多方法來解決在結構層面上通過梯度的問題。例如,元模型、LSTM模型和現(xiàn)代圖像分析使用了許多跨層鏈接方法來更容易地傳播梯度。

接下來,我們將進一步深入學習,特別是卷積神經(jīng)網(wǎng)絡(CNN)和遞歸神經(jīng)網(wǎng)絡(RNN)。

5、深度學習基礎知識

從20世紀90年代的第二個發(fā)展低點到2006年,神經(jīng)網(wǎng)絡再一次引起了大眾的關注,這一次比以往更加有力。在神經(jīng)網(wǎng)絡興起的過程中,有一件大事發(fā)生了,那就是Hinton在包括Salahundinov在內(nèi)的許多地方提交的兩篇關于多層神經(jīng)網(wǎng)絡(現(xiàn)在被稱為“深度學習”)的論文。

其中一篇論文解決了神經(jīng)網(wǎng)絡初始化值的設置問題。簡單地說,解決方案是將輸入值考慮為x,輸出值考慮為解碼后的x,然后通過這種方法找到更好的初始化點。另一篇論文提出了一種快速訓練深層神經(jīng)網(wǎng)絡的方法。實際上,神經(jīng)網(wǎng)絡的流行有很多因素,例如,計算資源的巨大增長和數(shù)據(jù)的可用性。在20世紀80年代,由于缺乏數(shù)據(jù)和計算資源,很難訓練出大規(guī)模的神經(jīng)網(wǎng)絡。

神經(jīng)網(wǎng)絡的早期興起是由三個不朽人物推動的,即 Hinton, Bengio, 和LeCun。Hinton的主要成就是在Restricted Boltzmann Machine和Deep Autoencoder(深自動編碼器)。Bengio的主要貢獻是在使用元模型進行深度學習方面取得了一系列突破。這也是深度學習經(jīng)歷重大突破的第一個領域。

2013年,基于元模型的語言建模已經(jīng)能夠超越當時最有效的方法——概率模型。LeCun的主要成就是與CNN相關的研究。深度學習的主要表現(xiàn)形式是在許多主要的高峰,如NIPS、ICML、CVPR、ACL,在那里它吸引了大量的關注。這包括谷歌大腦的出現(xiàn)、Deep Mind和Facebook AI,這些都是他們在深度學習領域的研究中心。

 

關于神經(jīng)網(wǎng)絡技術演化史

深度學習吸引大眾關注后的第一個突破是語音識別領域。在我們開始使用深度學習之前,模型都是在之前定義的統(tǒng)計數(shù)據(jù)庫上訓練的。2010年,微軟使用了一個深度學習神經(jīng)網(wǎng)絡進行語音識別。從下圖可以看出,兩個誤差指標都下降了2/3,有了明顯的改善?;谧钚碌腞esNet技術,微軟已經(jīng)將該指標降低到6.9%,并將逐年改進。

 

關于神經(jīng)網(wǎng)絡技術演化史

在圖像分類領域,CNN模型在2012年以ImageNet的形式取得了重大突破。在ImageNet中,使用大量的數(shù)據(jù)收集對圖像分類進行測試,然后將其分類為1000種類型。在深度學習應用之前,圖像分類系統(tǒng)的最佳錯誤率為25.8%(2011年),由于Hinton和他的學生在2012年使用CNN所做的工作,其錯誤率僅為10%。

從圖中可以看出,自2012年以來,該指標每年都有重大突破,都是利用CNN模型實現(xiàn)的。

這些巨大的成就在很大程度上歸功于現(xiàn)代系統(tǒng)的多層結構,因為它們允許獨立的學習和通過分層抽象結構表達數(shù)據(jù)的能力。抽象的特性可以應用到各種任務中,這對當前深度學習的流行有很大的幫助。

 

關于神經(jīng)網(wǎng)絡技術演化史

接下來,我們將介紹兩種經(jīng)典的和常見的深度學習神經(jīng)網(wǎng)絡類型:一種是卷積神經(jīng)網(wǎng)絡(tional neural Network, CNN),另一種是遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)。

卷積神經(jīng)網(wǎng)絡 Convolutional Neural Networks

卷積神經(jīng)網(wǎng)絡有兩個核心概念。一個是卷積,另一個是pooling。在這一點上,有些人可能會問為什么我們不簡單地使用前饋神經(jīng)網(wǎng)絡而不是CNN。以1000x1000的圖像為例,一個神經(jīng)網(wǎng)絡將在隱藏層上有100萬個節(jié)點。前饋神經(jīng)網(wǎng)絡,將10 ^ 12個參數(shù)。此時,系統(tǒng)幾乎不可能學習,因為它需要大量的估計。

然而,很多圖片都有這樣的特點。如果我們使用CNN對圖像進行分類,那么由于卷積的概念,隱藏層上的每個節(jié)點只需要連接和掃描圖像的一個位置的特征。如果隱藏層上的每個節(jié)點連接到10*10的估計,則最終參數(shù)的數(shù)量為1億,如果可以共享多個隱藏層訪問的局部參數(shù),則參數(shù)的數(shù)量顯著減少。

 

關于神經(jīng)網(wǎng)絡技術演化史

從下面的圖片來看,前饋神經(jīng)網(wǎng)絡和CNN之間的差異是巨大的。圖像中的模型從左到右是完全連接的、正常的、前饋的、完全連接的前饋,CNN建模神經(jīng)網(wǎng)絡。我們可以看到,CNN神經(jīng)網(wǎng)絡的隱層節(jié)點的連接權值參數(shù)可以共享。

 

關于神經(jīng)網(wǎng)絡技術演化史

pooling是另一個操作。CNN將在卷積原理的基礎上,在中間形成一個隱藏層,即 pooling層。最常用的 pooling化方法是Max Pooling(最大化),其中隱藏層上的節(jié)點選擇最大的輸出值。由于多個內(nèi)核是pooling的,所以在中間有多個隱藏層節(jié)點。

好處是什么?首先,匯聚進一步減少了參數(shù)的數(shù)量,其次,它提供了一定數(shù)量的平移不變性。如圖所示,如果圖像中顯示的九個節(jié)點中有一個是經(jīng)過翻譯的,那么在pooling中生成的節(jié)點將保持不變。

 

關于神經(jīng)網(wǎng)絡技術演化史

CNN的這兩個特點使得它在圖像處理領域非常流行,成為圖像處理領域的標準。下面的可視化汽車示例是CNN在圖像分類領域的應用的一個很好的例子。在將汽車的原始圖像輸入到CNN模型后,我們可以通過卷積和ReLU激活層傳遞一些簡單粗糙的特征,如邊緣和點。我們可以直觀地看到,它們越接近最上面輸出層的輸出圖像,它們就越接近汽車的輪廓。這個過程最終將檢索一個隱藏層表示,并將其連接到分類層,然后它將接收圖像的分類,如圖像中顯示的汽車、卡車、飛機、輪船和馬。

 

關于神經(jīng)網(wǎng)絡技術演化史

下面的圖片是萊昆和其他筆跡識別領域的研究人員早期使用的神經(jīng)網(wǎng)絡。這個網(wǎng)絡在20世紀90年代被應用于美國郵政系統(tǒng)。有興趣的讀者可以登錄LeCun的網(wǎng)站查看手寫識別的動態(tài)過程。

 

關于神經(jīng)網(wǎng)絡技術演化史

雖然CNN在圖像識別領域非常受歡迎,但在過去的兩年里,它也在文本識別方面發(fā)揮了重要作用。例如,CNN是目前文本分類最優(yōu)解的基礎。在確定文本的類別時,我們真正需要做的是尋找文本中關鍵字的指示,這是一個非常適合CNN模型的任務。

CNN擁有廣泛的現(xiàn)實應用,例如在調(diào)查、自動駕駛汽車、分割和神經(jīng)系統(tǒng)。神經(jīng)類型是一個迷人的應用。例如,在應用商店里有一個很受歡迎的應用程序叫Prisma,它允許用戶上傳一張圖片并將其轉(zhuǎn)換成另一種風格。例如,它可以轉(zhuǎn)換成Van Goh的星空風格。這個過程很大程度上依賴于CNN。

遞歸神經(jīng)網(wǎng)絡 Recursive Neural Networks

至于遞歸神經(jīng)網(wǎng)絡背后的基本原則,從下面的圖片我們可以看出這樣一個網(wǎng)絡的輸出不僅依賴于輸出x但隱層的狀態(tài),這是更新根據(jù)先前輸入x。擴大圖像顯示整個過程。第一個輸入的隱藏層是S(t-1),它影響下一個輸入X(t)。遞歸神經(jīng)網(wǎng)絡模型的主要優(yōu)點是,我們可以在文本、語言和語音等序列數(shù)據(jù)操作中使用它,在這些操作中,當前數(shù)據(jù)的狀態(tài)受以前的數(shù)據(jù)狀態(tài)的影響。使用前饋神經(jīng)網(wǎng)絡處理這類數(shù)據(jù)非常困難。

 

關于神經(jīng)網(wǎng)絡技術演化史

說到遞歸神經(jīng)網(wǎng)絡,我們不應該提及我們前面提到的LSTM模型。LSTM實際上不是一個完整的神經(jīng)網(wǎng)絡。簡單地說,它是經(jīng)過復雜處理的RNN節(jié)點的結果。LSTM有三個門,即輸入門、遺忘門和輸出門。

每個這些門用于處理單元中的數(shù)據(jù),并確定是否應該輸入、遺忘或輸出單元中的數(shù)據(jù)

 

關于神經(jīng)網(wǎng)絡技術演化史

最后,讓我們談一談神經(jīng)網(wǎng)絡的跨學科應用,它正在得到廣泛的接受。此應用程序涉及將圖像轉(zhuǎn)換為圖像的文本描述或描述圖像的標題。我們可以先使用CNN模型來描述具體的實現(xiàn)過程,提取圖像的相關信息并生成矢量表示。稍后,我們可以將該向量作為輸入傳遞給已經(jīng)訓練好的遞歸神經(jīng)網(wǎng)絡,以生成圖像的描述。

 

關于神經(jīng)網(wǎng)絡技術演化史

總結

 

在本文中,我們討論了神經(jīng)網(wǎng)絡的發(fā)展,并介紹了神經(jīng)網(wǎng)絡的幾個基本概念和方法。以上文章是基于孫飛博士在一年一度的阿里巴巴云計算大會上的演講。他目前正在研究推薦系統(tǒng)和文本生成方法 

責任編輯:龐桂玉 來源: she9.com
相關推薦

2009-08-19 09:40:57

軟件方法論

2023-08-07 18:45:30

電商訂單訂單類型批量發(fā)貨

2021-01-18 12:31:46

物聯(lián)網(wǎng)

2009-07-01 10:11:04

.NETLINQ

2020-06-30 18:04:41

RPA應用

2025-03-05 14:00:00

2025-03-03 08:10:00

神經(jīng)網(wǎng)絡深度學習人工智能

2012-07-06 11:03:15

Intel等燈等燈

2019-10-21 13:03:04

編程語言PythonJava

2011-12-23 10:19:11

網(wǎng)絡技術開放

2009-05-25 15:00:20

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡生物神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡

2017-09-08 15:36:15

DNN神經(jīng)網(wǎng)絡算法

2018-05-16 09:41:13

神經(jīng)網(wǎng)絡NN函數(shù)

2025-02-25 10:50:11

2019-10-09 16:14:30

Web服務器Tomcat

2021-01-08 14:55:03

RDWARoCE數(shù)據(jù)

2022-08-17 07:53:45

Overlay網(wǎng)絡數(shù)據(jù)中心

2009-12-29 09:57:12

無源光網(wǎng)絡

2019-12-20 09:15:48

神經(jīng)網(wǎng)絡數(shù)據(jù)圖形
點贊
收藏

51CTO技術棧公眾號