偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從貝葉斯角度,看深度學(xué)習(xí)的屬性和改進(jìn)方法

開發(fā) 開發(fā)工具
深度學(xué)習(xí)是一種高效的非線性高維數(shù)據(jù)處理方法,它可以更自然地解釋為一種工程或算法,而本論文希望從貝葉斯的角度將深度學(xué)習(xí)看作是一種廣義線性模型的堆疊而提供一些新的研究視角和應(yīng)用方向。

深度學(xué)習(xí)是一種高效的非線性高維數(shù)據(jù)處理方法,它可以更自然地解釋為一種工程或算法,而本論文希望從貝葉斯的角度將深度學(xué)習(xí)看作是一種廣義線性模型的堆疊而提供一些新的研究視角和應(yīng)用方向。論文首先論文首先從將單變量半仿射函數(shù)疊加構(gòu)建高維映射的方法解釋深度學(xué)習(xí),然后從深度概率模型、貝葉斯預(yù)測(cè)器到算法問題進(jìn)一步探討其特性。機(jī)器之心對(duì)本論文的部分內(nèi)容進(jìn)行了編譯介紹。論文地址:https://arxiv.org/abs/1706.00473。

從貝葉斯角度,看深度學(xué)習(xí)的屬性和改進(jìn)方法

深度學(xué)習(xí)是一種為非線性高維數(shù)據(jù)進(jìn)行降維和預(yù)測(cè)的機(jī)器學(xué)習(xí)方法。而從貝葉斯概率視角描述深度學(xué)習(xí)會(huì)產(chǎn)生很多優(yōu)勢(shì),即具體從統(tǒng)計(jì)的解釋和屬性,從對(duì)優(yōu)化和超參數(shù)調(diào)整更有效的算法,以及預(yù)測(cè)性能的解釋這幾個(gè)方面進(jìn)一步闡述。同時(shí),傳統(tǒng)的高維統(tǒng)計(jì)技術(shù):主成分分析法(PCA)、偏最小二乘法(PLS)、降秩回歸(RRR)、投影尋蹤回歸(PPR)等方法將在淺層學(xué)習(xí)器(shallow learner)那一部分展示。這些傳統(tǒng)降維方法的深度學(xué)習(xí)形式可以利用多層數(shù)據(jù)降維而令性能達(dá)到一個(gè)較大提升。隨機(jī)梯度下降(SGD)通過訓(xùn)練、優(yōu)化和 Dropout(DO)能選擇模型和變量。貝葉斯正則化(Bayesian regularization)是尋找***網(wǎng)絡(luò)和提供***偏差-方差權(quán)衡框架以實(shí)現(xiàn)良好樣本性能的核心。我們還討論了高維中構(gòu)建良好的貝葉斯預(yù)測(cè)因子。為了證明我們的方法,我們對(duì) Airbnb ***國際預(yù)訂的樣本進(jìn)行了分析。***,我們討論了該研究未來的方向。

1. 引言

深度學(xué)習(xí)(DL)是一種使用分層隱含變量的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)可以看作為一個(gè)概率模型,其中條件均值指定為廣義線性模型的堆疊(sGLM)。

深度學(xué)習(xí)是一個(gè)非線性高維數(shù)據(jù)降維的方案,其理論基礎(chǔ)來源于 Kolmogorov 將多元反應(yīng)曲面(multivariate response surfaces)表征為單變量半仿射函數(shù)的疊加。深度學(xué)習(xí)自然上更是一種算法而不是概率模型,因此我們希望通過提供一個(gè)深度學(xué)習(xí)范式的貝葉斯視角來促進(jìn)一些方面的理解與研究,如更快的隨機(jī)算法、優(yōu)化的調(diào)參方法和可解釋性模型等方面。

從經(jīng)驗(yàn)上來說,深度學(xué)習(xí)的改進(jìn)主要來自三個(gè)部分:

  • 新的激活函數(shù),比如使用 ReLU 替代歷來使用的 Sigmoid 函數(shù)
  • 架構(gòu)的深度和采用 dropout 作為變量選擇技術(shù)
  • 常規(guī)訓(xùn)練和評(píng)價(jià)模型的計(jì)算效率由于圖形處理單元(GPU)和張量處理單元(TPU)的使用而大大加速

1.1 深度學(xué)習(xí)

機(jī)器學(xué)習(xí)在給定一個(gè)高維輸入 X 的情況下訓(xùn)練一個(gè)得到輸出 Y 的預(yù)測(cè)器。因此,一個(gè)學(xué)習(xí)器就是一種輸入和輸出之間的映射。其中輸出 Y = F (X),而輸入空間 X 是一種高維空間,即我們可以表示為:

輸出 Y 可以為回歸問題中的連續(xù)值或分類問題中的離散值,當(dāng)然也可以是兩者混合。例如在分類問題中,我們需要學(xué)習(xí)一個(gè)映射 F : X → Y,其中 Y ∈ {1,...,K} 指向不同的類別。因此預(yù)測(cè)器就可以定義為:

為了構(gòu)建一個(gè)多元函數(shù) F (X),我們需要一步步構(gòu)建模塊。首先我們令 f1 到 fl 為單變量激活函數(shù),所以一個(gè)半仿射(semi-affine)激活規(guī)則就由下方程給出:

給定 L 層,疊加(復(fù)合)預(yù)測(cè)就可以定義為:

因此,給定一定層級(jí)數(shù)量 L,我們的深度預(yù)測(cè)器就成為了復(fù)合映射:

簡(jiǎn)而言之,一個(gè)高維映射 F 可以通過單變量半仿射函數(shù)的疊加來建模。類似于經(jīng)典的基礎(chǔ)分解(basis decomposition),該深度方法使用單變量激活函數(shù)分解高維輸入矩陣 X。為了選擇隱藏單元(也稱神經(jīng)元)的數(shù)量 Nl,在每一層我們都會(huì)使用 dropout。偏置向量是必不可少的,例如我們使用不帶常數(shù)項(xiàng)的 b 的函數(shù) f (x) = sin(x) 甚至都不能逼近擬合像 cos(x) 那樣的函數(shù),而一個(gè)偏置項(xiàng)(即 sin(x + π/2) = cos(x))就很容易解決這樣的問題。

現(xiàn)在定義 Z (l) 指代第 l 層神經(jīng)網(wǎng)絡(luò),所以輸入向量 X 就可以表示為 Z(0)。最終的輸出是 Y,其可以是數(shù)值型(numeric)或分類型(categorical)。因此,深度預(yù)測(cè)規(guī)則就可以表達(dá)為:

其中,圖 1 展示了深度神經(jīng)網(wǎng)絡(luò)常用的架構(gòu),即前饋網(wǎng)絡(luò)、自編碼器、卷積網(wǎng)絡(luò)、循環(huán)網(wǎng)絡(luò)、長短期記憶和神經(jīng)圖靈機(jī)。一旦系統(tǒng)訓(xùn)練得出了一個(gè)高階非零權(quán)重矩陣,其中就暗含了一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

深度學(xué)習(xí)最常見的建模架構(gòu)

圖 1:深度學(xué)習(xí)最常見的建模架構(gòu)

2. 深度概率學(xué)習(xí)

從概率上來說,輸出 Y 能看作是概率模型生成的隨機(jī)變量,預(yù)測(cè)器中參數(shù)分別為權(quán)重 w 和參數(shù) b。

 

現(xiàn)在定義負(fù)對(duì)數(shù)似然 L 為:

L2 范數(shù)是傳統(tǒng)的最小二乘法,而交叉熵函數(shù)提供了多類 logistic 分類的等價(jià)形式。

 

正則項(xiàng) λφ(W, b) 可以從概率上解釋為參數(shù)的負(fù)對(duì)數(shù)先驗(yàn)分布:

深度預(yù)測(cè)器是經(jīng)正則化的***后驗(yàn)估計(jì)(MAP)量,其中

訓(xùn)練需要找到高度非線性函數(shù)的***解:

其中對(duì)數(shù)后驗(yàn)函數(shù)通過訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化,即:

 

 

 

深度學(xué)習(xí)的主要梯度特性在為復(fù)雜架構(gòu)和大型數(shù)據(jù)集上使用張量方法計(jì)算是十分節(jié)約計(jì)算資源的。TensorFlow 和 TPU 為多種神經(jīng)網(wǎng)絡(luò)架構(gòu)提供了***秀的框架。從統(tǒng)計(jì)學(xué)的角度來看,我們要注意后驗(yàn)概率是高度多模態(tài)的,而提供良好的超參數(shù)調(diào)節(jié)(hyper-parameter tuning)可能成本非常大。顯然,應(yīng)用***秀的隨機(jī)貝葉斯 MCMC 算法以提供更高效的方法是一個(gè)成果豐富的領(lǐng)域。對(duì)于淺層架構(gòu),我們提出了可變向方法的乘數(shù)器(ADMM)作為優(yōu)化問題非常有效的解決方案。

 

2.1 對(duì)于模型和變量選擇的 Dropout

Dropout 是一種模型選擇技術(shù),其旨在避免在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,Dropout 的基本做法是在給定概率 p 的情況下隨機(jī)移除輸入數(shù)據(jù) X 的維度。因此,探討一下其如何影響潛在損失函數(shù)和***化問題是有啟發(fā)性的。

2.2 淺層學(xué)習(xí)器

幾乎所有的淺層數(shù)據(jù)降維技術(shù)都可以視為由低維輔助變量 Z 和合成函數(shù)指定的預(yù)測(cè)規(guī)則所組成:

因此該高維數(shù)據(jù)降維問題就是尋找 Z 變量并正確地估計(jì)層級(jí)函數(shù) (f1 , f 2 )。在這些層級(jí)中,我們希望不忽視預(yù)測(cè)輸出 Y 的信息情況下發(fā)現(xiàn)低維 Z-結(jié)構(gòu)。

2.3 堆疊的自編碼器

自編碼器是一種非常重要的數(shù)據(jù)降維方法。而自編碼器是一個(gè)深度學(xué)習(xí)架構(gòu),其旨在復(fù)制 X、令 X=Y,再通過 bottleneck 結(jié)構(gòu)達(dá)到降維效果。這意味著我們選擇一個(gè)模型。該模型旨在濃縮必要的信息以重新創(chuàng)造 X。

 

3. 尋找好的貝葉斯預(yù)測(cè)器

貝葉斯方法通過很多方式解決優(yōu)良預(yù)測(cè)性能這一問題。其目標(biāo)是找到一個(gè)良好的均方誤差(MSE)預(yù)測(cè):

樹型核函數(shù)和隨機(jī)森林核函數(shù)

圖 2:樹型核函數(shù)和隨機(jī)森林核函數(shù)

圖 3:50 維度的球體(50-dimensional ball)和蒙特卡羅抽樣結(jié)果的二維圖像

Y ~ U(Bp) 的邊緣分布直方圖,其中 p 為不同的維度數(shù)量

圖 4:Y ∼ U(Bp) 的邊緣分布直方圖,其中 p 為不同的維度數(shù)量。

由帶有 ReLU 激活函數(shù)的三個(gè)神經(jīng)元所定義的超平面

圖 5:由帶有 ReLU 激活函數(shù)的三個(gè)神經(jīng)元所定義的超平面。

由樹型架構(gòu)(頂行)和深度學(xué)習(xí)架構(gòu)(底行)對(duì)三個(gè)不同數(shù)據(jù)集做所得的空間劃分結(jié)果

圖 6:由樹型架構(gòu)(頂行)和深度學(xué)習(xí)架構(gòu)(底行)對(duì)三個(gè)不同數(shù)據(jù)集做所得的空間劃分結(jié)果

4. 算法問題

4.1 隨機(jī)梯度下降

隨機(jī)梯度下降(SGD)是用于極小化損失函數(shù) f(W,b)(即***化似然函數(shù))的默認(rèn)標(biāo)準(zhǔn)方法,可用于找到深度學(xué)習(xí)的權(quán)重和偏置。SGD 在第 k 次迭代更新時(shí)只是簡(jiǎn)單地通過減去梯度∇f (W k, b k ) 的估計(jì)值來極小化損失函數(shù)。該梯度可以通過被應(yīng)用于半仿射函數(shù)的疊加上的鏈?zhǔn)揭?guī)則來獲取。其近似梯度可以通過下面的計(jì)算來估計(jì):

其中 Ek ⊂ {1,...,T } 且 |Ek | 是 Ek 中元素的數(shù)量。

當(dāng) |Ek | > 1 時(shí),該算法被稱為 batch SGD 或就是 SGD。一般而言,子集 E 是通過在 {1,...,T } 中循環(huán)選取的連續(xù)元素,Ek+1 = [Ek mod T ]+1。方向 gk 是使用一個(gè)鏈?zhǔn)揭?guī)則(即反向傳播)計(jì)算的,提供了 ∇f (W k· , b k ) 的一個(gè)無偏置的估計(jì)量。具體來說,我們有:

在每次迭代,SGD 會(huì)更新解

4.2 學(xué)習(xí)淺層預(yù)測(cè)器

傳統(tǒng)的因子模型(factor model)才用 K 個(gè)隱藏因子 {F1 , F2 ,..., Fk } 的線性組合:

其中因子 Fk 和權(quán)重 Bik 能通過及解以下方程而得出:

其中 l 等于 1 或 2,即可用 L1 范數(shù)或 L2 范數(shù)?,F(xiàn)在我們最小化重構(gòu)誤差(即精度)并加上正則化罰項(xiàng)以控制其他樣本預(yù)測(cè)的方差-偏差均衡?,F(xiàn)有很多算法可以高效地解決這類問題,比如說如果采用 L2 范數(shù)和高效的激活函數(shù)就能將模型表征為神經(jīng)網(wǎng)絡(luò)模型。

5. 應(yīng)用:預(yù)測(cè) Airbnb 預(yù)訂

為了闡釋這種深度學(xué)習(xí)范式,我們使用了一個(gè)由 Airbnb 提供給 Kaggle 比賽的數(shù)據(jù)集來進(jìn)行我們的實(shí)驗(yàn)分析。實(shí)驗(yàn)?zāi)繕?biāo)是構(gòu)建一個(gè)預(yù)測(cè)模型,使之能夠預(yù)測(cè)一個(gè)新用戶將會(huì)在哪個(gè)國家進(jìn)行他或她的***預(yù)訂。

深度學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確度

圖 11:深度學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確度。

圖 11中(a) 給出了當(dāng)僅使用預(yù)測(cè)的目的地時(shí)的預(yù)測(cè)準(zhǔn)確度;(b) 給出了當(dāng)預(yù)測(cè)國家是被預(yù)測(cè)列表中的前兩位時(shí),正確預(yù)測(cè)所占的正確比例;(c) 給出了當(dāng)預(yù)測(cè)國家是被預(yù)測(cè)列表中的前三位時(shí),正確預(yù)測(cè)所占的正確比例

由 XGBoost 模型識(shí)別出的 15 個(gè)最重要的特征

圖 12:由 XGBoost 模型識(shí)別出的 15 個(gè)最重要的特征

6. 討論

深度學(xué)習(xí)可被視為高維非線性數(shù)據(jù)降維方案。而基于深度學(xué)習(xí)的貝葉斯概率模型是一種疊加的廣義線性模型(GLM)。因此,其成功地闡明了使用 SGD 訓(xùn)練深度架構(gòu),但同時(shí) SGD 又是一種一階梯度方法,所以尋找到的后驗(yàn)?zāi)J饺匀皇呛芨呔S度的空間。通過采用預(yù)測(cè)性的方法(其中正則化起到了很大的作用),深度學(xué)習(xí)取得了成功。

下面展示了許多貝葉斯深度學(xué)習(xí)以后可能會(huì)應(yīng)用的領(lǐng)域:

  • 通過將深度學(xué)習(xí)概率性地看作有 GLM 疊加的模型,我們打開了許多統(tǒng)計(jì)模型的思路,包括指數(shù)簇模型(exponential family model)和異方差誤差(heteroscedastic errors)等。
  • 貝葉斯層級(jí)模型和深度學(xué)習(xí)有很多相似的優(yōu)勢(shì)。貝葉斯層級(jí)模型包括額外的隨機(jī)層,因此也提供額外的可解釋性和靈活性。
  • 另一個(gè)途徑是組合近端算法(combining proximal algorithms)和 MCMC。
  • 通過鏈?zhǔn)椒▌t(即反向傳播算法)可以很容易獲得梯度信息,如今有很好的隨機(jī)方法擬合現(xiàn)存的神經(jīng)網(wǎng)絡(luò),如 MCMC、HMC、近端方法和 ADMM,它們都能大大減少深度學(xué)習(xí)的訓(xùn)練時(shí)間。
  • 超參數(shù)調(diào)節(jié)
  • 相比于傳統(tǒng)貝葉斯非參數(shù)方法,在貝葉斯非參數(shù)方法中使用超平面應(yīng)該產(chǎn)生良好的預(yù)測(cè)器。
  • 深度學(xué)習(xí)在計(jì)算機(jī)軟件有很好的應(yīng)用,其可以用于貝葉斯計(jì)算(純 MCMC 模型計(jì)算太慢)。
  • 用于調(diào)整超參數(shù)和***化有更好的貝葉斯算法。Langevin diffusion MCMC 、proximal MCMC 和哈密頓蒙特卡羅方法(HMC)可像 Hessian 信息那樣用導(dǎo)數(shù)表示。

我們不會(huì)搜索整個(gè)價(jià)值矩陣而希望得到均方誤差,但我們可以對(duì)這些參數(shù)進(jìn)一步添加正則項(xiàng)罰項(xiàng),并將其整合到算法中。MCMC 方法在過去 30 年中有很大的發(fā)展,在給定高性能計(jì)算下,我們現(xiàn)在可以在大數(shù)據(jù)集上實(shí)現(xiàn)高維后驗(yàn)推斷,貝葉斯推斷現(xiàn)在也有同樣的優(yōu)勢(shì)。此外,我們認(rèn)為深度學(xué)習(xí)模型在很多應(yīng)用場(chǎng)景下有很大的潛力。例如在金融中,深度學(xué)習(xí)是一種非線性因子模型,每一層捕捉不同的時(shí)間尺度效應(yīng)(time scale effects),時(shí)空數(shù)據(jù)(spatio-temporal data)也可以視為在空間—時(shí)間上的圖像,深度學(xué)習(xí)就提供了一種用于恢復(fù)非線性復(fù)雜關(guān)系的模式匹配技術(shù)。

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-05-21 14:50:37

算法深度學(xué)習(xí)人工智能

2012-09-24 10:13:35

貝葉斯

2022-05-06 12:13:55

模型AI

2017-08-07 13:02:32

全棧必備貝葉斯

2021-07-23 11:48:16

深度學(xué)習(xí)醫(yī)療人工智能

2023-01-31 15:49:51

機(jī)器學(xué)習(xí)函數(shù)評(píng)分函數(shù)

2024-10-11 16:53:16

貝葉斯人工智能網(wǎng)絡(luò)

2017-07-24 10:36:37

Python機(jī)器學(xué)習(xí)樸素貝葉斯

2021-08-30 11:53:36

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-03-21 09:17:37

2022-10-30 14:54:58

測(cè)試數(shù)據(jù)貝葉斯推理

2022-09-28 08:00:00

Python機(jī)器學(xué)習(xí)算法

2024-11-11 15:02:16

2024-02-19 00:00:00

模型BDL深度學(xué)習(xí)

2013-05-08 09:05:48

狐貍貝葉斯大數(shù)據(jù)

2019-04-28 16:10:50

設(shè)計(jì)Redux前端

2021-05-06 09:05:11

深度學(xué)習(xí)

2017-03-29 14:50:18

2016-08-30 00:14:09

大數(shù)據(jù)貝葉斯
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)