深度學(xué)習(xí),如何用去噪自編碼器預(yù)測(cè)原始數(shù)據(jù)?
去噪自編碼器(denoising autoencoder, DAE)是一類(lèi)接受損壞數(shù)據(jù)作為輸入,并訓(xùn)練來(lái)預(yù)測(cè)原始未被損壞數(shù)據(jù)作為輸出的自編碼器。
去噪自編碼器代價(jià)函數(shù)的計(jì)算圖。去噪自編碼器被訓(xùn)練為從損壞的版本~x 重構(gòu)干凈數(shù)據(jù)點(diǎn)x。這可以通過(guò)最小化損失L = -log pdecoder(x|h = f(~x)) 實(shí)現(xiàn),其中~x 是樣本x 經(jīng)過(guò)損壞過(guò)程C(~x| x) 后得到的損壞版本。
得分匹配是***似然的代替。它提供了概率分布的一致估計(jì),促使模型在各個(gè)數(shù)據(jù)點(diǎn)x 上獲得與數(shù)據(jù)分布相同的得分(score)。
對(duì)一類(lèi)采用高斯噪聲和均方誤差作為重構(gòu)誤差的特定去噪自編碼器(具有sig-moid 隱藏單元和線性重構(gòu)單元)的去噪訓(xùn)練過(guò)程,與訓(xùn)練一類(lèi)特定的被稱(chēng)為RBM 的無(wú)向概率模型是等價(jià)的。
將訓(xùn)練樣本x 表示為位于低維流形(粗黑線)附近的紅叉。我們用灰色圓圈表示等概率的損壞過(guò)程C(~x|x)。灰色箭頭演示了如何將一個(gè)訓(xùn)練樣本轉(zhuǎn)換為經(jīng)過(guò)此損壞過(guò)程的樣本。
由去噪自編碼器圍繞1 維彎曲流形學(xué)習(xí)的向量場(chǎng),其中數(shù)據(jù)集中在2 維空間中。每個(gè)箭頭與重構(gòu)向量減去自編碼器的輸入向量后的向量成比例,并且根據(jù)隱式估計(jì)的概率分布指向較高的概率。向量場(chǎng)在估計(jì)的密度函數(shù)的***值處(在數(shù)據(jù)流形上)和密度函數(shù)的最小值處都為零。例如,螺旋臂形成局部***值彼此連接的1維流形。局部最小值出現(xiàn)在兩個(gè)臂間隙的中間附近。當(dāng)重構(gòu)誤差的范數(shù)(由箭頭的長(zhǎng)度示出)很大時(shí),在箭頭的方向上移動(dòng)可以顯著增加概率,并且在低概率的地方大多也是如此。自編碼器將這些低概率點(diǎn)映射到較高的概率重構(gòu)。在概率***的情況下,重構(gòu)變得更準(zhǔn)確,因此箭頭會(huì)收縮。
目前僅限于去噪自編碼器如何學(xué)習(xí)表示一個(gè)概率分布。更一般的,我們可能希望使用自編碼器作為生成模型,并從其分布中進(jìn)行采樣。




































