亞當(dāng)與夏娃:解決深度學(xué)習(xí)問題的利器
譯文【51CTO.com快譯】近年來,深度學(xué)習(xí)的大潮席卷了互聯(lián)網(wǎng)的各個(gè)角落。從金融科技到電商,從反欺詐到推薦系統(tǒng),隨處都可以見到深度學(xué)習(xí)的身影。深度學(xué)習(xí)的本質(zhì)是神經(jīng)網(wǎng)絡(luò),而由于神經(jīng)網(wǎng)絡(luò)的深度較深,如何能夠快速高效的進(jìn)行計(jì)算成為了深度學(xué)習(xí)很重要的課題。針對(duì)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降問題,學(xué)者們分別提出了亞當(dāng)方法(Adam)和夏娃(Eve)方法,成為了解決深度學(xué)習(xí)問題的利器。
我們先來看一下什么是亞當(dāng)(Adam)方法:
Hiroaki Hiyashi , Jayanth Koushik , Graham Neubig 在論文 Eve: A Gradient Based Optimization Method with Locally and Globally Adaptive Learning Rates 中提出了一種改進(jìn) Adam (亞當(dāng)) 算法的方法,命名為 Eve (夏娃)方法。 夏娃方法是在亞當(dāng)算法的基礎(chǔ)上進(jìn)行了改進(jìn),我們先來看一下算法的偽代碼:
***,在針對(duì)數(shù)據(jù)的穩(wěn)定性問題和平滑性問題,我們對(duì)學(xué)習(xí)速率進(jìn)行處理,就得到了***在算法偽代碼中展示的步驟。
Adam 算法和 Eve 算法在 CNN 和 RNN 模型的測(cè)評(píng)結(jié)果如下圖所示:
可以看到 Eve 算法在 CNN 上取得了比其他算法都要好的效果,而在 RNN 上的效果也表現(xiàn)不錯(cuò)。
機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘流行了這么多年,其實(shí)離不開統(tǒng)計(jì)概率和***化的根基。平常大多數(shù)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的從業(yè)者都是在工業(yè)界深耕,因此對(duì)于數(shù)學(xué)本身的掌握程度要求沒有那么高深。特別是在中國(guó)的企業(yè),一般能做到跟進(jìn)國(guó)際***的潮流就可以了。
然而有的時(shí)候沉寂下來,用心鉆研一下數(shù)學(xué)對(duì)于自己技術(shù)上的理解和深造是很有幫助的。Adam 算法和 Eve 算法本身的數(shù)學(xué)原理并不復(fù)雜,用到的唯一的統(tǒng)計(jì)學(xué)概念是無偏統(tǒng)計(jì)量,值得廣大從業(yè)者認(rèn)真學(xué)習(xí)其簡(jiǎn)單優(yōu)美的思路。
汪昊,恒昌利通大數(shù)據(jù)部負(fù)責(zé)人/資深架構(gòu)師,美國(guó)猶他大學(xué)本科/碩士,對(duì)外經(jīng)貿(mào)大學(xué)在職MBA。曾在百度,新浪,網(wǎng)易,豆瓣等公司有多年的研發(fā)和技術(shù)管理經(jīng)驗(yàn),擅長(zhǎng)機(jī)器學(xué)習(xí),大數(shù)據(jù),推薦系統(tǒng),社交網(wǎng)絡(luò)分析等技術(shù)。在 TVCG 和 ASONAM 等國(guó)際會(huì)議和期刊發(fā)表論文 8 篇。本科畢業(yè)論文獲國(guó)際會(huì)議 IEEE SMI 2008 ***論文獎(jiǎng)。
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】