偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LSTM之父向何愷明開炮:我學(xué)生才是殘差學(xué)習(xí)奠基人

人工智能 新聞
殘差學(xué)習(xí)這把改變深度學(xué)習(xí)格局的 “鑰匙”,其實早在30年前就已經(jīng)誕生——Sepp Hochreiter在1991年就在使用循環(huán)殘差連接解決梯度消失問題。

何愷明殘差學(xué)習(xí)奠基人的身份,也被“挑戰(zhàn)”了。

為什么要說“也”?因為發(fā)起討論的,又雙叒是我們熟悉的Jürgen Schmidhuber——LSTM之父。

不過這一次,他不是要把功勞攬到自己身上,而是替LSTM的另一位作者Sepp Hochreiter發(fā)聲:

殘差學(xué)習(xí)這把改變深度學(xué)習(xí)格局的 “鑰匙”,其實早在30年前就已經(jīng)誕生——Sepp Hochreiter在1991年就在使用循環(huán)殘差連接解決梯度消失問題。

有一說一,Jürgen爭title也不是第一次了,作為深度學(xué)習(xí)的先驅(qū)者,Jürgen自認為自己的早期貢獻被人為忽視了。

ResNet發(fā)布的同年,深度學(xué)習(xí)三巨頭BengioHinton、LeCun在Nature上聯(lián)合發(fā)表有關(guān)DL的綜述論文,其中大量引用他們?nèi)说淖陨沓晒?,卻對Jürgen等人只字不提。

隨即他們展開了長達多年的爭論,尤其是在18年的圖靈獎結(jié)果公布后,Jürgen更是洋洋灑灑寫了篇援引200多條文獻的小作文反擊。

之后在GAN的原創(chuàng)爭議上,雙方也是爭執(zhí)不休,要知道GAN的提出者正是Bengio的得意門生。

而如今有關(guān)殘差學(xué)習(xí)的創(chuàng)始之爭,也是因為Jürgen自認為將殘差學(xué)習(xí)這一成果的發(fā)現(xiàn)完全歸因于何愷明團隊有失偏頗。

不過正如網(wǎng)友所說:

從Hochreiter到ResNet,光芒隨時間遞歸延續(xù)。陰影是被模糊的歸屬,但真理始終不變:1991年的種子閃耀著每一層。

30年前的第一次提出

Jürgen Schmidhube這次要講的故事始于1991年。

當(dāng)時還是Jürgen學(xué)生的Sepp Hochreiter,正在著手撰寫自己的博士論文,也正是在這篇論文里,他首次系統(tǒng)性分析了RNN的梯度消失問題,并提出用循環(huán)殘差連接解決。

循環(huán)殘差連接的核心思想相當(dāng)簡單:一個具有恒等激活函數(shù)的神經(jīng)單元自連接,且權(quán)重固定為1.0,使其在每個時間步中僅將輸入疊加到先前狀態(tài),該單元只作為增量積分器存在。

于是誤差信號就能在反向傳播中保持恒定,不會消失或爆炸。

不過與此前任意實數(shù)權(quán)重的自連接不同,只有權(quán)重嚴(yán)格為1.0,才能完全避免梯度問題。

接近1.0的近似值雖然可以接受,但衰減速度會隨時間加快,例如0.99的權(quán)重下誤差信號會在100個時間步后減少到原來的37%(0.991??≈37%),0.9的權(quán)重則只有原來的0.0027%(0.91??≈0.0027%)。

但盡管如此,這也為后來的深度學(xué)習(xí)殘差思想奠定了理論基礎(chǔ)。

直到1997年,Jürgen和Hochreiter共同提出了著名的LSTM,在該理論的基礎(chǔ)上實現(xiàn)了進一步的擴展。

LSTM的核心單元是權(quán)重為1.0的循環(huán)殘差連接,也就是恒定誤差輪盤(CECs),這一機制保證了誤差可在數(shù)百乃至數(shù)千時間步中保持不衰減,使LSTM能有效捕捉輸入與輸出之間的長時間滯后,對語音、語言等任務(wù)至關(guān)重要。

另外這篇LSTM論文也是20世紀(jì)引用次數(shù)最多的人工智能論文。

1999年,LSTM演變出新的形態(tài)vanilla LSTM,在原來的基礎(chǔ)上加入了初始值為1.0的遺忘門,使其具備可控的殘差連接,既能保持長時依賴,又能在需要時重置記憶。

雖然這樣做會重新引入一定的梯度消失,不過整體仍然處于可控狀態(tài)。

到2005年,通過時間反向傳播 (BPTT)算法,LSTM可以展開為深度前饋神經(jīng)網(wǎng)絡(luò) (FNN),讓每個輸入序列的時間步都對應(yīng)一個虛擬層,從而大幅增加了網(wǎng)絡(luò)深度,可以處理更長時間滯后。而無論是循環(huán)還是前饋,殘差連接始終依賴權(quán)重固定為1.0。

接下來就是眾所周知的2015年,首先在同年5月,需要優(yōu)先提及Highway網(wǎng)絡(luò)的貢獻。

此前,基于反向傳播的前饋神經(jīng)網(wǎng)絡(luò)的深度有限,只有20到30層,直到Highway網(wǎng)絡(luò)的出現(xiàn),才首次成功訓(xùn)練出上百層的深度前饋網(wǎng)絡(luò),比過去要深10倍以上。

其核心是將LSTM的門控殘差思想從循環(huán)神經(jīng)網(wǎng)絡(luò)引入前饋網(wǎng)絡(luò),每層輸出為g(x)x+t(x)h(x),其中x是來自前一層的數(shù)據(jù),g、t、h表示帶實值的非線性可微函數(shù)。

關(guān)鍵的殘差部分g(x)x初始化為1.0,讓Highway網(wǎng)絡(luò)既能保持類似ResNet的純殘差連接,又能根據(jù)任務(wù)需要,以依賴上下文的方式自適應(yīng)調(diào)整殘差流,從而大幅提升深度可訓(xùn)練性。

最后再到12月,ResNet在ImageNet競賽中大獲成功,徹底將殘差學(xué)習(xí)帶入大眾視線。

ResNet在殘差部分設(shè)計上,與展開的LSTM以及初始化的Highway網(wǎng)絡(luò)相似,如果將Highway網(wǎng)絡(luò)的門恒定設(shè)置為1.0,就可以得到純殘差網(wǎng)絡(luò)ResNet,而它們本質(zhì)上都是1997年的LSTM前饋變體。

ResNet的殘差連接允許誤差在深層網(wǎng)絡(luò)中穩(wěn)定傳播,使網(wǎng)絡(luò)能夠訓(xùn)練數(shù)百層,但Jürgen也指出,ResNet論文中并沒有明確說明它實際上就是開部門控的Highway網(wǎng)絡(luò),二者之間存在相似的標(biāo)準(zhǔn)殘差連接。

總結(jié)就是,LSTM與Highway網(wǎng)絡(luò)分別奠定了循環(huán)和前饋網(wǎng)絡(luò)的深度訓(xùn)練基礎(chǔ),ResNet則將這一原理成功應(yīng)用于前饋網(wǎng)絡(luò),延續(xù)了自1991年Hochreiter首創(chuàng)的殘差思想。

One More Thing

不過,這種說法目前僅代表Jürgen Schmidhuber的個人觀點。(疊甲doge)

因為這已經(jīng)不是他第一次對著名神經(jīng)網(wǎng)絡(luò)的起源提出質(zhì)疑。

早在2021年,他就公開表示,LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer,都是受到了他實驗室成果的啟發(fā)

例如他認為AlexNet和VGG Net采用了他們的DanNet;GAN是對他在1990年提出的Adversarial Curiosity原則的應(yīng)用;Transformer的變體,即線性Transformer,是對他提出的快速權(quán)重存儲系統(tǒng)的延伸。

但除了無可爭議的LSTM歸屬,其他幾項至今都沒有得到普遍認可。

甚至衍生出這樣一種說法:“Schmidhuber is all you need.”

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-09-28 15:34:22

AI量子計算模型

2023-07-31 11:20:18

AI研究

2025-06-26 09:00:37

2015-03-27 12:59:51

數(shù)據(jù)庫Michael Sto2015圖靈獎

2025-06-26 08:56:59

2025-06-26 15:10:22

DeepMindAI工程團隊

2023-11-02 12:37:25

訓(xùn)練數(shù)據(jù)

2024-03-25 10:15:58

AI數(shù)據(jù)

2025-06-20 09:14:00

2025-10-27 08:56:00

2025-03-06 07:35:30

2022-04-01 15:10:28

機器視覺人工智能目標(biāo)檢測

2025-05-21 13:53:49

模型生成AI

2025-10-26 14:50:25

AI人工智能ChatGPT

2025-03-24 09:08:00

2022-05-31 10:34:04

研究訓(xùn)練模型

2021-11-26 18:45:22

AI 數(shù)據(jù)人工智能

2025-06-13 08:53:00

2023-12-08 14:14:00

模型訓(xùn)練

2024-10-06 12:32:42

點贊
收藏

51CTO技術(shù)棧公眾號