ICLR 2025時(shí)間檢驗(yàn)獎(jiǎng)?lì)C給Adam之父!Bengio「注意力機(jī)制」摘亞軍
剛剛,ICLR 2025時(shí)間檢驗(yàn)獎(jiǎng)公布!
斬獲大獎(jiǎng)的是,xAI工程師、Hinton高徒Jimmy Ba發(fā)表的Adam優(yōu)化器。
獲得亞軍的是,Yoshua Bengio團(tuán)隊(duì)提出的「注意力機(jī)制」,為Transformer和大模型奠定了基礎(chǔ)。
每年,ICLR時(shí)間檢驗(yàn)獎(jiǎng)都會(huì)頒給10年前發(fā)表,且對(duì)領(lǐng)域產(chǎn)生持久影響的論文。
滑鐵盧大學(xué)CS助理教授Gautam Kamath做了一個(gè)總結(jié):
- OpenAI聯(lián)創(chuàng)Diederik P. Kingma已連續(xù)第二次拿下ICLR ToT大獎(jiǎng),去年因VAEs論文獲獎(jiǎng)
- 今年ToT冠軍/亞軍,全都授予加拿大高校的學(xué)者
- 2024年和2025年亞軍來(lái)自NYU團(tuán)隊(duì)
時(shí)間檢驗(yàn)獎(jiǎng)
ICLR 2025時(shí)間檢驗(yàn)獎(jiǎng)公布,再次讓所有人見(jiàn)證了深度學(xué)習(xí)領(lǐng)域的「黃金十年」。
Adam優(yōu)化器讓大模型訓(xùn)練更快更穩(wěn),注意力機(jī)制更是賦予了AI超強(qiáng)理解力,成為深度學(xué)習(xí)領(lǐng)域的重要里程碑。
Adam優(yōu)化器:深度學(xué)習(xí)「加速引擎」
標(biāo)題:Adam: A Method for Stochastic Optimization
作者:Diederik P. Kingma, Jimmy Ba
機(jī)構(gòu):阿姆斯特丹大學(xué)/OpenAI、多倫多大學(xué)
論文地址:https://arxiv.org/abs/1412.6980
如果說(shuō)深度學(xué)習(xí)是一輛飛馳列車,那么Adam優(yōu)化器就是它的「超級(jí)引擎」。
2015年,由Diederik P. Kingma和Jimmy Ba提出的Adam算法,徹底改變了神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方式。
Adam全稱是Adaptive Moment Estimation,通過(guò)結(jié)合梯度算法的一階矩和二階矩,自動(dòng)調(diào)整學(xué)習(xí)率,不僅加速了模型收斂,還提升了訓(xùn)練的穩(wěn)定性。
它之所以成為深度學(xué)習(xí)領(lǐng)域,重要的算法之一,其魅力在于不同領(lǐng)域和神經(jīng)架構(gòu)中的通用性與高效性。
無(wú)論是CV、NLP、還是RL,Adam幾乎成為所有深度學(xué)習(xí)模型的默認(rèn)優(yōu)化器,成為無(wú)數(shù)頂尖模型的基石。
注意力機(jī)制:Transformer前世今生
標(biāo)題:Neural Machine Translation by Jointly Learning to Align and Translate)
作者:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
機(jī)構(gòu):康斯特大學(xué)、蒙特利爾大學(xué)
論文地址:https://arxiv.org/abs/1409.0473
由Yoshua Bengio帶隊(duì)這篇論文,首次引入了注意力機(jī)制(Attention Mechanism),為現(xiàn)代深度學(xué)習(xí)架構(gòu)奠定了基礎(chǔ)。
它從根本上改變了序列到序列模型處理信息的方式。
在此之前,編碼器-解碼器架構(gòu)通常將整個(gè)輸入序列,壓縮成固定長(zhǎng)度向量,面對(duì)較長(zhǎng)序列往往捉襟見(jiàn)肘。
Bengio團(tuán)隊(duì)的突破在于,讓模型能夠「動(dòng)態(tài)關(guān)注」輸入序列相關(guān)部分,極大地提升了翻譯任務(wù)的性能。
要知道,這篇論文的影響力遠(yuǎn)遠(yuǎn)超出了機(jī)器翻譯領(lǐng)域。
2017年,Attention is All You Need開(kāi)山之作出世,注意力機(jī)制成為了Transformer模型的核心,催生了BERT、GPT系等大模型的繁榮。
如今,幾乎所有頂尖的AI模型都離不開(kāi)注意力機(jī)制的加持。
正因如此,這篇論文也被業(yè)界譽(yù)為「現(xiàn)代深度學(xué)習(xí)的基石」。
深度學(xué)習(xí)巨擘領(lǐng)銜
這兩篇2015年里程碑式論文榮登榜首,分別是由圖靈獎(jiǎng)得主Yoshua Bengio,以及Jimmy Ba領(lǐng)銜。
正如Gautam Kamath所指出那樣,加拿大在深度學(xué)習(xí)領(lǐng)域的領(lǐng)先地位。
Jimmy Ba
作為Adam論文共同作者,Jimmy Ba的學(xué)術(shù)軌跡堪稱耀眼。
他分別于2011年和2014年獲得了多倫多大學(xué)本科與碩士學(xué)位,分別師從Brendan Frey和Ruslan Salakhutdinov教授。
博士期間,他又在多倫多大學(xué)跟著Geoffrey Hinton學(xué)習(xí)。
Jimmy Ba的長(zhǎng)期研究目標(biāo)致力于解決一個(gè)核心計(jì)算問(wèn)題:如何構(gòu)建具備類人效率和適應(yīng)性的通用問(wèn)題求解機(jī)器?
具體而言,他的研究聚焦于為深度神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)高效的學(xué)習(xí)算法。
他的研究成果頻頻亮相NeurIPS、ICLR和ICML頂會(huì),2016年更是摘得Facebook機(jī)器學(xué)習(xí)方向研究生獎(jiǎng)學(xué)金(Facebook Graduate Fellowship)。
目前,Google Scholar主頁(yè)顯示,Adam這篇論文被引超20萬(wàn)。
Yoshua Bengio
提到Y(jié)oshua Bengio,AI界無(wú)人不曉。
作為深度學(xué)習(xí)三巨頭之一,他的每項(xiàng)研究都在改寫AI的歷史。
Yoshua Bengio,生于1964年3月5日是一位加拿大-法國(guó)籍計(jì)算機(jī)科學(xué)家,也是人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)領(lǐng)域的先驅(qū)。他是蒙特利爾大學(xué)的教授,也是AI研究所MILA的科學(xué)總監(jiān)。
他在麥吉爾大學(xué)獲得了理學(xué)學(xué)士學(xué)位(電氣工程)、理學(xué)碩士學(xué)位(計(jì)算機(jī)科學(xué))和博士學(xué)位(計(jì)算機(jī)科學(xué))。
獲得博士學(xué)位后,Bengio曾在MIT(導(dǎo)師是Michael I. Jordan)和AT&T貝爾實(shí)驗(yàn)室擔(dān)任博士后研究員。
自1993年以來(lái),他一直是蒙特利爾大學(xué)的教員,領(lǐng)導(dǎo)著MILA,并且是加拿大高等研究院(CIFAR)「機(jī)器與大腦學(xué)習(xí)」項(xiàng)目的聯(lián)合主任。
2017年,Bengio被授予加拿大勛章。同年,他被提名為加拿大皇家學(xué)會(huì)會(huì)士,并獲得了Marie-Victorin Quebec獎(jiǎng)。
2018年,他與Geoffrey Hinton和Yann LeCun因其在深度學(xué)習(xí)領(lǐng)域的基礎(chǔ)性工作,共同獲得了計(jì)算領(lǐng)域的「諾貝爾獎(jiǎng)」——ACM圖靈獎(jiǎng)。
2020年,他當(dāng)選為英國(guó)皇家學(xué)會(huì)會(huì)士。2022年,他與Geoffrey Hinton、Yann LeCun和Demis Hassabis共同獲得了「科學(xué)研究」類別的阿斯圖里亞斯女親王獎(jiǎng)。
2023年,Bengio被授予法國(guó)最高榮譽(yù)勛章——榮譽(yù)軍團(tuán)騎士勛章。同年,被評(píng)為ACM Fellow。
2025年,Bengio與Bill Dally、Geoffrey E. Hinton、John Hopfield、Yann LeCun、黃仁勛和李飛飛共同獲得了伊麗莎白女王工程獎(jiǎng)。
Google Scholar個(gè)人主頁(yè)中,Bengio總被引數(shù)破90萬(wàn),其中被引量最高的論文便是與LeCun和Hinton共同撰寫的「深度學(xué)習(xí)」的論文。
有趣的是,他的兄弟Samy Bengio也是一位在神經(jīng)網(wǎng)絡(luò)領(lǐng)域很有影響力的計(jì)算機(jī)科學(xué)家,目前擔(dān)任蘋果AI和機(jī)器學(xué)習(xí)研究高級(jí)總監(jiān)。