100萬(wàn)美元圖靈獎(jiǎng)獎(jiǎng)金,強(qiáng)化學(xué)習(xí)師徒想獻(xiàn)給科研自由
3月5日,計(jì)算機(jī)學(xué)會(huì)(ACM)宣布Andrew Barto和Richard Sutton獲得圖靈獎(jiǎng),以表彰其在強(qiáng)化學(xué)習(xí)領(lǐng)域做出的奠基性貢獻(xiàn)。
自從9年前AlphaGo圍棋大勝,引爆全民RL狂歡,再到如今Deepseek-R1等推理模型的火熱,足以證明強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域的長(zhǎng)久影響力。
最近,Communications of the ACM發(fā)布了一段對(duì)師徒二人的采訪,從強(qiáng)化學(xué)習(xí)的研究經(jīng)歷,聊到對(duì)人工智能的未來(lái)預(yù)測(cè)。
Barto側(cè)重于多智能體協(xié)作學(xué)習(xí),Sutton則認(rèn)為AGI還需要至少幾十年,但最終一定能實(shí)現(xiàn),二人對(duì)AI的未來(lái)以及強(qiáng)化學(xué)習(xí)的應(yīng)用前景都充滿希望!
關(guān)于兩人共同獲得的100萬(wàn)美元圖靈獎(jiǎng)獎(jiǎng)金,目前尚未確定具體用途。
Sutton表示可能將其份額捐贈(zèng)給共同創(chuàng)立的Openmind研究所,給青年科學(xué)家提供「奢侈」的科研自由,讓他們像自己當(dāng)年那樣專注探索基礎(chǔ)性問(wèn)題。
Barto則計(jì)劃用獎(jiǎng)金在馬薩諸塞大學(xué)(UMass)設(shè)立研究生獎(jiǎng)學(xué)金。
強(qiáng)化學(xué)習(xí)萌芽
1975年的斯坦福校園里,當(dāng)時(shí)還是心理學(xué)專業(yè)的本科生Richard Sutton,翻遍了圖書館里所有關(guān)于機(jī)器智能的文獻(xiàn),認(rèn)知受到了巨大沖擊。
他對(duì)主流的「模式識(shí)別」和「示例學(xué)習(xí)」觀點(diǎn)感到失望,認(rèn)為動(dòng)物并不是這么學(xué)習(xí)的,而是通過(guò)某種獎(jiǎng)勵(lì)反饋機(jī)制(They do things to get rewards.)。
當(dāng)時(shí),唯一將獎(jiǎng)勵(lì)與學(xué)習(xí)聯(lián)系起來(lái)的研究人員是美國(guó)空軍實(shí)驗(yàn)室的A. Harry Klopf,認(rèn)為腦細(xì)胞會(huì)主動(dòng)尋求獎(jiǎng)勵(lì)。
Sutton立即決定給Klopf寫信,并在1978年心理學(xué)畢業(yè)后,在馬薩諸塞大學(xué)阿默斯特分校從事研究,主要工作就是測(cè)試Klopf的觀點(diǎn)。
圖片
團(tuán)隊(duì)當(dāng)時(shí)有一位博士后Andrew Barto,在接受空軍和國(guó)家科學(xué)基金會(huì)長(zhǎng)達(dá)五年的資助后,除了一份報(bào)告,并沒(méi)有交付出任何成果。
Barto于1970年獲得密歇根大學(xué)數(shù)學(xué)學(xué)士學(xué)位,1975年獲得計(jì)算機(jī)科學(xué)博士學(xué)位,最終成為UMass自適應(yīng)網(wǎng)絡(luò)實(shí)驗(yàn)室(現(xiàn)為自主學(xué)習(xí)實(shí)驗(yàn)室)的聯(lián)合主任,2012年退休。
圖片
Sutton加入實(shí)驗(yàn)室后,成為了Barto的第一位博士生,二人最終發(fā)展出了現(xiàn)代強(qiáng)化學(xué)習(xí)技術(shù),獎(jiǎng)勵(lì)也是其中的核心,通過(guò)設(shè)計(jì)獎(jiǎng)勵(lì)信號(hào)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓神經(jīng)元順著預(yù)期方向發(fā)展。
圖片
1984年,Sutton在馬薩諸塞大學(xué)安姆斯特分校(University of Massachusetts at Amherst)獲得了博士學(xué)位,直到1994年,Sutton都是GTE Laboratories的計(jì)算機(jī)和智能系統(tǒng)實(shí)驗(yàn)室的技術(shù)組的主要成員,隨后又以資深研究科學(xué)家的身份回到了馬薩諸塞大學(xué)安姆斯特分校。
任職期間,Barto和Sutton共同出版了《強(qiáng)化學(xué)習(xí)導(dǎo)論》,獲得了超8萬(wàn)次引用,2018年又發(fā)行了第二版,至今仍是全球AI學(xué)子的圣經(jīng)。
圖片
同時(shí),Sutton加入AT&T Shannon Laboratory擔(dān)任人工智能部門的主要技術(shù)組成員,研究方向圍繞著決策者與其環(huán)境交互時(shí)所面臨的學(xué)習(xí)問(wèn)題,持續(xù)改進(jìn)自己對(duì)世界的表征和模型的系統(tǒng)。
2003年之后,Sutton成了阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)系的教授和 iCORE Chair,領(lǐng)導(dǎo)著強(qiáng)化學(xué)習(xí)與人工智能實(shí)驗(yàn)室(RLAI)。
不過(guò),說(shuō)起強(qiáng)化學(xué)習(xí)的歷史,Barto也提到,他們的思路并不新鮮。
早在1954年,人工智能先驅(qū)馬文明斯基(Marvin Minsky)的博士學(xué)位論文主題就是模擬神經(jīng)的強(qiáng)化學(xué)習(xí)系統(tǒng),也是IBM計(jì)算機(jī)科學(xué)家Arthur Samuel用來(lái)訓(xùn)練計(jì)算機(jī)下棋的方法。
圖片
然而,到了20世紀(jì)70年代,這個(gè)想法已經(jīng)過(guò)時(shí),大多數(shù)AI研究員都在設(shè)計(jì)專家系統(tǒng),Barto也慶幸自己能夠保持「不合時(shí)宜」。
Barto和Sutton提出的一個(gè)關(guān)鍵技術(shù)是「時(shí)間差分學(xué)習(xí)」(temporal difference learning)。
圖片
比如,想教一臺(tái)計(jì)算機(jī)學(xué)習(xí)下棋,獎(jiǎng)勵(lì)信號(hào)如果是贏得游戲,那中間哪些動(dòng)作步驟是正確的,仍然無(wú)法確定;即時(shí)獎(jiǎng)勵(lì)可以在計(jì)算機(jī)預(yù)測(cè)一步后,反饋出離最終獎(jiǎng)勵(lì)仍然有多少距離,比如勝率是否增加。
預(yù)測(cè)隨時(shí)間的變化(時(shí)間差)提供強(qiáng)化信號(hào),那么在下次計(jì)算機(jī)下棋時(shí),就可以采取那些能增加勝率的動(dòng)作。
破圈
2016年,一場(chǎng)圍棋人機(jī)大戰(zhàn),讓強(qiáng)化學(xué)習(xí)廣為人知,連學(xué)術(shù)圈之外的人都能聊兩句「阿爾法狗」。
Google DeepMind開(kāi)發(fā)的AlphaGo,最終以四勝一敗擊敗李世乭,賽后韓國(guó)棋院授予AlphaGo為榮譽(yù)九段。
圖片
2017年,AlphaGo Master以3:0的戰(zhàn)績(jī),擊敗了世界排名第一的圍棋棋手柯潔,從此人類棋手再無(wú)一人是機(jī)器的對(duì)手。
可以說(shuō),強(qiáng)化學(xué)習(xí)讓「圍棋」死了一半。
之前的機(jī)器學(xué)習(xí)方法主要是有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),在有監(jiān)督設(shè)置下,人工標(biāo)注樣本給機(jī)器進(jìn)行學(xué)習(xí),樣本量有限,無(wú)法適應(yīng)「圍棋」這種特征空間很大的情況;而無(wú)監(jiān)督學(xué)習(xí)則是自動(dòng)提取出有效特征,以在數(shù)據(jù)中找到結(jié)構(gòu)。
圖片
這兩種方法在計(jì)算中都已被證明是有用的,但都不是生物大腦的學(xué)習(xí)方式。
強(qiáng)化學(xué)習(xí)的思路是,當(dāng)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了一個(gè)指定目標(biāo)(比如贏得棋局)時(shí),就會(huì)獲得一定數(shù)值的獎(jiǎng)勵(lì);如果失敗了,會(huì)得到一個(gè)負(fù)值獎(jiǎng)勵(lì)。
機(jī)器可以通過(guò)不斷試錯(cuò)來(lái)學(xué)習(xí),嘗試不同的移動(dòng),最終學(xué)到了在不同場(chǎng)景下應(yīng)該使用哪種移動(dòng)方式。
此后,強(qiáng)化學(xué)習(xí)一路高歌猛進(jìn),不僅攻克了各種電子競(jìng)技游戲,還引發(fā)了大型語(yǔ)言模型的推理革命,比如OpenAI o系列、DeepSeek-R1等推理模型,已成為新的研究主流。
人工智能的未來(lái)
Barto預(yù)測(cè)人工智能領(lǐng)域?qū)⑾蚨嘀悄荏w強(qiáng)化學(xué)習(xí)(multi-agent RL)方向演進(jìn),由神經(jīng)網(wǎng)絡(luò)社群及其個(gè)體獎(jiǎng)勵(lì)系統(tǒng)將形成互動(dòng),這種機(jī)制可能進(jìn)一步催生出協(xié)作網(wǎng)絡(luò),多個(gè)模型為實(shí)現(xiàn)共同目標(biāo)而互相獎(jiǎng)勵(lì),也可能引發(fā)持有不同目標(biāo)的智能體之間的利益沖突。
此類交互將對(duì)經(jīng)濟(jì)學(xué)與博弈論等復(fù)雜領(lǐng)域產(chǎn)生深遠(yuǎn)影響。
Sutton則認(rèn)為人工智能發(fā)展仍處于初級(jí)階段,包括向通用人工智能(AGI)的探索,即機(jī)器能理解人類認(rèn)知范圍內(nèi)的所有事物,Sutton堅(jiān)信強(qiáng)化學(xué)習(xí)將在這一進(jìn)程中發(fā)揮關(guān)鍵作用。
圖片
談到給年輕計(jì)算機(jī)研究人員的建議,Barton倡導(dǎo)效仿二人的科研路,勇敢追隨自己的研究興趣,不必在意領(lǐng)域內(nèi)其他人的看法。雖然這很困難,但你必須找到內(nèi)在驅(qū)動(dòng)力,并盡你最大的能力堅(jiān)持下去。
Sutton則給出更具體的建議,「堅(jiān)持寫作」,通過(guò)文字記錄來(lái)錘煉思想。
一說(shuō)起計(jì)算機(jī)科學(xué)的未來(lái),Sutton就充滿信心:未來(lái)幾十年內(nèi),人類將徹底破解人工智能的奧秘!這有可能是史上最偉大的智力飛躍,能為其貢獻(xiàn)綿薄之力是我們的榮幸。
參考資料:https://cacm.acm.org/news/a-rewarding-line-of-work/