強化學(xué)習之父:LLM主導(dǎo)只是暫時,擴展計算才是正解
這是新晉圖靈獎得主、強化學(xué)習之父Richard Sutton對未來的最新預(yù)測。
就在剛剛的新加坡國立大學(xué)建校120周年(NUS120)之際,Sutton受邀發(fā)表演講——塑造AI和強化學(xué)習的未來。
其實,這已經(jīng)不是Sutton第一次在公開場合表達類似的觀點,早在他19年的著作《痛苦的教訓(xùn)》中,他就明確提出:
讓AI尤其是LLM模仿人類思維方式,只能帶來短期的性能提升,長期看只會阻礙研究的持續(xù)進步。
在他4月份新發(fā)表的論文《歡迎來到體驗時代》也再度強調(diào)了這點,同時他表示,擴展計算才是正解。
本次NUS120演講長達一個多小時,可謂是干貨滿滿、信息量超大。
讓我們一起來看看完整演講內(nèi)容。
LLM主導(dǎo)是暫時的
Sutton首先提及當前人類處于數(shù)據(jù)時代,像ChatGPT這類大語言模型,都是靠分析人類產(chǎn)生的大量數(shù)據(jù)(如文本、圖像、視頻)進行訓(xùn)練。
但始終追逐人類思維方式,至多也只能達到“人類水平”。
在數(shù)學(xué)、科學(xué)等領(lǐng)域,人類數(shù)據(jù)里的知識已經(jīng)接近極限,AI難以突破現(xiàn)有認知,純靠模仿已經(jīng)很難再有創(chuàng)新。
AI需要新的數(shù)據(jù)來源,且要隨著AI增強而改進,靜態(tài)數(shù)據(jù)集顯然不足。
因此他認為AI終將從依賴人類數(shù)據(jù),轉(zhuǎn)向通過Agent與世界的第一人稱交互,以獲取“體驗數(shù)據(jù)”的學(xué)習。
AlphaGo在與李在石對弈的第二局中,下出的神之一手——第37手,在人類標準下完全非常規(guī)的走法,就充分展現(xiàn)了AI在這種體驗學(xué)習下的思考潛力。
也就是說,AI將會在自主體驗中,完成自己的更新迭代,產(chǎn)生更高級的數(shù)據(jù)并反哺自身,構(gòu)成一個“越學(xué)越強”的循環(huán)。
還能不受人類現(xiàn)有知識限制,自由探索人類未涉及的領(lǐng)域,比如全新的科學(xué)理論、材料設(shè)計等。
Sutton舉了個例子:
一個蹣跚學(xué)步的嬰兒會通過不斷探索周圍環(huán)境主動學(xué)習,然后隨著認知增長,每一次互動方式都會隨著經(jīng)驗有所不同。
因此AI的未來將屬于通過互動和經(jīng)驗學(xué)習的“體驗時代”,Agent需要從經(jīng)驗中學(xué)習,而這遠遠超出了LLM的能力范疇。
即使現(xiàn)有LLM在連接全球知識上表現(xiàn)出色,但通往這一未來的核心路徑始終是強化學(xué)習。
強化學(xué)習正是圍繞著經(jīng)驗學(xué)習構(gòu)造,但要發(fā)揮強化學(xué)習全部潛力,還需具備持續(xù)學(xué)習能力的深度學(xué)習算法。
而這背后要靠對大規(guī)模算力的充分利用來支撐,繼續(xù)基于搜索和學(xué)習擴展算力,以適應(yīng)AI性能需求增加。
可以說,從長遠看,真正的突破還是來自規(guī)模計算。
不同Agent去中心化互利共贏
談及Agent的前景,Sutton提出對不同目標的Agent可以尋求去中心化合作。
他認為每個Agent的獎勵信號都各不相同,且都試圖最大化自己的回報,那么只需要讓不同Agent各自實現(xiàn)其目標,再通過互動,就能實現(xiàn)互利共贏。
這就類似于人類社會中的經(jīng)濟運轉(zhuǎn),得益于自然語言和貨幣的發(fā)明,盡管人們擁有不同的目標和能力,但在過程中相互協(xié)調(diào)配合,也能產(chǎn)生出不錯的效果。
但還是有不少人主張集中控制AI,甚至呼吁暫停AI。
Sutton認為這種聲音更多的是來源于對未知的恐懼,要接受個體目標的多樣性,建立合作化秩序,AI的潛力恰恰就在去中心化合作。
另外,Sutton還提到了“設(shè)計時代”的概念,當前的機器越來越類生命化,而生命也被視作生物機器。
但生命與技術(shù)之間存在本質(zhì)差異,生命是在無意識下被復(fù)制產(chǎn)生,而技術(shù)則先經(jīng)設(shè)計師意識想象再落地創(chuàng)造,這是一個設(shè)計過程,且設(shè)計產(chǎn)物也更易改進。
因此人類發(fā)展AI,就是為了將設(shè)計做到極致——設(shè)計出能自主設(shè)計的Agent,而人類將會在設(shè)計時代扮演催化劑和創(chuàng)造者的角色,將AI視作推動發(fā)展的機遇,而非單純的技術(shù)產(chǎn)物。
One More Thing
Sutton的言論一出,很快在社區(qū)引起了激烈討論。
支持者認為技術(shù)的突破往往來自未知與偶然,技術(shù)已趨向成熟的LLM似乎即將觸及領(lǐng)域天花板。
而反對者則認為技術(shù)的發(fā)展在于不斷改進,也許LLM不是AI的最終形態(tài),但它也必定在AGI發(fā)展過程中占據(jù)重要作用。