偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強化學(xué)習之父:LLM主導(dǎo)只是暫時,擴展計算才是正解

人工智能 新聞
大模型目前的主導(dǎo)地位只是暫時的,在未來五年甚至十年內(nèi)都不會是技術(shù)前沿。

這是新晉圖靈獎得主、強化學(xué)習之父Richard Sutton對未來的最新預(yù)測。

就在剛剛的新加坡國立大學(xué)建校120周年(NUS120)之際,Sutton受邀發(fā)表演講——塑造AI和強化學(xué)習的未來。

圖片

其實,這已經(jīng)不是Sutton第一次在公開場合表達類似的觀點,早在他19年的著作《痛苦的教訓(xùn)》中,他就明確提出:

讓AI尤其是LLM模仿人類思維方式,只能帶來短期的性能提升,長期看只會阻礙研究的持續(xù)進步。

在他4月份新發(fā)表的論文《歡迎來到體驗時代》也再度強調(diào)了這點,同時他表示,擴展計算才是正解。

圖片

本次NUS120演講長達一個多小時,可謂是干貨滿滿、信息量超大。

讓我們一起來看看完整演講內(nèi)容。

LLM主導(dǎo)是暫時的

Sutton首先提及當前人類處于數(shù)據(jù)時代,像ChatGPT這類大語言模型,都是靠分析人類產(chǎn)生的大量數(shù)據(jù)(如文本、圖像、視頻)進行訓(xùn)練。

但始終追逐人類思維方式,至多也只能達到“人類水平”。

在數(shù)學(xué)、科學(xué)等領(lǐng)域,人類數(shù)據(jù)里的知識已經(jīng)接近極限,AI難以突破現(xiàn)有認知,純靠模仿已經(jīng)很難再有創(chuàng)新。

圖片

AI需要新的數(shù)據(jù)來源,且要隨著AI增強而改進,靜態(tài)數(shù)據(jù)集顯然不足。

因此他認為AI終將從依賴人類數(shù)據(jù),轉(zhuǎn)向通過Agent與世界的第一人稱交互,以獲取“體驗數(shù)據(jù)”的學(xué)習。

AlphaGo在與李在石對弈的第二局中,下出的神之一手——第37手,在人類標準下完全非常規(guī)的走法,就充分展現(xiàn)了AI在這種體驗學(xué)習下的思考潛力。

也就是說,AI將會在自主體驗中,完成自己的更新迭代,產(chǎn)生更高級的數(shù)據(jù)并反哺自身,構(gòu)成一個“越學(xué)越強”的循環(huán)。

還能不受人類現(xiàn)有知識限制,自由探索人類未涉及的領(lǐng)域,比如全新的科學(xué)理論、材料設(shè)計等。

Sutton舉了個例子:

一個蹣跚學(xué)步的嬰兒會通過不斷探索周圍環(huán)境主動學(xué)習,然后隨著認知增長,每一次互動方式都會隨著經(jīng)驗有所不同。

因此AI的未來將屬于通過互動和經(jīng)驗學(xué)習的“體驗時代”,Agent需要從經(jīng)驗中學(xué)習,而這遠遠超出了LLM的能力范疇。

即使現(xiàn)有LLM在連接全球知識上表現(xiàn)出色,但通往這一未來的核心路徑始終是強化學(xué)習。

強化學(xué)習正是圍繞著經(jīng)驗學(xué)習構(gòu)造,但要發(fā)揮強化學(xué)習全部潛力,還需具備持續(xù)學(xué)習能力的深度學(xué)習算法

圖片

而這背后要靠對大規(guī)模算力的充分利用來支撐,繼續(xù)基于搜索和學(xué)習擴展算力,以適應(yīng)AI性能需求增加。

可以說,從長遠看,真正的突破還是來自規(guī)模計算。

不同Agent去中心化互利共贏

談及Agent的前景,Sutton提出對不同目標的Agent可以尋求去中心化合作。

他認為每個Agent的獎勵信號都各不相同,且都試圖最大化自己的回報,那么只需要讓不同Agent各自實現(xiàn)其目標,再通過互動,就能實現(xiàn)互利共贏。

這就類似于人類社會中的經(jīng)濟運轉(zhuǎn),得益于自然語言和貨幣的發(fā)明,盡管人們擁有不同的目標和能力,但在過程中相互協(xié)調(diào)配合,也能產(chǎn)生出不錯的效果。

但還是有不少人主張集中控制AI,甚至呼吁暫停AI。

Sutton認為這種聲音更多的是來源于對未知的恐懼,要接受個體目標的多樣性,建立合作化秩序,AI的潛力恰恰就在去中心化合作。

圖片

另外,Sutton還提到了“設(shè)計時代”的概念,當前的機器越來越類生命化,而生命也被視作生物機器。

但生命與技術(shù)之間存在本質(zhì)差異,生命是在無意識下被復(fù)制產(chǎn)生,而技術(shù)則先經(jīng)設(shè)計師意識想象再落地創(chuàng)造,這是一個設(shè)計過程,且設(shè)計產(chǎn)物也更易改進。

因此人類發(fā)展AI,就是為了將設(shè)計做到極致——設(shè)計出能自主設(shè)計的Agent,而人類將會在設(shè)計時代扮演催化劑和創(chuàng)造者的角色,將AI視作推動發(fā)展的機遇,而非單純的技術(shù)產(chǎn)物。

One More Thing

Sutton的言論一出,很快在社區(qū)引起了激烈討論。

支持者認為技術(shù)的突破往往來自未知與偶然,技術(shù)已趨向成熟的LLM似乎即將觸及領(lǐng)域天花板。

圖片

而反對者則認為技術(shù)的發(fā)展在于不斷改進,也許LLM不是AI的最終形態(tài),但它也必定在AGI發(fā)展過程中占據(jù)重要作用。

圖片

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-28 02:25:00

2024-11-29 16:33:24

2025-03-07 09:24:00

2025-06-05 06:36:17

2023-03-09 08:00:00

強化學(xué)習機器學(xué)習圍棋

2020-08-10 06:36:21

強化學(xué)習代碼深度學(xué)習

2025-04-18 10:01:41

2025-02-10 13:50:00

算法模型訓(xùn)練

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習

2025-03-25 09:12:00

LIMAI模型

2024-09-30 14:40:00

AI強化學(xué)習框架

2024-09-13 06:32:25

2025-01-27 12:34:02

2024-11-01 09:39:26

強化學(xué)習AI

2025-05-30 10:50:27

2025-03-28 10:16:15

2025-06-11 08:45:00

強化學(xué)習AI模型

2021-12-06 17:38:51

強化學(xué)習工具人工智能

2020-11-12 19:31:41

強化學(xué)習人工智能機器學(xué)習

2024-04-03 07:56:50

推薦系統(tǒng)多任務(wù)推薦
點贊
收藏

51CTO技術(shù)棧公眾號