偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="zshbr"></nobr>

<bdo id="zshbr"><legend id="zshbr"></legend></bdo>

<nobr id="zshbr"></nobr><nobr id="zshbr"><code id="zshbr"></code></nobr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

強化學(xué)習之父：LLM主導(dǎo)只是暫時，擴展計算才是正解

2025-06-10 11:22:09

人工智能新聞

大模型目前的主導(dǎo)地位只是暫時的，在未來五年甚至十年內(nèi)都不會是技術(shù)前沿。

這是新晉圖靈獎得主、強化學(xué)習之父Richard Sutton對未來的最新預(yù)測。

就在剛剛的新加坡國立大學(xué)建校120周年（NUS120）之際，Sutton受邀發(fā)表演講——塑造AI和強化學(xué)習的未來。

其實，這已經(jīng)不是Sutton第一次在公開場合表達類似的觀點，早在他19年的著作《痛苦的教訓(xùn)》中，他就明確提出：

讓AI尤其是LLM模仿人類思維方式，只能帶來短期的性能提升，長期看只會阻礙研究的持續(xù)進步。

在他4月份新發(fā)表的論文《歡迎來到體驗時代》也再度強調(diào)了這點，同時他表示，擴展計算才是正解。

本次NUS120演講長達一個多小時，可謂是干貨滿滿、信息量超大。

讓我們一起來看看完整演講內(nèi)容。

LLM主導(dǎo)是暫時的

Sutton首先提及當前人類處于數(shù)據(jù)時代，像ChatGPT這類大語言模型，都是靠分析人類產(chǎn)生的大量數(shù)據(jù)（如文本、圖像、視頻）進行訓(xùn)練。

但始終追逐人類思維方式，至多也只能達到“人類水平”。

在數(shù)學(xué)、科學(xué)等領(lǐng)域，人類數(shù)據(jù)里的知識已經(jīng)接近極限，AI難以突破現(xiàn)有認知，純靠模仿已經(jīng)很難再有創(chuàng)新。

AI需要新的數(shù)據(jù)來源，且要隨著AI增強而改進，靜態(tài)數(shù)據(jù)集顯然不足。

因此他認為AI終將從依賴人類數(shù)據(jù)，轉(zhuǎn)向通過Agent與世界的第一人稱交互，以獲取“體驗數(shù)據(jù)”的學(xué)習。

AlphaGo在與李在石對弈的第二局中，下出的神之一手——第37手，在人類標準下完全非常規(guī)的走法，就充分展現(xiàn)了AI在這種體驗學(xué)習下的思考潛力。

也就是說，AI將會在自主體驗中，完成自己的更新迭代，產(chǎn)生更高級的數(shù)據(jù)并反哺自身，構(gòu)成一個“越學(xué)越強”的循環(huán)。

還能不受人類現(xiàn)有知識限制，自由探索人類未涉及的領(lǐng)域，比如全新的科學(xué)理論、材料設(shè)計等。

Sutton舉了個例子：

一個蹣跚學(xué)步的嬰兒會通過不斷探索周圍環(huán)境主動學(xué)習，然后隨著認知增長，每一次互動方式都會隨著經(jīng)驗有所不同。

因此AI的未來將屬于通過互動和經(jīng)驗學(xué)習的“體驗時代”，Agent需要從經(jīng)驗中學(xué)習，而這遠遠超出了LLM的能力范疇。

即使現(xiàn)有LLM在連接全球知識上表現(xiàn)出色，但通往這一未來的核心路徑始終是強化學(xué)習。

強化學(xué)習正是圍繞著經(jīng)驗學(xué)習構(gòu)造，但要發(fā)揮強化學(xué)習全部潛力，還需具備持續(xù)學(xué)習能力的深度學(xué)習算法。

而這背后要靠對大規(guī)模算力的充分利用來支撐，繼續(xù)基于搜索和學(xué)習擴展算力，以適應(yīng)AI性能需求增加。

可以說，從長遠看，真正的突破還是來自規(guī)模計算。

不同Agent去中心化互利共贏

談及Agent的前景，Sutton提出對不同目標的Agent可以尋求去中心化合作。

他認為每個Agent的獎勵信號都各不相同，且都試圖最大化自己的回報，那么只需要讓不同Agent各自實現(xiàn)其目標，再通過互動，就能實現(xiàn)互利共贏。

這就類似于人類社會中的經(jīng)濟運轉(zhuǎn)，得益于自然語言和貨幣的發(fā)明，盡管人們擁有不同的目標和能力，但在過程中相互協(xié)調(diào)配合，也能產(chǎn)生出不錯的效果。

但還是有不少人主張集中控制AI，甚至呼吁暫停AI。

Sutton認為這種聲音更多的是來源于對未知的恐懼，要接受個體目標的多樣性，建立合作化秩序，AI的潛力恰恰就在去中心化合作。

另外，Sutton還提到了“設(shè)計時代”的概念，當前的機器越來越類生命化，而生命也被視作生物機器。

但生命與技術(shù)之間存在本質(zhì)差異，生命是在無意識下被復(fù)制產(chǎn)生，而技術(shù)則先經(jīng)設(shè)計師意識想象再落地創(chuàng)造，這是一個設(shè)計過程，且設(shè)計產(chǎn)物也更易改進。

因此人類發(fā)展AI，就是為了將設(shè)計做到極致——設(shè)計出能自主設(shè)計的Agent，而人類將會在設(shè)計時代扮演催化劑和創(chuàng)造者的角色，將AI視作推動發(fā)展的機遇，而非單純的技術(shù)產(chǎn)物。

One More Thing

Sutton的言論一出，很快在社區(qū)引起了激烈討論。

支持者認為技術(shù)的突破往往來自未知與偶然，技術(shù)已趨向成熟的LLM似乎即將觸及領(lǐng)域天花板。

而反對者則認為技術(shù)的發(fā)展在于不斷改進，也許LLM不是AI的最終形態(tài)，但它也必定在AGI發(fā)展過程中占據(jù)重要作用。

責任編輯：張燕妮來源：量子位

強化學(xué)習 AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營