偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強化學(xué)習(xí)之父給LLM判死刑!站隊LeCun:我們?nèi)沐e了

人工智能 新聞
當(dāng)全世界都在狂熱追逐大模型時,強化學(xué)習(xí)之父、圖靈獎得主Richard Sutton卻直言:大語言模型是「死胡同」。在他看來,真正的智能必須源于經(jīng)驗學(xué)習(xí),而不是模仿人類語言的「預(yù)測游戲」。這番話無異于當(dāng)頭一棒,讓人重新思考:我們追逐的所謂智能,究竟是幻影,還是通向未來的歧路?

在日前參加的一個訪談中,強化學(xué)習(xí)之父、圖靈獎得主Richard Sutton語出驚人:大語言模型(LLM)是一個錯誤的起點,是一條死胡同。

在Sutton看來,真正的智能源自經(jīng)驗學(xué)習(xí),通過行動、觀察與反饋持續(xù)修正行為,實現(xiàn)目標(biāo);相比之下,大語言模型的預(yù)測能力更多是對人類行為的模仿,它沒有獨立的目標(biāo),也無法對外部世界的變化產(chǎn)生真正意義上的驚訝和調(diào)整。

他認(rèn)為,想要真正可擴展的智能,必須從經(jīng)驗學(xué)習(xí)出發(fā),而不是把大語言模型當(dāng)作起點。

這一犀利的觀點,在如今人人追捧的大模型浪潮中,無疑是一劑清醒劑,促使我們從對模型「能力」的狂歡中跳脫出來,重新審視「智能」的本質(zhì)與基礎(chǔ)。

此次Sutton與國外科技博Dwarkesh Patel的對話非常精彩,充滿了觀點碰撞。訪談內(nèi)容包括以下7個部分:

  • 大語言模型(LLMs)是死胡同嗎?
  • 人類會進(jìn)行模仿學(xué)習(xí)嗎?
  • 經(jīng)驗時代
  • 現(xiàn)有架構(gòu)在分布外泛化能力差
  • AI領(lǐng)域的驚喜
  • 「苦澀的教訓(xùn)」在AGI之后仍然適用嗎?
  • AI的接替

圖片

完整訪談詳見:https://www.dwarkesh.com/p/richard-sutton

學(xué)術(shù)頭條節(jié)選了該訪談的第一部分內(nèi)容「Are LLMs a dead end?」,在不改變原文大意的前提下,做了一定的編輯。如下:

Dwarkesh Patel:Richard Sutton是強化學(xué)習(xí)的奠基人之一,也是許多主要技術(shù)的發(fā)明者,比如時序差分學(xué)習(xí)和策略梯度方法。憑借這些貢獻(xiàn),他獲得了今年的圖靈獎——被譽為「計算機科學(xué)界的諾貝爾獎」。Richard,恭喜您。

Richard Sutton:謝謝你,Dwarkesh。

Dwarkesh Patel:我的第一個問題是:我和我的聽眾更多是從大語言模型(LLM)的角度來思考人工智能。那么,如果從強化學(xué)習(xí)(RL)的角度來理解AI,我們可能錯過了什么?

Richard Sutton:這確實是一個非常不同的視角。兩者很容易被割裂開來,失去相互對話的能力。大語言模型如今非?;穑墒紸I整體也成了熱門話題。可我們的領(lǐng)域往往容易被潮流帶偏,從而忽視最根本的問題。而我認(rèn)為,強化學(xué)習(xí)才是真正的基礎(chǔ)AI。

什么是智能?歸根到底,是對你所處世界的理解。強化學(xué)習(xí)關(guān)注的就是理解世界,而大語言模型更多是在模仿人類,按人類的指令去做。它們并不是在思考「應(yīng)該做什么」。

Dwarkesh Patel:你可能會認(rèn)為,要想模仿互聯(lián)網(wǎng)上數(shù)萬億的文本token,你必須先建立一個世界模型。事實上,這些模型似乎確實展現(xiàn)出了強大的世界建模能力。它們是我們在AI領(lǐng)域迄今為止創(chuàng)造的最好的世界模型,對吧?您認(rèn)為還缺少什么?

Richard Sutton:我不同意你剛才說的大部分內(nèi)容。模仿人類語言,并不等于在建立世界模型。那只是在模仿那些擁有世界模型的人類。我并不是想采取對抗的立場,但我想質(zhì)疑「大語言模型具備世界模型」這個觀點。一個真正的世界模型,應(yīng)該能預(yù)測未來會發(fā)生什么。大語言模型能預(yù)測某個人會說什么,但沒法預(yù)測世界上會發(fā)生什么。

借用Alan Turing的話來說,我們真正想要的,是一臺能從經(jīng)驗中學(xué)習(xí)的機器。而「經(jīng)驗」,就是你實際生活中遭遇的事情:你采取行動,觀察結(jié)果,并從中學(xué)習(xí)。而大語言模型學(xué)到的卻是另一種模式:給定一個情境,它們學(xué)習(xí)某個人會怎么做,并隱含地暗示你應(yīng)該照著那個人的做法去做。

Dwarkesh Patel:不知道您是否認(rèn)同,我想關(guān)鍵點或許在于,有人認(rèn)為模仿學(xué)習(xí)能夠為模型提供一種先驗知識,讓它們在進(jìn)入您所謂的「經(jīng)驗時代」之前,就已經(jīng)具備一種合理的解決問題的能力。這樣一來,它們就能在一些情況下給出正確答案,而后續(xù)的經(jīng)驗學(xué)習(xí)也可以建立在這個基礎(chǔ)上。您認(rèn)同這種看法嗎?

Richard Sutton:不。我理解這是從大語言模型出發(fā)的觀點,但我不認(rèn)為這是一個好觀點。要成為某事的先驗,必須有一個真實的東西存在。先驗知識應(yīng)該是實際知識的基礎(chǔ)。什么是實際知識?在大語言模型中,沒有對實際知識的定義。是什么讓一個動作成為一個好的動作?

真正重要的是持續(xù)學(xué)習(xí)?!赋掷m(xù)」意味著你必須在與世界的正常交互中不斷學(xué)習(xí)。而在正常的互動過程中,必須有某種方式來判斷什么是對的。

在大語言模型的設(shè)置中,是否存在判斷正確表達(dá)的方式?當(dāng)你發(fā)出某種表達(dá)時,無法獲得關(guān)于正確表達(dá)的反饋,因為根本不存在對正確表達(dá)的定義。它們是沒有目標(biāo)的。所以一句話和另一句話沒有對錯之分。沒有什么正確之說。

它沒有g(shù)round truth。如果沒有g(shù)round truth,就不可能有先驗知識,因為先驗知識本應(yīng)是關(guān)于真相(truth)是什么的提示或初始信念。世間本無絕對真理,亦無絕對正確的言論。在強化學(xué)習(xí)中,有正確的話語要說,有正確的動作要做,正確的事就是能夠獲得獎勵的事。

我們對正確的事是有定義的,因此可以預(yù)先掌握或通過他人獲取關(guān)于正確的事的知識。然后我們可以去驗證它,因為我們知道什么是真正正確的事。

舉一個簡單例子:當(dāng)你嘗試建立世界模型時,你會預(yù)測會發(fā)生什么,然后觀察結(jié)果。這中間存在ground truth。但大語言模型沒有這種ground truth,它們沒法預(yù)測接下來真實會發(fā)生什么。

比如在一場對話中,大語言模型回復(fù)了某句話,它無法預(yù)測對方會如何回應(yīng),或者回應(yīng)什么。

Dwarkesh Patel:我認(rèn)為它們可以。你直接問它們,「你預(yù)計用戶可能會有什么回應(yīng)?」它們會給出一個預(yù)測。

Richard Sutton:不,那只是對問題的回答,而不是有意義的預(yù)測。它們不會對結(jié)果感到驚訝。即便事實和它們所謂的「預(yù)測」不符,它們也不會因為發(fā)生了意料之外的事情而改變。要學(xué)習(xí)到這一點,它們必須做出調(diào)整。

Dwarkesh Patel:這種能力在某些上下文中確實存在。例如,觀察一個模型進(jìn)行「思維鏈」(CoT)是很有趣的。假設(shè)它正在嘗試解決一個數(shù)學(xué)問題。它會說:「好吧,我首先要用這種方法來解決這個問題。」它會把這個寫出來,然后說:「哦等等,我剛剛意識到這在概念上是解決問題的錯誤方法。我要用另一種方法重新開始?!?/span>

這種靈活性在上下文中是存在的,對吧?您是否另有想法,還是您只是認(rèn)為需要將這種能力擴展到更大范圍?

Richard Sutton:我只是說,他們根本無法對接下來會發(fā)生什么做出任何有意義的預(yù)測。他們不會對后續(xù)發(fā)展感到意外。即使發(fā)生變故,他們也不會根據(jù)事態(tài)發(fā)展做出任何調(diào)整。

Dwarkesh Patel:這不就是「下一個token預(yù)測」(next token prediction)嗎?預(yù)測接下來會是什么,然后根據(jù)意外情況進(jìn)行更新?

Richard Sutton:不一樣。下一個token預(yù)測的只是它們接下來要說什么,是一種輸出動作,而不是對外部世界的預(yù)測。

關(guān)鍵還是在于,它們?nèi)狈δ繕?biāo)。對我來說,擁有目標(biāo)是智能的本質(zhì)。如果一個系統(tǒng)能實現(xiàn)目標(biāo),那它就是智能的。我贊同John McCarthy的定義:智能就是達(dá)成目標(biāo)的計算能力。沒有目標(biāo),它就只是一個行為系統(tǒng),沒有特別之處,算不上智能。你同意大語言模型沒有目標(biāo)嗎?

Dwarkesh Patel:不,它們有目標(biāo)。

Richard Sutton:目標(biāo)是什么?

Dwarkesh Patel:下一個token預(yù)測。

Richard Sutton:那不是一個目標(biāo)。它不能改變世界。預(yù)測Token,本身不會對token產(chǎn)生影響。

Dwarkesh Patel:是的,我同意。它不是一個關(guān)于外部世界的目標(biāo)。

Richard Sutton:所以,那不是實質(zhì)性的目標(biāo)。你不能說,一個只是靜靜預(yù)測并因預(yù)測準(zhǔn)確而滿足的系統(tǒng),是有目標(biāo)的。

Dwarkesh Patel:我更想問的是,為什么您認(rèn)為在大語言模型之上做強化學(xué)習(xí)不是一個可行的方向?畢竟我們已經(jīng)能賦予這些模型解決復(fù)雜數(shù)學(xué)問題的目標(biāo)。

例如, 它們已經(jīng)能在國際數(shù)學(xué)奧林匹克競賽(IMO)上拿到金牌,這意味著它們確實在追求「正確解題」這個目標(biāo)。為什么不能把這種能力擴展到其他領(lǐng)域呢?

Richard Sutton:數(shù)學(xué)問題是不同的。構(gòu)建物理世界的模型,與在數(shù)學(xué)中演繹推理、計算結(jié)果,完全是兩回事。經(jīng)驗世界必須通過交互去學(xué)習(xí),需要從結(jié)果中得到反饋。而數(shù)學(xué)更偏向計算,更像是標(biāo)準(zhǔn)的規(guī)劃,目標(biāo)比較清晰:找到證明。某種意義上,它們被賦予了「找到證明」的目標(biāo)。

Dwarkesh Patel:您在2019年寫了一篇題為《慘痛的教訓(xùn)》(The Bitter Lesson)的文章,這也許是AI歷史上最具影響力的文章。如今,人們正把它作為擴大大語言模型規(guī)模的依據(jù),因為在他們看來,這是我們目前唯一能找到的可擴展方案,就是用海量算力去探索世界。有趣的是,您卻認(rèn)為大語言模型并沒有真正吸取「苦澀的教訓(xùn)」。

Richard Sutton:大語言模型是否是「苦澀的教訓(xùn)」的一個案例,這是一個有趣的問題。它們顯然是一種利用大規(guī)模計算的方法,這種計算可以隨著互聯(lián)網(wǎng)數(shù)據(jù)的極限擴展。但它們也是一種融入大量人類知識的方式。這確實是個值得探討的問題——既涉及社會學(xué)層面,也關(guān)乎產(chǎn)業(yè)未來。它們是否會觸及數(shù)據(jù)極限,最終被那些僅憑經(jīng)驗而非人類知識就能獲取更多數(shù)據(jù)的新事物所取代?

在某些方面,這正是「苦澀的教訓(xùn)」的典型案例。我們向大語言模型輸入的人類知識越多,它們的表現(xiàn)就越出色。這令人欣慰。然而,我期望會出現(xiàn)能夠從經(jīng)驗中學(xué)習(xí)的系統(tǒng)。這種系統(tǒng)可以表現(xiàn)得更好,也更具可擴展性。那時,人類知識驅(qū)動的系統(tǒng)終將被純粹依靠經(jīng)驗與計算訓(xùn)練的系統(tǒng)所取代——這又將成為「苦澀的教訓(xùn)」的另一例證。

Dwarkesh Patel:在我看來,這好像不是核心分歧。我認(rèn)為那些人也認(rèn)同,未來絕大多數(shù)的計算將來自從經(jīng)驗中學(xué)習(xí)。他們只是認(rèn)為,支撐這種學(xué)習(xí)的基礎(chǔ)架構(gòu)——即為實現(xiàn)未來經(jīng)驗學(xué)習(xí)或在職學(xué)習(xí)而注入計算能力的起點——將是大語言模型。我還是不明白,為什么這根本就是錯誤的起點,為什么我們需要一個全新的架構(gòu)來開始進(jìn)行經(jīng)驗上的、持續(xù)的學(xué)習(xí)?為什么我們不能從大語言模型開始做這件事呢?

Richard Sutton:在每一個「苦澀的教訓(xùn)」的案例中,你都可以先從人類知識入手,然后再去做那些可擴展的事情。理論上,這并不算錯誤。但實踐中,它幾乎總是行不通。因為人們會被困在人類知識驅(qū)動的方法中,很難跳出來。最終,這些方法總會被真正可擴展的途徑超越。

Dwarkesh Patel:那么,真正可擴展的方法是什么?

Richard Sutton:就是從經(jīng)驗中學(xué)習(xí)。嘗試各種做法,觀察哪些有效。不需要有人告訴你。前提是,有一個目標(biāo),沒有目標(biāo),就沒有對錯或好壞之分,而大語言模型試圖在沒有目標(biāo)或優(yōu)劣判斷的情況下運作。這就是一個錯誤的起點。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-10 11:22:09

強化學(xué)習(xí)AI模型

2025-09-28 08:58:55

2023-03-27 17:45:16

研究AI

2024-09-29 13:40:00

2024-11-29 16:33:24

2025-05-28 02:25:00

2024-08-26 15:21:06

2025-04-21 08:40:00

算力AI模型

2025-10-11 04:00:00

2017-02-20 16:35:10

人工智能算法強化學(xué)習(xí)

2025-03-07 09:24:00

2025-06-05 06:36:17

2011-06-02 09:27:28

2025-09-11 06:57:11

2025-09-09 09:09:00

2023-03-09 08:00:00

強化學(xué)習(xí)機器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-03-25 09:12:00

LIMAI模型

2025-04-18 10:01:41

2022-09-03 18:19:17

Github趨勢
點贊
收藏

51CTO技術(shù)棧公眾號