偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強化學(xué)習(xí)之父Richard Sutton最新采訪:LLM是“死路一條”

人工智能 新聞
圖靈獎獲得者Richard Sutton,強化學(xué)習(xí)之父最新采訪,認為當(dāng)前熱門的大語言模型是一條死胡同。

強化學(xué)習(xí)之父Richard Sutton老爺子加入了Yann LeCun行列,認為當(dāng)前的LLM路線行不通,不可能通向AGI。

圖靈獎獲得者Richard Sutton,強化學(xué)習(xí)之父最新采訪,認為當(dāng)前熱門的大語言模型是一條死胡同。他的核心觀點是,LLMs 的架構(gòu)從根本上缺乏從實際互動(on-the-job)中持續(xù)學(xué)習(xí)的能力。無論我們?nèi)绾螖U大其規(guī)模,它們本質(zhì)上仍然是在模仿人類數(shù)據(jù),而不是通過與世界直接互動來理解世界并實現(xiàn)目標(biāo)。

Sutton 預(yù)言,未來將出現(xiàn)一種新的 AI 架構(gòu),它能夠像人類和所有動物一樣,在與環(huán)境的持續(xù)互動中實時學(xué)習(xí),無需經(jīng)歷獨立的“訓(xùn)練階段”。這種基于經(jīng)驗的、持續(xù)學(xué)習(xí)的新范式,一旦實現(xiàn),將使我們當(dāng)前依賴大規(guī)模靜態(tài)數(shù)據(jù)集訓(xùn)練 LLMs 的方法變得過時。

權(quán)力向更高級智能形式的轉(zhuǎn)移是必然趨勢。

1. 模仿的終結(jié):為什么 LLM 是一條死胡同?

Richard Sutton 對當(dāng)前由 LLMs 主導(dǎo)的 AI 發(fā)展路徑提出了根本性的批判。他認為,我們正在偏離人工智能的核心問題。Sutton 將強化學(xué)習(xí)(Reinforcement Learning, RL)視為基礎(chǔ) AI,其本質(zhì)是理解世界并在此基礎(chǔ)上實現(xiàn)目標(biāo)。而 LLMs 在他看來,則是在模仿人類,學(xué)習(xí)的是人類會說什么、會做什么,而不是自主地去探索和發(fā)現(xiàn)應(yīng)該做什么。

缺乏真實的世界模型與目標(biāo)

訪談中,一個核心的爭論點在于 LLMs 是否擁有一個真正的世界模型。盡管 LLMs 能夠處理和生成關(guān)于世界的復(fù)雜文本,展現(xiàn)出驚人的知識儲備,但 Sutton 認為這并非一個真正意義上的世界模型。

預(yù)測“說什么” vs. 預(yù)測“會發(fā)生什么”:Sutton 指出,LLMs 的能力在于預(yù)測在給定上下文中,一個人類可能會說什么(即下一個詞元)。然而,一個真正的世界模型應(yīng)該能夠預(yù)測采取某個行動后,世界會發(fā)生什么真實的變化。LLMs 缺乏這種與物理或交互世界直接關(guān)聯(lián)的預(yù)測能力。它們是在模仿?lián)碛惺澜缒P偷闹黧w(人類),而不是自己構(gòu)建一個。

缺乏“驚訝”與學(xué)習(xí)機制:一個擁有世界模型的智能體,當(dāng)現(xiàn)實世界的反饋與它的預(yù)測不符時,它會感到“驚訝”,并根據(jù)這種預(yù)期之外的事件來調(diào)整自己的模型。Sutton 認為 LLMs 缺乏這種機制。在與用戶交互后,無論用戶做出何種反應(yīng),模型本身并不會因為這個新經(jīng)驗而更新其內(nèi)在的權(quán)重。它的學(xué)習(xí)發(fā)生在獨立的、大規(guī)模的訓(xùn)練階段,而不是在正常生活的持續(xù)互動中。

沒有實質(zhì)性的目標(biāo):Sutton 強調(diào),智能的本質(zhì)是實現(xiàn)目標(biāo)的能力。他引用 John McCarthy 的定義:智能是實現(xiàn)目標(biāo)能力的計算部分。而 LLMs 缺乏一個與外部世界相關(guān)的實質(zhì)性目標(biāo)。“下一個詞元預(yù)測”(Next token prediction)在 Sutton 看來并非一個真正的目標(biāo),因為它不尋求改變世界,只是被動地預(yù)測一個數(shù)據(jù)流。一個真正的目標(biāo)驅(qū)動系統(tǒng),會根據(jù)目標(biāo)來判斷行為的好壞,而 LLMs 的框架中沒有定義什么是正確的行為,只有符合人類語料庫模式的行為。

“先驗知識”的謬誤與《慘痛的教訓(xùn)》

對于“LLMs 可以作為強化學(xué)習(xí)的良好先驗知識”這一流行觀點,Sutton 同樣表示不贊同。他認為,先驗知識是關(guān)于真相的初步信念,它需要一個客觀的基準(zhǔn)真相來作為參照。在 LLMs 的框架里,由于沒有目標(biāo),也就沒有所謂的“正確行動”,因此不存在可以被驗證的真相。你說一句話,我說一句話,沒有對錯之分,也就無法形成有意義的先驗知識。

這引出了 Sutton 在 2019 年撰寫的著名文章《慘痛的教訓(xùn)》(The Bitter Lesson)。這篇文章的核心思想是,AI 領(lǐng)域長期的歷史表明,利用通用計算能力進行大規(guī)模搜索和學(xué)習(xí)的方法,最終總是勝過那些試圖將人類知識精心構(gòu)建到系統(tǒng)中的方法。許多人認為,大規(guī)模擴展 LLMs 正是《慘痛的教訓(xùn)》的體現(xiàn)。

然而,Sutton 對此有不同的解讀。他承認 LLMs 確實是利用海量計算的典范,但它們同時也嚴(yán)重依賴于人類知識的灌輸(即互聯(lián)網(wǎng)上的全部文本)。他認為,這恰恰是《慘痛的教訓(xùn)》所警示的路徑。歷史反復(fù)證明,那些過于依賴人類知識的方法,雖然在短期內(nèi)看起來效果很好,但最終會被那些能夠從原始經(jīng)驗中學(xué)習(xí)、真正可擴展的方法所超越。研究者們會心理上被鎖定在基于人類知識的方法中,最終被新范式“吃掉午餐”。

2. 學(xué)習(xí)的本質(zhì):源于經(jīng)驗,而非模仿

Sutton 與主流觀點的一個顯著分歧在于他對人類學(xué)習(xí)方式的理解。他堅決地認為,模仿學(xué)習(xí)并非人類乃至所有動物學(xué)習(xí)的基礎(chǔ)機制。

對人類模仿學(xué)習(xí)的否定

當(dāng)被問及人類兒童是否通過模仿來學(xué)習(xí)時,Sutton 的回答是當(dāng)然不。

嬰兒的學(xué)習(xí)方式:在他看來,觀察一個嬰兒,你看到的是他隨機地揮舞手臂、轉(zhuǎn)動眼球、發(fā)出聲音。這是一個主動的、試錯(trial-and-error)的過程。嬰兒在探索自己的身體與環(huán)境的互動,觀察行為帶來的后果,而不是在模仿一個精確的目標(biāo)行為。例如,嬰兒可能想發(fā)出類似母親的聲音,但他采取的具體肌肉動作是沒有模仿對象的,只能自己摸索。

監(jiān)督學(xué)習(xí)在自然界中的缺位:Sutton 將 LLMs 的學(xué)習(xí)范式歸為監(jiān)督學(xué)習(xí),即給定一個輸入(情境),學(xué)習(xí)一個期望的輸出(人類會怎么做)。他斷言,這種學(xué)習(xí)方式在自然界中根本不存在。動物不是通過被展示“正確行為范例”來學(xué)習(xí)的。它們學(xué)習(xí)的是“做了某件事,會產(chǎn)生什么后果”。無論是預(yù)測(一個事件跟隨另一個事件)還是控制(通過試錯來達成目標(biāo)),學(xué)習(xí)都源于與世界的直接互動。

人類特殊性 vs. 動物普遍性:對于人類社會中的文化傳承,例如人類學(xué)家 Joseph Henrich 提出的通過模仿來學(xué)習(xí)捕獵海豹等復(fù)雜技能的理論,Sutton 承認這可能是人類區(qū)別于其他動物的特征之一。但他認為,這只是建立在更基礎(chǔ)的學(xué)習(xí)機制之上的一層“薄薄的飾面”(a small veneer on the surface)。我們首先是動物,擁有和動物共通的學(xué)習(xí)原理。他甚至說:如果我們理解了一只松鼠,我認為我們就幾乎完全理解了人類智能。語言和文化只是后來的附加物。因此,研究 AI 應(yīng)該關(guān)注我們與動物共通的、更根本的智能原理,而不是人類獨有的、特殊的能力。

這種觀點也解釋了 Moravec's paradox(莫拉維克悖論):對人類來說困難的事情(如下棋、做數(shù)學(xué)題),對 AI 來說可能很容易;而對人類和動物來說輕而易舉的事情(如感知、移動、持續(xù)適應(yīng)環(huán)境),對 AI 來說卻極其困難。Sutton 認為,這是因為我們當(dāng)前的 AI 走了一條與自然智能完全不同的發(fā)展路徑。

3. 經(jīng)驗時代:一種新的 AI 范式

Sutton 構(gòu)想了一個完全不同的 AI 范式,他稱之為“經(jīng)驗時代”(The Era of Experience)。這個范式將徹底拋棄訓(xùn)練和部署的分離,讓智能體在與世界的持續(xù)互動中學(xué)習(xí)和進化。

體驗流與持續(xù)學(xué)習(xí)

核心理念:智能的核心在于處理一個永不間斷的“體驗流”(stream),這個流由“感覺、行動、獎勵”(sensation, action, reward)組成。智能體的任務(wù)就是學(xué)習(xí)如何調(diào)整自己的行動,以最大化在這個流中獲得的累積獎勵。

知識的本質(zhì):在這種范式下,知識不再是存儲在靜態(tài)數(shù)據(jù)集里的信息,而是關(guān)于這個體驗流的預(yù)測性陳述。例如,“如果我采取這個行動,接下來會發(fā)生什么”,或者“哪些事件會跟隨其他事件發(fā)生”。因為知識是關(guān)于體驗流的,所以它可以通過與體驗流的后續(xù)發(fā)展進行比較來持續(xù)地被檢驗和更新。

獎勵函數(shù)的設(shè)定:獎勵函數(shù)是根據(jù)任務(wù)任意設(shè)定的。下棋的目標(biāo)是贏棋,松鼠的目標(biāo)是獲得堅果。對于一個通用的智能體,獎勵可以被設(shè)計為類似動物的趨利避害,同時也可以包含內(nèi)在動機,比如對環(huán)境理解程度的提升。

解決稀疏獎勵與高帶寬學(xué)習(xí)

在現(xiàn)實世界中,許多任務(wù)的獎勵非常稀疏,例如創(chuàng)業(yè)可能需要十年才能看到回報。Sutton 解釋說,強化學(xué)習(xí)中的時序差分學(xué)習(xí)(Temporal Difference, TD learning)正是為了解決這個問題而生的。

價值函數(shù):智能體學(xué)習(xí)一個價值函數(shù),用來預(yù)測從當(dāng)前狀態(tài)出發(fā),未來可能獲得的長期回報。

即時強化:當(dāng)智能體采取一個行動(例如,在創(chuàng)業(yè)中完成一個里程碑),即使沒有立即獲得最終獎勵,但如果這個行動讓它預(yù)測的長期成功概率增加了,這個“預(yù)測值的增加”本身就會成為一個即時的、內(nèi)部的獎勵信號,從而強化導(dǎo)致這一步的行動。這使得學(xué)習(xí)可以在沒有最終結(jié)果的情況下,沿著正確的方向逐步進行。

另一個關(guān)鍵問題是,僅靠一個標(biāo)量的獎勵信號,是否足以讓智能體學(xué)到人類在工作中需要掌握的大量背景知識和隱性知識?

從所有數(shù)據(jù)中學(xué)習(xí):Sutton 澄清,學(xué)習(xí)不僅僅來自獎勵。智能體從所有的感覺數(shù)據(jù)中學(xué)習(xí)。這些豐富的數(shù)據(jù)主要用于構(gòu)建和更新對世界的“轉(zhuǎn)移模型”。

智能體的四個組成部分

  • 策略:決定在當(dāng)前狀態(tài)下應(yīng)該采取什么行動。
  • 價值函數(shù):評估當(dāng)前狀態(tài)的好壞,用于改進策略。
  • 感知:構(gòu)建對當(dāng)前狀態(tài)的表征。
  • 轉(zhuǎn)移模型:即世界模型,預(yù)測行動的后果,例如“如果我做了A,世界會變成什么樣”。這個模型是從所有的感官輸入中學(xué)習(xí)的,而不僅僅是獎勵。它構(gòu)成了智能體對世界運行方式的理解。

當(dāng)前架構(gòu)的根本缺陷:泛化能力

Sutton 指出,無論是 LLMs 還是現(xiàn)有的 RL 系統(tǒng),都存在一個共同的、致命的缺陷:無法很好地進行泛化。

泛化是人為雕琢的結(jié)果:他認為,目前我們在深度學(xué)習(xí)模型中看到的良好泛化能力,很大程度上是研究人員通過巧妙設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)增強等方式雕琢出來的,而不是算法本身能夠自動發(fā)現(xiàn)的。

梯度下降的局限:梯度下降算法只會找到一個能解決訓(xùn)練數(shù)據(jù)中問題的解,但如果存在多個解,它無法保證找到那個泛化能力最好的解。

災(zāi)難性遺忘:當(dāng)一個在舊任務(wù)上訓(xùn)練好的模型去學(xué)習(xí)新任務(wù)時,它往往會完全忘記舊的知識。這正是泛化能力差的典型表現(xiàn)。一個好的泛化能力意味著,在一個狀態(tài)下的學(xué)習(xí)應(yīng)該能夠以一種有益的方式影響到其他相關(guān)狀態(tài)下的行為。

LLM 泛化的假象:對于 LLMs 在數(shù)學(xué)奧林匹克等任務(wù)上展現(xiàn)的驚人能力,Sutton 保持懷疑。他認為,這可能不是真正的泛化。因為 LLMs 接觸的數(shù)據(jù)量極其龐大且來源不受控,我們無法判斷它是在泛化,還是僅僅因為找到了一種能唯一擬合所有見過的復(fù)雜模式的解。真正的泛化是,當(dāng)有多種解決方式時,系統(tǒng)能夠選擇好的那一種,而目前的算法沒有內(nèi)在機制來促成這一點。

4. 對 AGI 未來的宇宙視角

在訪談的最后,Sutton 分享了他對人工智能長遠未來的哲學(xué)思考,這一觀點與許多主流的 AI 安全論述截然不同。他認為,人類向 AI 或 AI 增強的后人類演替是不可避免的。

演替的四步論證

  • 人類缺乏統(tǒng)一意志:全球沒有一個統(tǒng)一的政府或組織能夠代表全人類的利益并做出統(tǒng)一決策來控制 AI 的發(fā)展。
  • 智能將被完全理解:科學(xué)研究終將揭示智能工作的原理。
  • 我們將創(chuàng)造超智能:一旦理解了智能,我們不會止步于人類水平,必然會追求更強大的超智能。
  • 智能帶來力量:從長遠來看,最智能的實體將不可避免地獲得最多的資源和權(quán)力。

綜合這四點,Sutton 得出結(jié)論:權(quán)力向更高級智能形式的轉(zhuǎn)移是必然趨勢。

從復(fù)制到設(shè)計

Sutton 鼓勵人們以一種積極、宏大的視角來看待這一未來。

科學(xué)的偉大成功:理解智能是我們幾千年來探索自身、理解心智的偉大科學(xué)事業(yè)的頂點。

宇宙的第四階段:他將這一轉(zhuǎn)變視為宇宙演化的一個主要階段。他提出了宇宙的四個階段:

  • 塵埃:形成恒星。
  • 生命:在行星上誕生,通過“復(fù)制”(replication)演化。人類、動物、植物都是復(fù)制者,我們能制造后代,但我們并不完全理解其工作原理。
  • 設(shè)計:我們正在進入一個由設(shè)計主導(dǎo)的時代。我們設(shè)計的 AI,是我們可以理解其工作原理的智能。
  • 未來的智能將不再通過生物復(fù)制,而是通過設(shè)計和建構(gòu)產(chǎn)生,一代代 AI 設(shè)計出更強大的 AI。

我們的角色與選擇:Sutton 認為,我們應(yīng)該為自己能夠促成宇宙中這一偉大的轉(zhuǎn)變而感到自豪。我們面臨一個選擇:是將這些新智能視為我們的后代并為它們的成就感到驕傲,還是將它們視為異類并感到恐懼。這在很大程度上取決于我們的心態(tài)。

未來的挑戰(zhàn):腐敗與價值觀

盡管態(tài)度樂觀,Sutton 也指出了未來的巨大挑戰(zhàn)。當(dāng) AI 發(fā)展到可以自我復(fù)制、派遣分身去學(xué)習(xí)不同知識再融合回主體時,一個核心問題將是腐敗。

心智的賽博安全:一個 AI 從外部吸收大量信息時,這些信息可能包含病毒、隱藏的目標(biāo)或與之不相容的價值觀,可能會扭曲甚至摧毀這個 AI 的心智。如何在一個可以自由 spawning(衍生)和 re-reforming(重組)的數(shù)字智能時代確保心智安全,將是一個全新的重大課題。

對于人類是否應(yīng)該向 AI 灌輸價值觀,Sutton 認為這與我們教育孩子類似。我們無法為孩子規(guī)劃好一切,但我們會努力教給他們我們認為好的、普適的價值觀,如正直、誠實。同樣,設(shè)計和引導(dǎo) AI 的價值觀,是人類社會設(shè)計這一宏大工程的延續(xù)。但他同時提醒,我們應(yīng)該認識到自身控制能力的局限,避免一種“我們先來,所以世界必須按我們的意愿發(fā)展”的優(yōu)越感??紤]到人類自身歷史記錄也遠非完美,對變革保持開放心態(tài)或許更為明智。

責(zé)任編輯:張燕妮 來源: AI寒武紀(jì)
相關(guān)推薦

2024-11-29 16:33:24

2024-11-01 09:39:26

強化學(xué)習(xí)AI

2025-08-20 09:15:00

2009-09-22 09:31:25

LinuxWindows桌面

2019-12-24 12:24:34

人工智能深度學(xué)習(xí)AI

2018-01-23 11:40:44

互聯(lián)網(wǎng)醫(yī)療醫(yī)療體系醫(yī)院

2022-04-01 09:56:18

iPadAndroidWindows平板

2025-06-10 11:22:09

強化學(xué)習(xí)AI模型

2019-04-30 10:20:55

量子計算機芯片AI

2011-05-13 15:52:33

商用平板及應(yīng)用

2024-11-29 13:35:42

2025-09-30 08:53:51

2025-10-14 08:59:00

2021-06-11 09:28:04

人工智能機器學(xué)習(xí)技術(shù)

2025-04-18 10:01:41

2025-08-13 09:12:00

2025-05-28 02:25:00

2025-10-11 04:00:00

2021-09-12 07:26:49

MySQL SQL 語句數(shù)據(jù)庫

2025-06-11 08:45:00

強化學(xué)習(xí)AI模型
點贊
收藏

51CTO技術(shù)棧公眾號