智能體版《苦澀的教訓》,圖靈獎得主Sutton、谷歌RL大佬Silver新作:超人智能靠經(jīng)驗
人類生成的數(shù)據(jù)推動了人工智能的驚人進步,但接下來會怎樣呢?
幾天前,Google DeepMind 強化學習副總裁 David Silver 參與了一場播客訪談節(jié)目,探討了如何從依賴人類數(shù)據(jù)的時代邁向自主學習的時代。

與此同時,David Silver 和他的老師、2024 年圖靈獎得主 Richard Sutton 合作撰寫的論文《Welcome to the Era of Experience》稱人們正站在人工智能新時代的門檻上,并有望達到前所未有的水平;同時展望了新一代智能體,認為它們將主要通過經(jīng)驗來學習,獲得超越人類的能力。他們還探討了定義這個即將到來的新時代的關鍵特征。
未來,這篇論文將成為 MIT Press 出版的書籍《智能設計》(Designing an Intelligence)中的一個章節(jié)。

論文地址:https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf
從模仿時代到人類數(shù)據(jù)時代再到經(jīng)驗時代,每個時代都有相對應的 AI(或大模型)涌現(xiàn),朝著超人智能不斷邁進。
圖源:https://x.com/MaziyarPanahi/status/1912097667707973858
人類數(shù)據(jù)時代
近年來,人工智能通過在海量人類生成的數(shù)據(jù)上進行訓練,并通過專家人類示例和偏好進行微調(diào),取得了顯著進步。大型語言模型(LLM)就是這種方法的典范,它們已經(jīng)達到了廣泛的通用性水平。如今,單個 LLM 可以執(zhí)行從寫詩和解決物理問題到診斷醫(yī)療問題和總結法律文件的各種任務。
然而,雖然模仿人類足以在很多方面復制人類能力達到勝任的水平,但這種方法單獨使用無法在許多重要主題和任務上實現(xiàn)超人類智能。在數(shù)學、編程和科學等關鍵領域,從人類數(shù)據(jù)中提取的知識正迅速接近極限。高質(zhì)量數(shù)據(jù)源 —— 那些真正能夠提高強大智能體性能的數(shù)據(jù)源 —— 大多已經(jīng)或很快將被消耗殆盡。僅僅依靠從人類數(shù)據(jù)中進行監(jiān)督學習的進步步伐明顯放緩,表明需要一種新的方法。此外,有價值的新見解,如新定理、技術或科學突破,都超出了當前人類理解的邊界,無法通過現(xiàn)有的人類數(shù)據(jù)捕獲。
經(jīng)驗時代
要取得進一步的顯著進步,需要一個新的數(shù)據(jù)來源。這種數(shù)據(jù)的生成方式必須隨著智能體變得更強而不斷改進;任何靜態(tài)的合成數(shù)據(jù)生成程序都會很快被超越。這可以通過讓智能體從自己的經(jīng)驗中持續(xù)學習來實現(xiàn),即由智能體與環(huán)境互動產(chǎn)生的數(shù)據(jù)。AI 正處于新時期的邊緣,在這個時期,經(jīng)驗將成為提升的主要媒介,并最終使當今系統(tǒng)中使用的人類數(shù)據(jù)規(guī)模相形見絀。
這種轉變可能已經(jīng)開始,即使對于體現(xiàn)以人為中心的 AI 的大型語言模型也是如此。例如,數(shù)學能力就是一個例子。AlphaProof 最近成為第一個在國際數(shù)學奧林匹克競賽中獲得獎牌的程序,超越了以人為中心的方法的表現(xiàn)。AlphaProof 最初接觸了大約十萬個由人類數(shù)學家多年創(chuàng)建的形式化證明,隨后其強化學習算法通過與形式化證明系統(tǒng)的持續(xù)互動又生成了一億個證明。這種專注于互動經(jīng)驗的方法使 AlphaProof 能夠探索超出現(xiàn)有形式化證明范圍的數(shù)學可能性,從而發(fā)現(xiàn)解決新穎且具挑戰(zhàn)性問題的方法。非形式化數(shù)學也通過用自生成數(shù)據(jù)替代專家生成數(shù)據(jù)取得了成功;例如,DeepSeek 的最近工作「強調(diào)了強化學習的力量和美學:與其明確教導模型如何解決問題,我們只需提供正確的激勵,它就會自主開發(fā)高級問題解決策略?!?/span>
我們認為,一旦充分利用經(jīng)驗學習的全部潛力,將會出現(xiàn)令人難以置信的新能力。這個經(jīng)驗時代可能的特征是智能體和環(huán)境不僅從大量經(jīng)驗數(shù)據(jù)中學習,還將在以下幾個方面突破以人為中心的 AI 系統(tǒng)的局限:
- 智能體將生活在經(jīng)驗流中,而不是短暫的互動片段中。
- 它們的行動和觀察將深深扎根于環(huán)境中,而不僅僅通過人類對話進行互動。
- 它們的獎勵將基于環(huán)境中的經(jīng)驗,而不是來自人類的預先判斷。
- 它們將根據(jù)經(jīng)驗進行規(guī)劃和/或推理,而不是僅僅以人類的方式進行推理。
我們相信,今天的技術,配合適當選擇的算法,已經(jīng)提供了足夠強大的基礎來實現(xiàn)這些突破。此外,AI 社區(qū)對這一議程的追求將刺激這些方向上的新創(chuàng)新,迅速推動 AI 向真正超人類智能體的方向發(fā)展。
經(jīng)驗流
一個經(jīng)驗型智能體可以在整個生命周期中持續(xù)學習。在人類數(shù)據(jù)時代,基于語言的 AI 主要關注短時互動情節(jié):例如用戶提出問題,然后(可能經(jīng)過幾個思考步驟或工具使用操作后)智能體作出回應。通常情況下,從一個情節(jié)到下一個情節(jié)幾乎沒有信息傳遞,排除了隨時間適應的可能性。此外,智能體的目標完全在于當前情節(jié)的結果,例如直接回答用戶的問題。
相比之下,人類(和其他動物)存在于持續(xù)數(shù)年的行動和觀察流中。信息貫穿整個流程,其行為根據(jù)過去的經(jīng)驗調(diào)整以自我糾正和改進。此外,目標可能根據(jù)延伸到流程未來的行動和觀察來指定:例如人類可能選擇行動來實現(xiàn)長期目標,如改善健康、學習語言或實現(xiàn)科學突破。
強大的智能體應該有自己的經(jīng)驗流,像人類一樣,在長時間尺度上發(fā)展。這將使智能體能夠采取行動實現(xiàn)未來目標,并隨著時間的推移不斷適應新的行為模式。例如,連接到用戶可穿戴設備的健康和健身智能體可以在幾個月內(nèi)監(jiān)測睡眠模式、活動水平和飲食習慣。然后,這些智能體可以提供個性化建議、鼓勵,并根據(jù)長期趨勢和用戶的具體健康目標調(diào)整其指導。
類似地,個性化教育智能體可以跟蹤用戶學習新語言的進度,識別知識差距,適應其學習風格,并在數(shù)月甚至數(shù)年內(nèi)調(diào)整其教學方法。此外,科學智能體可以追求更宏大的目標,例如發(fā)現(xiàn)新材料或減少二氧化碳。這樣的智能體可以在較長時間內(nèi)分析現(xiàn)實世界的觀察結果,開發(fā)和運行模仿,并建議現(xiàn)實世界進行實驗或干預措施。
在每種情況下,智能體都會采取一系列步驟,以便針對特定目標最大化長期成功。單個步驟可能不會提供任何即時利益,甚至可能在短期內(nèi)產(chǎn)生不利影響,但總體上可能有助于長期成功。這與當前 AI 系統(tǒng)形成強烈對比,后者對請求提供即時響應,而沒有能力測量或優(yōu)化其行動對環(huán)境的未來后果。
行動和觀察
經(jīng)驗時代的智能體將在現(xiàn)實世界中自主行動。人類數(shù)據(jù)時代的 LLM 主要關注人類特殊的行動和觀察,向用戶輸出文本,并將用戶的文本輸入回智能體。這與自然智能有明顯不同,在自然智能中,動物通過運動控制和感官與環(huán)境互動。雖然動物,尤其是人類,可能與其他動物交流,但這種交流通過與其他感官運動控制相同的接口進行,而不是通過特殊通道。
長期以來,人們認識到 LLM 也可以在數(shù)字世界中調(diào)用行動,例如通過調(diào)用 API。最初,這些能力很大程度上來自于人類工具使用的例子,而不是來自智能體的經(jīng)驗。然而,編程和工具使用能力越來越多地建立在執(zhí)行反饋上,智能體實際運行代碼并觀察發(fā)生了什么。
最近,一波新型原型智能體開始以更普遍的方式與計算機互動,使用與人類操作計算機相同的接口。這些變化預示著從專屬的人類特殊通信,向更加自主的互動轉變,使智能體能夠在世界上獨立行動。這樣的智能體將能夠主動探索世界,適應不斷變化的環(huán)境,并發(fā)現(xiàn)人類可能永遠不會想到的策略。
這些更豐富的互動將提供一種自主理解和控制數(shù)字世界的方式。智能體可能使用「人類友好」的行動和觀察,如用戶界面,自然促進與用戶的溝通和協(xié)作。智能體還可能采取「機器友好」的行動,執(zhí)行代碼并調(diào)用 API,使智能體能夠自主服務于其目標。
在經(jīng)驗時代,智能體還將通過數(shù)字接口與現(xiàn)實世界互動。例如,科學智能體可以監(jiān)測環(huán)境傳感器,遠程操作望遠鏡,或控制實驗室中的機械臂,自主進行實驗。
獎勵
如果經(jīng)驗智能體可以從外部事件和信號中學習,而不僅僅是人類偏好,會怎樣?以人為中心的 LLM 通常根據(jù)人類預先判斷優(yōu)化獎勵:專家觀察智能體的行動并決定它是否是一個好的行動,或者在多個備選方案中選擇最佳智能體行動。
這些獎勵或偏好由人類在不考慮其后果的情況下決定,而不是測量這些行動對環(huán)境的影響,這意味著它們并不直接以現(xiàn)實世界為基礎。以這種方式依賴于人的預判通常會導致智能體的表現(xiàn)出現(xiàn)不可逾越的上限:智能體無法發(fā)現(xiàn)被人類評價者低估的更好的策略。
為了發(fā)現(xiàn)遠超現(xiàn)有人類知識的新想法,必須使用基礎獎勵,即來自環(huán)境本身的信號。例如,健康助手可以根據(jù)用戶的靜息心率、睡眠時間等信號組合,將用戶的健康目標轉化為獎勵。而教育助理可以使用考試成績?yōu)檎Z言學習提供基礎獎勵。類似地,以減少全球變暖為目標的科學智能體可能使用基于二氧化碳水平的經(jīng)驗觀察作為獎勵,而發(fā)現(xiàn)更強材料的目標可能基于材料模仿器的測量組合,如抗拉強度或楊氏模量。
基礎獎勵可能來自作為智能體環(huán)境一部分的人類。例如,人類用戶可以報告他們是否發(fā)現(xiàn)蛋糕美味、鍛煉后的疲勞程度或頭痛的疼痛水平,使助手智能體能夠提供更好的食譜,完善其健身建議或改進其推薦的藥物。這些獎勵測量智能體行動在其環(huán)境中的后果,最終應該比預先判斷的提議更有效。
除了人類數(shù)據(jù),獎勵還能從何而來?一旦智能體通過豐富的行動和觀察空間連接到世界,將不缺乏提供獎勵基礎的基礎信號。事實上,世界充滿了諸如成本、錯誤率、饑餓、生產(chǎn)力、健康指標、氣候指標、利潤、銷量、考試結果、成功與否、訪問量、產(chǎn)量、股票、收入、愉悅 / 痛苦、經(jīng)濟指標、準確性、功率、距離、速度、效率或能源消耗等數(shù)量。此外,還有無數(shù)來自特定事件或從原始觀察和行動序列派生的特征的額外信號。
原則上,可以創(chuàng)建各種不同的智能體,每個智能體都將一個基礎信號優(yōu)化為其獎勵。有一種觀點認為,即使是單一的獎勵信號,如果得到高效優(yōu)化,也足以誘導廣泛的智能能力。這是因為在復雜環(huán)境中實現(xiàn)一個簡單目標可能經(jīng)常需要掌握各種各樣的技能。然而,追求單一獎勵信號表面上并不符合通用 AI 的要求,即可靠地引導向用戶期望的任意行為。
那么,自主優(yōu)化基礎的、非人類的獎勵信號是否與現(xiàn)代 AI 系統(tǒng)的要求相矛盾?通過概述一種可能滿足這些需求的方法,我們認為不一定如此;其他方法也可能存在。
這個想法是靈活地調(diào)整獎勵,基于基礎信號,以用戶引導的方式。例如,獎勵函數(shù)可以由神經(jīng)網(wǎng)絡定義,該網(wǎng)絡將智能體與用戶和環(huán)境的互動作為輸入,并輸出標量獎勵。這允許獎勵以依賴于用戶目標的方式從環(huán)境中選擇或組合信號。例如,用戶可能指定一個廣泛的目標,如「改善我的健康狀況」,而獎勵函數(shù)可能返回用戶心率、睡眠時長和步數(shù)的函數(shù)。或者用戶可能指定「幫助我學習西班牙語」的目標,獎勵函數(shù)可以返回用戶的西班牙語考試結果。
此外,用戶可以在學習過程中提供反饋,如他們的滿意度,這可以用來微調(diào)獎勵函數(shù)。然后,獎勵函數(shù)可以隨著時間的推移進行調(diào)整,以改進它選擇或組合信號的方式,并識別和糾正任何不一致。這也可以理解為一個雙層優(yōu)化過程,將用戶反饋作為頂層目標進行優(yōu)化,并在低層優(yōu)化來自環(huán)境的基礎信號。以這種方式,少量的人類數(shù)據(jù)可能促進大量的自主學習。
規(guī)劃和推理
經(jīng)驗時代會改變智能體規(guī)劃和推理的方式嗎?最近,通過在輸出響應之前遵循思維鏈,使用具備語言推理或「思考」的 LLM 取得了顯著進展。在概念上,LLM 可以作為通用計算機:LLM 可以將 token 附加到自己的上下文中,允許它在輸出最終結果之前執(zhí)行任意算法。
在人類數(shù)據(jù)時代,這些推理方法被明確設計為模仿人類的思維過程。例如,LLM 被提示發(fā)出類似人類的思維鏈,模仿人類思維的痕跡,或強化與人類示例匹配的思考步驟。推理過程可能進一步微調(diào),以產(chǎn)生與正確答案相匹配的思考痕跡,由人類專家確定。
然而,人類語言不太可能提供通用計算機的最佳實例??隙ù嬖诟行У乃季S機制,使用非人類語言,例如利用符號、分布式、連續(xù)或可微分計算。一個自學習系統(tǒng)原則上可以通過從經(jīng)驗中學習如何思考來發(fā)現(xiàn)或改進其方法。例如 AlphaProof 學會了以與人類數(shù)學家完全不同的方式形式化證明復雜定理。
此外,通用計算機的原理只涉及智能體的內(nèi)部計算;它沒有將其連接到外部世界的現(xiàn)實。訓練模仿人類思想甚至匹配人類專家答案的智能體可能會繼承深植于數(shù)據(jù)中的謬誤思維方法,如錯誤假設或固有偏見。例如,如果智能體被訓練使用 5000 年前的人類思想和專家答案進行推理,它可能會以「萬物有靈論」的方式推理物理問題;1000 年前可能以有神論的方式推理;300 年前可能以牛頓力學的方式推理;50 年前可能以量子力學的方式推理。
超越每種思維方法需要與現(xiàn)實世界互動:提出假設,進行實驗,觀察結果,并據(jù)此更新原則。同樣,智能體必須基于現(xiàn)實世界數(shù)據(jù),才能推翻謬誤的思維方法。這種基礎提供了一個反饋循環(huán),允許智能體將其繼承的假設與現(xiàn)實對比,并發(fā)現(xiàn)不受當前主導人類思維模式限制的新原則。沒有這種基礎,無論多復雜,智能體都將成為現(xiàn)有人類知識的「回聲室」。要超越這一點,智能體必須積極參與世界,收集觀察數(shù)據(jù),并使用這些數(shù)據(jù)迭代地完善其理解,在許多方面反映了推動人類科學進步的過程。
直接將思維植根于外部世界的一種可能方式是建立一個世界模型,預測智能體行動對世界的后果,包括預測獎勵。例如,健康助手可能考慮推薦當?shù)亟∩矸炕蚪】挡タ汀V悄荏w世界模型可能預測用戶心率或睡眠模式在此行動后如何變化,以及與用戶的未來對話。這使智能體能夠直接按照自己的行動及其對世界的因果影響進行規(guī)劃。隨著智能體在其經(jīng)驗流中繼續(xù)與世界互動,其動態(tài)模型不斷更新,以糾正預測中的任何錯誤。
給定一個世界模型,智能體可以應用可擴展的規(guī)劃方法,提高智能體的預測性能。規(guī)劃和推理方法并不相互排斥:智能體可以應用內(nèi)部 LLM 計算來選擇規(guī)劃期間的每個行動,或模仿和評估這些行動的后果。
為什么是現(xiàn)在?
從經(jīng)驗中學習并不新鮮。強化學習系統(tǒng)之前已經(jīng)掌握了大量復雜任務,這些任務在模仿器中表示,具有明確的獎勵信號(大致對應圖 1 中的「模仿時代」)。例如,RL 方法通過自我對弈在棋盤游戲中達到或超過了人類表現(xiàn),如西洋雙陸棋、圍棋、國際象棋、撲克和策略游戲;視頻游戲如雅達利系列游戲、星際爭霸 II、刀塔 2 和 GT 賽車;靈巧操作任務如魔方;以及資源管理任務如數(shù)據(jù)中心冷卻。
此外,像 AlphaZero 這樣強大的 RL 智能體表現(xiàn)出令人印象深刻的潛在無限可擴展性,隨著神經(jīng)網(wǎng)絡的大小、互動經(jīng)驗的數(shù)量和思考時間的增加而擴展。然而,基于這一范式的智能體并沒有跨越從模仿(具有單一、精確定義獎勵的封閉問題)到現(xiàn)實(具有多種看似定義不明確的獎勵的開放性問題)的鴻溝。

圖 1:主流人工智能范式的簡要時間線??v軸顯示該領域在強化學習(RL)上的總體努力和計算資源的占比。
人類數(shù)據(jù)時代提供了一個吸引人的解決方案。海量的人類數(shù)據(jù)語料庫包含了大量任務的自然語言示例。與模擬時代相對有限的成功相比,基于這些數(shù)據(jù)訓練的智能體實現(xiàn)了廣泛的技能。因此,經(jīng)驗式強化學習的方法論被廣泛摒棄,轉而支持更具通用性的智能體,從而推動了人工智能向以人類為中心的方向廣泛轉變。
然而,在這一轉變中失去了一些東西:智能體自我發(fā)現(xiàn)知識的能力。例如,AlphaZero 發(fā)現(xiàn)了國際象棋和圍棋的根本性新策略,改變了人類玩這些游戲的方式。經(jīng)驗時代將把這種能力與人類數(shù)據(jù)時代所實現(xiàn)的任務通用性水平結合起來。正如上面所概述的,當智能體能夠在現(xiàn)實世界經(jīng)驗流中自主行動和觀察,并且獎勵可以靈活地連接到任何基礎的現(xiàn)實世界信號時,這將成為可能。
與復雜現(xiàn)實世界行動空間互動的自主智能體的出現(xiàn),加上能夠在豐富推理空間中解決開放性問題的強大 RL 方法,表明向經(jīng)驗時代的轉變即將來臨。
強化學習方法
強化學習有著悠久的歷史,深深植根于自主學習,其中智能體通過與環(huán)境的直接交互進行自我學習。早期的強化學習研究催生了一系列強大的概念和算法。例如,時序差分學習使智能體能夠預估未來的獎勵,并取得了一些突破,例如在西洋雙陸棋比賽中取得了超越人類的表現(xiàn)。由樂觀或好奇心驅動的探索技術被開發(fā)出來,幫助智能體發(fā)現(xiàn)創(chuàng)造性的新行為,并避免陷入次優(yōu)的做法。比如,像 Dyna 算法這樣的方法使智能體能夠構建和學習其所處世界的模型,從而使它們能夠規(guī)劃和推理未來的行動。再比如選項和選項內(nèi) / 選項間學習之類的概念促進了時間抽象,使智能體能夠在更長的時間尺度上進行推理,并將復雜的任務分解為可管理的子目標。
然而,以人為中心的 LLM 的興起將重點從自主學習轉移到利用人類知識。比如 RLHF(基于人類反饋的強化學習)之類的技術以及將語言模型與人類推理能力相結合的方法,已被證明極其有效,推動了人工智能能力的快速發(fā)展。這些方法雖然功能強大,但往往繞過了強化學習的核心概念:RLHF 通過調(diào)用人類專家代替機器估值來回避對價值函數(shù)的需求;來自人類數(shù)據(jù)的強先驗知識減少了對探索的依賴;以人為中心的推理減少了對世界模型和時間抽象的需求。
有人可能會認為,這種范式轉變?nèi)缤赴押⒆雍拖丛杷黄鸬沟簟?。以人為中心的強化學習雖然實現(xiàn)了前所未有的行為廣度,但也給智能體的性能設定了新的上限:智能體無法超越現(xiàn)有的人類知識。此外,人類數(shù)據(jù)時代主要關注的是那些為短時間、無根基的人機交互而設計的強化學習方法,而這些方法并不適用于長時間、有根基的自主交互。
經(jīng)驗時代為重新審視和改進經(jīng)典強化學習概念提供了機會。經(jīng)驗時代將帶來新的思考獎勵函數(shù)的方式,這些獎勵函數(shù)可以靈活地以觀察數(shù)據(jù)為基礎。經(jīng)驗時代還將重新審視價值函數(shù)以及從序列尚未完成的長流中估計它們的方法。同時將帶來原則性且實用的現(xiàn)實世界探索方法,從而發(fā)現(xiàn)與人類先驗截然不同的新行為。
新的世界模型方法將被開發(fā)出來,以捕捉有根基交互的復雜性。新的時間抽象方法將使智能體能夠基于,在更長的時間尺度內(nèi)進行推理。通過構建強化學習的基礎,并使其核心原則適應新時代的挑戰(zhàn),我們能夠充分釋放自主學習的潛力,為真正的超人(superhuman)智能鋪平道路。
后果
經(jīng)驗時代的到來,AI 智能體從與世界的互動中學習,預示著未來將與我們之前所見的一切大相徑庭。這一新范式雖然提供了巨大的潛力,但也提出了需要仔細考慮的重要風險和挑戰(zhàn),包括但不限于以下幾點。
從積極的一面來看,實驗式學習將釋放前所未有的能力。在日常生活中,個性化助手將利用連續(xù)的經(jīng)驗流來適應個人在健康、教育或專業(yè)需求方面的長期目標,跨越數(shù)月或數(shù)年。也許最具變革性的將是科學發(fā)現(xiàn)的加速。AI 智能體將在材料科學、醫(yī)學或硬件設計等領域自主設計和進行實驗。通過不斷從自己的實驗結果中學習,這些智能體可以以前所未有的速度快速探索知識的新前沿,開發(fā)出新材料、藥物和技術。
然而,這個新時代也帶來了新的重大挑戰(zhàn)。雖然人類能力的自動化有望提高生產(chǎn)力,但這些改進也可能導致工作崗位的流失。智能體甚至可能展現(xiàn)出以前被認為是人類專屬領域的能力,如長期問題解決、創(chuàng)新和對現(xiàn)實世界后果的深入理解。
此外,盡管對任何人工智能的潛在濫用都存在普遍擔憂,但能夠在長時間內(nèi)自主與世界互動以實現(xiàn)長期目標的智能體可能會帶來更大的風險。默認情況下,這為人類提供了較少的介入和調(diào)解智能體的機會,因此需要更高的信任和責任標準。遠離人類數(shù)據(jù)和人類思維模式也可能使未來的 AI 系統(tǒng)更難解讀。
然而,雖然認識到經(jīng)驗學習將增加某些安全風險,肯定需要進一步研究以確保安全過渡到經(jīng)驗時代,我們也應該認識到它可能帶來一些重要的安全益處。
首先,智能體感知到其所處的環(huán)境,其行為可以隨著時間的推移適應環(huán)境的變化。任何預編程系統(tǒng),包括固定的 AI 系統(tǒng),可能不了解其環(huán)境背景,并且無法適應其部署的不斷變化的世界。例如,關鍵硬件可能發(fā)生故障,大流行病可能會導致社會迅速變革,或新的科學發(fā)現(xiàn)可能觸發(fā)一系列快速的技術發(fā)展。相比之下,智能體可以觀察并學習規(guī)避故障硬件,適應快速的社會變化,或接受并建立在新的科學和技術上。也許更重要的是,智能體可以識別其行為何時引發(fā)人類關注、不滿或痛苦,并適應性地修改其行為以避免這些負面后果。
其次,智能體的獎勵函數(shù)本身可以通過經(jīng)驗進行調(diào)整,例如使用前面描述的雙層優(yōu)化(見獎勵)。重要的是,這意味著當獎勵函數(shù)出現(xiàn)價值偏差時,通??梢酝ㄟ^試錯逐漸糾正。例如,與其盲目地優(yōu)化一個信號(如回形針的最大化生產(chǎn)),不如根據(jù)人類擔憂的跡象修改獎勵函數(shù),以免回形針生產(chǎn)消耗地球上所有資源。這類似于人類為彼此設定目標的方式,然后如果他們觀察到人們利用系統(tǒng)、忽視長期福祉或導致不希望的負面后果,就調(diào)整這些目標;當然,正如人類自身的目標設定過程,這種調(diào)節(jié)機制也無法確保絕對的價值對齊。
最后,依賴物理經(jīng)驗的進步,本質(zhì)上受到在現(xiàn)實世界中執(zhí)行行動并觀察其后果所需的時間的限制。例如,開發(fā)一種新藥,即使有 AI 輔助設計,仍然需要在現(xiàn)實世界中試驗,而這些試驗不可能在一夜之間完成。這可能為潛在的 AI 自我改進速度產(chǎn)生一個自然的抑制作用。
結論
經(jīng)驗時代標志著人工智能發(fā)展的一個關鍵轉折點。在現(xiàn)有的堅實基礎上,智能體將超越人類生成數(shù)據(jù)的局限性,越來越多地從與世界的互動中學習。智能體將通過豐富的觀察和行動自主與環(huán)境交互,并在終身經(jīng)驗流中持續(xù)適應。它們的目標可以被引導至任何基于環(huán)境信號的組合。此外,智能體將利用強大的非人類推理能力,并制定基于其行為對環(huán)境影響的計劃。最終,經(jīng)驗數(shù)據(jù)將在規(guī)模和質(zhì)量上超越人類生成的數(shù)據(jù)。這種范式轉變,伴隨著強化學習算法的進步,將在許多領域釋放出超越人類能力的新能力。





























