強(qiáng)化學(xué)習(xí)之父Richard Sutton最新演講揭示OaK架構(gòu):通向超級智能的八步愿景
強(qiáng)化學(xué)習(xí)之父、2024 年 ACM 圖靈獎得主 Richard Sutton 今天分享了他在 RLC 2025(強(qiáng)化學(xué)習(xí)會議) 和 AGI 2025 上發(fā)表的遠(yuǎn)程演講《OaK 架構(gòu):一個(gè)基于經(jīng)驗(yàn)的超級智能愿景》。

演講中,Sutton 介紹了他認(rèn)為有望實(shí)現(xiàn)通用人工智能乃至超級智能的路徑:
- 他回顧了長期以來對簡單且通用的 AI 智能體架構(gòu)的追求
- 強(qiáng)調(diào)了從經(jīng)驗(yàn)中學(xué)習(xí)、擬合世界的重要性
- 介紹了現(xiàn)有的常用智能體模型的架構(gòu)及其缺陷
- 最終引出了演講主旨:OaK 架構(gòu)。
Sutton 在介紹 OaK 架構(gòu)的基礎(chǔ)上,也對實(shí)現(xiàn) OaK 架構(gòu)所需的八個(gè)步驟進(jìn)行了詳細(xì)拆解,并指出了目前未能實(shí)現(xiàn)的部分和可能的發(fā)展路徑??芍^干貨滿滿。
雖然說 OaK 架構(gòu)并不是目前能夠?qū)崿F(xiàn)的完整算法或管線,只是一個(gè)愿景,但是 Sutton 為 AI(尤其是 AGI)的發(fā)展拆解了目標(biāo),提供了一張清晰的路線圖和研究目標(biāo)。
機(jī)器之心對 Sutton 的這次演講進(jìn)行了整理,以饗讀者。

視頻地址:https://www.youtube.com/live/XqYTQfQeMrE?t=22620s
OaK 架構(gòu)目前還只是一個(gè)愿景,尚沒有完整的算法,它還需要一些尚未實(shí)現(xiàn)的先決條件。這個(gè)先決條件就是一個(gè)能夠不斷學(xué)習(xí)和提升的深度學(xué)習(xí)算法。讓我驚訝的是,到目前為止,我們都還沒有這樣一個(gè)算法。
在開始之前,我想介紹一下我創(chuàng)立的 Openmind Research Institute,這是一家研究與心智相關(guān)的強(qiáng)化學(xué)習(xí)方法的研究所。如果你是對此方向感興趣的年輕人,可以考慮申請加入我們。
下面正式進(jìn)入主題。這是本次演講的提綱。

首先,我要介紹的是我追尋的目標(biāo) —— 一種簡單且通用的 AI 智能體架構(gòu)。然后我將介紹如何在這個(gè)大而復(fù)雜的世界中學(xué)習(xí),之后將進(jìn)入 OaK 架構(gòu)本身以及超級智能的愿景。
Sutton 追尋的目標(biāo)
我追尋的目標(biāo)是一種簡單且通用的 AI 智能體架構(gòu)。

「通用」是指該架構(gòu)不包含特定于任何世界的東西,因此其中不包含任何領(lǐng)域知識。
然后,該架構(gòu)需要是「經(jīng)驗(yàn)的(experiential)」,也就是說,它會隨著運(yùn)行時(shí)間經(jīng)驗(yàn)(如上圖右側(cè)小圖的紅色箭頭所示)而成長,而不是僅僅依賴某個(gè)專門的訓(xùn)練階段。
具體來說,「經(jīng)驗(yàn)」是指一種未經(jīng)標(biāo)注、未經(jīng)解釋的信息。由于我們追求的是通用設(shè)計(jì),因此這些信息不包含任何與特定世界相關(guān)的內(nèi)容?!赣^察」就只是一些信息、事物之間的差別,智能體需要通過自身的體驗(yàn)去理解和解釋這些信息。
最后,也可能是最重要的一點(diǎn),是「開放式抽象(open-ended abstraction)」的概念。我們希望智能體能夠不斷發(fā)展自身的概念(concept)體系、思維方式和行為中的常見模式,并且這種抽象能力在復(fù)雜性上不設(shè)上限,當(dāng)然唯一的限制是它的計(jì)算資源。
為了幫助大家理解我的思路,我想說明:抽象通常有兩種主要形式。
抽象本質(zhì)上是指從世界中提取出某些「特征」—— 這些特征可用于幫助理解這個(gè)世界。這里所說的「特征(feature)」,可以理解為線索、方式、概念或者某種在試圖理解世界時(shí)所構(gòu)建出的信號結(jié)構(gòu)(進(jìn)而幫助你做出決策)。
因此,我們希望能夠?qū)ふ摇负玫奶卣鳌?,更?zhǔn)確地說,是「狀態(tài)特征」(state features)。這是一類描述當(dāng)前情境的有用抽象。其次,我們還需要尋找好的「時(shí)間抽象」(temporal abstractions),也就是比單一動作更高層次的行為單位 —— 一種在時(shí)間尺度上更大的「可以做的事情」。
比如說,「走去上班」、「打開門」或者「撿起一個(gè)物體」就是典型的時(shí)間抽象。我們接下來會詳細(xì)討論這些內(nèi)容。
這正是我們所追求的目標(biāo)。
從經(jīng)驗(yàn)學(xué)習(xí)
這里,我要引入兩個(gè)非常關(guān)鍵的概念:設(shè)計(jì)時(shí)(design time)和運(yùn)行時(shí)(runtime)。

設(shè)計(jì)時(shí)是指智能體還未被部署到環(huán)境中、尚未開始獲取獎勵階段的時(shí)間段。在這個(gè)階段,人們可以將領(lǐng)域知識嵌入智能體中。當(dāng)然,我本人并不推崇這種做法,反而希望盡量減少這種預(yù)注入。
而在運(yùn)行時(shí)階段,指的是智能體已經(jīng)處于環(huán)境中,依賴經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)、并制定與當(dāng)前世界狀態(tài)相匹配的規(guī)劃。
我要重點(diǎn)強(qiáng)調(diào)的是在運(yùn)行時(shí)階段根據(jù)經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。
在一個(gè)龐大且復(fù)雜的世界中,情況往往是難以預(yù)判的。如果我們只依賴設(shè)計(jì)時(shí)的構(gòu)建,這是遠(yuǎn)遠(yuǎn)不夠的。尤其是當(dāng)我們關(guān)注的是「開放式抽象」時(shí),就必須依賴運(yùn)行時(shí)去主動發(fā)現(xiàn)它們。那些在設(shè)計(jì)時(shí)就被預(yù)設(shè)好的「非開放式抽象」并不能滿足需求。因此,一切必須在運(yùn)行時(shí)完成,真正的智能必須靠運(yùn)行時(shí)來驅(qū)動。
既然一切都需要在運(yùn)行時(shí)完成,那為什么還要在設(shè)計(jì)時(shí)做任何事呢?事實(shí)上,這些預(yù)設(shè)反而會使設(shè)計(jì)更加復(fù)雜。因此,我們不妨將「設(shè)計(jì)」本身看作是對智能的一種理解方式,而非僅僅是為了制造某個(gè)產(chǎn)品。
如果你的目標(biāo)是打造一個(gè)具體的產(chǎn)品,那么在設(shè)計(jì)時(shí)引入一些信息或背景知識可能是有意義的。但如果目標(biāo)是理解「心智」的本質(zhì),那你就希望這個(gè)系統(tǒng)盡可能地簡潔純粹。也正因?yàn)槿绱?,設(shè)計(jì)時(shí)我們應(yīng)當(dāng)盡量去除所有不必要的復(fù)雜性。
我想在這里再補(bǔ)充一點(diǎn):如果我們的目標(biāo)是理解智能,那么理想的智能體架構(gòu)就不應(yīng)該在設(shè)計(jì)時(shí)對任何特定世界做出預(yù)設(shè)承諾。
正如我在《苦澀的教訓(xùn)(The Bitter Lesson)》博客中所指出的:心智的實(shí)際內(nèi)容,屬于任意的、固有復(fù)雜的外部世界的一部分。

由于世界的復(fù)雜性是無窮無盡的,因此這種復(fù)雜性不應(yīng)當(dāng)被直接預(yù)設(shè)到系統(tǒng)中。相反,我們應(yīng)當(dāng)預(yù)設(shè)的,只是那些可以主動發(fā)現(xiàn)并捕捉復(fù)雜性的元方法(meta-methods)。我們所追求的是像人類一樣具有發(fā)現(xiàn)能力的 AI 智能體,而不是那些僅僅包含我們已經(jīng)發(fā)現(xiàn)的知識的系統(tǒng)。
這就是基本的思想,也因此,為了實(shí)現(xiàn)「通用性」,我們需要刻意弱化領(lǐng)域知識的作用。
那么,我想問大家一個(gè)問題:我們是否應(yīng)該讓智能體通過特別準(zhǔn)備的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)?還是說,我們應(yīng)該嚴(yán)格限制它只能通過運(yùn)行時(shí)的經(jīng)驗(yàn)來學(xué)習(xí)?

對我來說,答案是明確無疑的。我認(rèn)為,這正是智能(尤其是強(qiáng)化學(xué)習(xí))的真正力量所在:它能夠從未經(jīng)預(yù)設(shè)的運(yùn)行時(shí)經(jīng)驗(yàn)中學(xué)習(xí)。
因此,我想明確表達(dá)我的立場:智能體應(yīng)該只從運(yùn)行時(shí)經(jīng)驗(yàn)中學(xué)習(xí)。
這正是我所說的「智能體應(yīng)當(dāng)是完全基于經(jīng)驗(yàn)的」的含義所在。
世界太復(fù)雜,只能近似
我之前提到過「大世界」的視角。我們可以設(shè)想一下我們的智能體,它就像一個(gè)人,與這個(gè)世界相比,它是渺小的 —— 甚至是遠(yuǎn)遠(yuǎn)小于這個(gè)世界的。

這個(gè)世界不僅包含了各種物體、地點(diǎn)以及物理世界的復(fù)雜性,還包含了大量其他智能體。而這些其他智能體的內(nèi)在心理活動,對于我們的智能體而言是極其重要的。
智能體之所以能做出「正確的行為」,是因?yàn)樗軌蚺c人類進(jìn)行互動 —— 比如與它的上司、配偶、朋友。而這些人的內(nèi)心活動對它而言至關(guān)重要,正如此刻你們在思考什么對我來說也很重要一樣。
正因如此,世界的復(fù)雜性遠(yuǎn)遠(yuǎn)超出了智能體的處理能力,并且這種不對稱是不可避免的。因此,智能體所學(xué)到的任何知識都不可能是「完全正確」的,它也不可能實(shí)現(xiàn)真正的「最優(yōu)」行為。
凡是涉及「最優(yōu)性」或「正確性」的定理,在現(xiàn)實(shí)環(huán)境中都不具備實(shí)際意義。我們必須清楚地認(rèn)識到:這些定理在現(xiàn)實(shí)世界中的適用性是極其有限的,甚至是無關(guān)緊要的。
你所構(gòu)建的價(jià)值函數(shù)必須是近似的,你的策略也必須是近似的。你的狀態(tài)轉(zhuǎn)移模型,尤其是你對整個(gè)世界的模型,必然要比真實(shí)世界簡單得多。因此,它注定是不準(zhǔn)確的,它只能是近似的。
甚至對于世界的某個(gè)狀態(tài),你都不可能真正將其完整地保留在大腦中,因?yàn)橐粋€(gè)世界狀態(tài)可能包含了其他所有智能體內(nèi)心正在發(fā)生的事情。而你自己的認(rèn)知能力,也不可能比所有其他智能體的總和還要復(fù)雜。因此,準(zhǔn)確建模整個(gè)世界狀態(tài)本身就是不現(xiàn)實(shí)的。
由此還引出一個(gè)更進(jìn)一步、但更微妙的推論:世界在你看來是非平穩(wěn)的(non-stationary)。因?yàn)槟悴⒉恢拉h(huán)境中真正發(fā)生了什么,它在不同時(shí)間點(diǎn)表現(xiàn)出的狀態(tài)也會有所不同。例如,當(dāng)你開車行駛在路上時(shí),看到前方有一輛車,你并不知道它會向右轉(zhuǎn)還是向左轉(zhuǎn)。
當(dāng)然,這種行為并非真正隨機(jī) —— 對方駕駛者腦中的決策過程可能是確定性的,但從你的角度來看,它表現(xiàn)出來的就是非平穩(wěn)的:有時(shí)它轉(zhuǎn)向右,有時(shí)轉(zhuǎn)向左,行為似乎在變化。
因此,面對這些現(xiàn)實(shí)中的不確定性,你必須在運(yùn)行時(shí)進(jìn)行學(xué)習(xí),在運(yùn)行時(shí)進(jìn)行規(guī)劃,并且必須在運(yùn)行時(shí)自主發(fā)現(xiàn)所需的抽象結(jié)構(gòu)。你出生、成長、進(jìn)入這個(gè)世界,而后必須逐步弄清楚:這個(gè)世界由哪些物體構(gòu)成、有哪些人、這個(gè)世界是如何運(yùn)作的、社會制度是如何組織的 —— 你必須在運(yùn)行時(shí)去弄清這一切。這些內(nèi)容不可能在設(shè)計(jì)階段就預(yù)先嵌入,因此我們強(qiáng)烈主張應(yīng)摒棄設(shè)計(jì)時(shí)注入的知識結(jié)構(gòu)。
強(qiáng)化學(xué)習(xí)及其獎勵
在介紹 OaK 架構(gòu)之前,我先從更宏觀的角度談?wù)勔话阈缘?AI 問題。AI 研究的目標(biāo)是設(shè)計(jì)出一個(gè)有效的智能體,它能夠在現(xiàn)實(shí)世界中完成目標(biāo)。

強(qiáng)化學(xué)習(xí)研究的問題其實(shí)一樣,只不過它采用了一種更具體的形式:用一個(gè)標(biāo)量信號獎勵來表示智能體的目標(biāo)。關(guān)于這一點(diǎn),我稍后進(jìn)一步解釋。
其次(這點(diǎn)更貼近強(qiáng)化學(xué)習(xí)的核心假設(shè)),我們通常假設(shè)世界是通用的,并且無法被完全知曉。這個(gè)「世界」可能是一個(gè)簡單的網(wǎng)格環(huán)境,也可能是一個(gè)高度復(fù)雜的、充滿人類行為的現(xiàn)實(shí)世界。它可能是隨機(jī)的、復(fù)雜的、非馬爾可夫的、非線性的。
正如我之前所說,它的狀態(tài)空間可以說是無限的,并且它的動態(tài)演化在我們看來也是非平穩(wěn)的。
我們必須在運(yùn)行時(shí)進(jìn)行學(xué)習(xí)與決策,并且這一過程不能依賴來自教師或人類的特殊訓(xùn)練信號。這是一個(gè)極具挑戰(zhàn)性的問題,但我認(rèn)為這個(gè)問題本身非常好,我們無需改變問題設(shè)定。我們已經(jīng)擁有了「獎勵信號」這一設(shè)定,這就足夠了,我們只需要努力去解決這個(gè)問題即可。
我還想補(bǔ)充說明一點(diǎn):在這里我們假設(shè)智能體的瓶頸是計(jì)算資源,而不是數(shù)據(jù)量。我們認(rèn)為環(huán)境能夠提供豐富的數(shù)據(jù)。因此我們希望使用流式算法來處理這些數(shù)據(jù),而不依賴像 replay buffer 這類機(jī)制。
前面我提到,智能體的目標(biāo)是通過一個(gè)標(biāo)量信號來定義的?,F(xiàn)在我想再展開講一下,這就是所謂的「獎勵假設(shè)(reward hypothesis)」。

獎勵假設(shè)的核心觀點(diǎn)是:我們所說的「目標(biāo)」和「目的」,都可以被很好地形式化為最大化某個(gè)標(biāo)量信號(即獎勵)的累計(jì)期望值。
我認(rèn)為,這一設(shè)定絲毫不是一種限制,相反,它是一種非常清晰、優(yōu)雅的定義目標(biāo)的方式。如果試圖添加其他附加成分,不但不會更好,反而會削弱其清晰性。
已有一些理論工作探討了這個(gè)假設(shè)。我推薦大家閱讀 Michael Bowling 等人的論文《Settling the Reward Hypothesis》。

- 論文標(biāo)題:Settling the Reward Hypothesis
- 論文鏈接:https://arxiv.org/pdf/2212.10420
此外,我們知道,即使是一個(gè)非常簡單的獎勵信號,也可能催生出智能的所有屬性。當(dāng)然,我不該說「我們知道」,更準(zhǔn)確地說,我和一些同行主張并論證了這一觀點(diǎn):在一個(gè)足夠復(fù)雜的世界中,一個(gè)簡單的獎勵就足以引導(dǎo)出智能的全部表現(xiàn)。這一點(diǎn)在我們的論文《Reward is Enough》中有詳細(xì)闡述。
常用智能體模型
但正式開始介紹 OaK 架構(gòu)之前,我希望先從一個(gè)「已有的經(jīng)典架構(gòu)」講起,我稱之為常用智能體模型(common model of the intelligent agent)。這個(gè)模型在許多學(xué)科中廣泛存在 —— 無論是人工智能、心理學(xué)、控制論、經(jīng)濟(jì)學(xué)、神經(jīng)科學(xué),還是運(yùn)籌學(xué),大家?guī)缀醵疾捎昧诉@一標(biāo)準(zhǔn)模型。

它所假設(shè)的智能體架構(gòu)具有一些基本屬性。
首先是上圖中紅色部分的那些元素,也就是經(jīng)驗(yàn)接口(experiential interface):你會接收到獎勵信號(reward),你可以采取行動(action),你會接收到來自環(huán)境的某種觀察信號(observations)。
而這些觀察信號通常是不充分的,它們無法完全揭示出環(huán)境的真實(shí)狀態(tài)(也就是說,觀察不能唯一決定狀態(tài))。
所以從外部視角來看,智能體的核心就是這三個(gè)「紅色部分」組成的經(jīng)驗(yàn)接口。
另一方面,實(shí)際上這個(gè)常用模型的核心內(nèi)容,更多是關(guān)于智能體內(nèi)部的四個(gè)組成部分:感知、價(jià)值函數(shù)、反應(yīng)策略、轉(zhuǎn)移模型。
圖中藍(lán)色部分,我們可以看到這些組件之間是如何互相連接的。這些連接也就是所謂的狀態(tài)特征向量(state feature vector)。這是用來表示世界狀態(tài)的方式。
狀態(tài)特征向量由多個(gè)特征組成,每個(gè)維度代表一個(gè)抽象出的特征。這個(gè)向量的生成基本上就是對當(dāng)前狀況的理解。因此,當(dāng)基于輸入信號和過去的動作來構(gòu)建對當(dāng)前狀況的認(rèn)知時(shí),用「感知(perception)」這個(gè)詞來描述是非常恰當(dāng)?shù)?。它就是你對世界的感知方式,表示你的?dāng)前狀況。這種狀態(tài)表示是你進(jìn)行決策、選擇行為的基礎(chǔ)。
如圖中所示,狀態(tài)表示輸入反應(yīng)策略,然后得到行動的動作。這里的策略是反應(yīng)性的(reactively)—— 也就是說,它不需要進(jìn)行復(fù)雜的推理或規(guī)劃,而是直接基于當(dāng)前狀態(tài)做出動作選擇。
這就構(gòu)成了智能體的前兩個(gè)核心組件:感知系統(tǒng)(perception)和策略模塊(policy)。這兩者合起來就能構(gòu)成一個(gè)完整的智能體。
但如果我們希望這個(gè)系統(tǒng)能夠?qū)W習(xí)和改進(jìn),我們還需要加入第三個(gè)模塊,即價(jià)值函數(shù)(value function)。價(jià)值函數(shù)可以提供這樣的信息:「我現(xiàn)在的表現(xiàn)很好」或「我現(xiàn)在表現(xiàn)很差」,也就是說,它用來判斷事情是變好了還是變糟了。
因此,它必須能夠讀取獎勵(reward)信號。歸根結(jié)底,價(jià)值函數(shù)本質(zhì)上就是對未來獎勵的預(yù)測。這個(gè)預(yù)測結(jié)果會被用來調(diào)整和優(yōu)化策略 —— 我們用圖中一條穿過策略模塊的斜線來表示價(jià)值函數(shù)對策略的影響路徑。
第四個(gè)組成部分是狀態(tài)轉(zhuǎn)移模型(transition model),它是我們用來進(jìn)行規(guī)劃的關(guān)鍵結(jié)構(gòu)。狀態(tài)轉(zhuǎn)移模型的作用是:在給定當(dāng)前狀態(tài)的情況下,根據(jù)一個(gè)特定的動作,預(yù)測可能到達(dá)的下一個(gè)狀態(tài)。
雖然我無法在這里詳細(xì)展開它的全部工作機(jī)制,但總的來說,在規(guī)劃的過程中,它同樣會對策略結(jié)構(gòu)產(chǎn)生影響 —— 我們可以用另一條穿過策略模塊的對角線來表示這種影響。這種影響不僅作用于策略本身,還會反過來影響價(jià)值函數(shù)的學(xué)習(xí)與更新。
到這里,我們就構(gòu)建了整個(gè)常用智能體模型(common model),它以學(xué)習(xí)與規(guī)劃為核心,由這四個(gè)組件構(gòu)成。
我認(rèn)為有趣的一點(diǎn)是,這個(gè)單一模型框架,幾乎可以涵蓋多個(gè)不同學(xué)科的建模方式。例如,在控制論中,相同的概念會用不同術(shù)語來表述:它們不說「動作(action)」,而說「控制量(controls)」;不說「獎勵(reward)」,而說「收益(payoff)」或「代價(jià)(cost)」。在心理學(xué)中,我們可能也使用「獎勵」一詞,但我們不會說「觀察(observations)」,而是說「刺激(stimuli)」。
總之,這些學(xué)科盡管術(shù)語不同,但底層思想是高度一致的。
OaK 架構(gòu)
那么,關(guān)鍵問題來了:這個(gè)常用模型究竟缺失了什么?為什么我們不能就此止步?
核心缺失在于:這個(gè)模型雖然完整,但它仍然停留在低層次的表示上。動作是瞬時(shí)的,獎勵是瞬時(shí)的,觀察也是瞬時(shí)的。而我們所追求的智能行為,必須涉及到更高層次的抽象。
我們需要發(fā)展出概念(concepts),發(fā)展出一整套高級思維方式(ways of thinking)。
因此,在這個(gè)常用模型基礎(chǔ)上,我認(rèn)為最需要補(bǔ)充的就是開放式抽象(open-ended abstractions),這正是 OaK 架構(gòu)試圖引入的新要素。
來看 OaK 架構(gòu)的設(shè)計(jì)圖。這里使用了紫色來標(biāo)示所有新增的內(nèi)容。OaK 架構(gòu)的關(guān)鍵擴(kuò)展,是引入了一系列輔助子問題,這些子問題是相對于主問題(獲得獎勵)而言的「次級任務(wù)」。

主任務(wù)仍然是:最大化獎勵。而這些子任務(wù),我們即將反復(fù)看到一個(gè)術(shù)語:「與獎勵一致的特征達(dá)成子問題(reward-respecting subproblems of feature attainment)」。
也就是說:每一個(gè)子任務(wù)會圍繞某個(gè)特定特征展開,試圖去達(dá)成這個(gè)特征目標(biāo),但前提是:在完成這個(gè)目標(biāo)的同時(shí),不能犧牲太多主任務(wù)的獎勵,仍然要保持整體的獎勵水平不被嚴(yán)重削弱。
從圖上看,整個(gè)架構(gòu)與之前幾乎相同。但有一個(gè)關(guān)鍵變化:在原有的策略之后新增了一組被稱為「選項(xiàng)(options)」的結(jié)構(gòu),它們可以理解為更高層次的策略;而在原有的價(jià)值函數(shù)之后也增加了多個(gè)新的價(jià)值函數(shù)。
這是因?yàn)槊恳粋€(gè)子問題都是一個(gè)獨(dú)立的問題,因此必須為每個(gè)子問題配備一個(gè)獨(dú)立的價(jià)值函數(shù),以衡量當(dāng)前在該子問題上的表現(xiàn)好壞。因此,系統(tǒng)中需要更多的價(jià)值函數(shù)來支持多個(gè)子任務(wù)的評估。
因此,現(xiàn)在該架構(gòu)有四類組件:雖然感知和狀態(tài)特征向量的機(jī)制保持不變,但策略和價(jià)值函數(shù)這兩個(gè)部分現(xiàn)在都變成了多個(gè)。
我們?nèi)匀槐A糁暗母兄K,負(fù)責(zé)生成狀態(tài)特征向量,這個(gè)向量會被所有子任務(wù)共享。
現(xiàn)在每個(gè)子任務(wù)都擁有自己的一組選項(xiàng)策略,用于制定適合該任務(wù)的行為方式;而對應(yīng)的,每個(gè)子任務(wù)也擁有一個(gè)獨(dú)立的價(jià)值函數(shù),用于評估當(dāng)前行為在該子任務(wù)上的效果。
圖中沒有直接把「子問題」明確畫出來。因?yàn)樵诩軜?gòu)中,我們并不需要為每個(gè)子問題構(gòu)造一個(gè)明確的「對象」。我們只需要為它定義一個(gè)對應(yīng)的價(jià)值函數(shù)即可。
圖中那些從特征向量上延伸出來的藍(lán)色小箭頭表示:每一個(gè)價(jià)值函數(shù)都試圖從共享的狀態(tài)特征向量中提取出與自己任務(wù)相關(guān)的那一部分特征進(jìn)行優(yōu)化。
現(xiàn)在我們稍作停留,來談?wù)劆顟B(tài)轉(zhuǎn)移模型(transition model)。我希望用一個(gè)更具哲學(xué)意味的詞來定義它:知識(knowledge)。
我們的所有知識,其實(shí)都體現(xiàn)在狀態(tài)轉(zhuǎn)移模型之中。也就是說,它代表了我們對世界的理解:當(dāng)我們采取某種行動時(shí),世界將如何變化。特別是當(dāng)我們采取那些更高層級的復(fù)雜行為 —— 也就是所謂的「選項(xiàng)(options)」時(shí),世界狀態(tài)可能發(fā)生的變化。
「OaK」這一架構(gòu)名稱,正是來源于這兩個(gè)關(guān)鍵詞:Options(選項(xiàng)) 和 Knowledge(知識)。

所謂「選項(xiàng)」,指的是一種更高層級的行為方式。但形式上它非常簡單,由兩個(gè)部分組成:一個(gè)是策略,一個(gè)是終止條件。
策略的含義是:它是一個(gè)函數(shù),將狀態(tài)映射到底層動作上的概率分布;而終止條件則是將狀態(tài)映射到當(dāng)前是否應(yīng)該終止該選項(xiàng)的概率。
OaK 架構(gòu)中會有大量的選項(xiàng) —— 通常是針對每一個(gè)數(shù)值型特征設(shè)立一個(gè)選項(xiàng)。系統(tǒng)會學(xué)習(xí):如果持續(xù)執(zhí)行該選項(xiàng)直到終止,會發(fā)生什么,這就是我們所說的「知識」的形式。
比如:「如果我撿起一個(gè)物體并握在手中,那會是什么感覺?」、「如果我下樓走進(jìn)廚房,會在那里遇見誰?」、「如果我去冰島旅行,可能會遇到什么樣的人?」、「如果我去聽一場講座,我能學(xué)到什么?」
這些內(nèi)容,構(gòu)成了你對世界的預(yù)測性理解,也就是一種高級的狀態(tài)轉(zhuǎn)移模型,它能夠讓你在計(jì)劃過程中考慮更大的跳躍,并希望能夠「在世界的自然結(jié)構(gòu)處切割它(carve the world at its joints)」。
整個(gè) OaK 架構(gòu)的運(yùn)行涉及八個(gè)步驟,這些步驟都將在運(yùn)行時(shí)并行執(zhí)行。我會逐步展開解釋,但你可以先整體瀏覽一遍流程:
(1) 學(xué)習(xí)用于最大化獎勵的策略和價(jià)值函數(shù);
(2) 生成新的狀態(tài)特征;
(3) 對這些特征進(jìn)行排序,確定其重要性;
(4) 基于排名靠前的特征,構(gòu)建對應(yīng)的子問題;
(5) 為每個(gè)子問題學(xué)習(xí)解法;
(6) 為每個(gè)子問題的解法學(xué)習(xí)對應(yīng)的狀態(tài)轉(zhuǎn)移模型;
(7) 執(zhí)行規(guī)劃;
(8) 維護(hù)關(guān)于整個(gè)系統(tǒng)中各項(xiàng)元素效用的元數(shù)據(jù)。

距離實(shí)現(xiàn)還有多遠(yuǎn)?
接下來將逐步評估:現(xiàn)在這些步驟真的可以做到嗎?
學(xué)習(xí)用于最大化獎勵的策略和價(jià)值函數(shù)
這是強(qiáng)化學(xué)習(xí)中的經(jīng)典任務(wù),我們已有成千上萬種算法可以實(shí)現(xiàn)它。
但我認(rèn)為它尚未被完全解決。要說它被解決的前提是:我們能夠真正高質(zhì)量地實(shí)現(xiàn)持續(xù)性深度學(xué)習(xí)。而正如我在一開始所說的,這正是目前尚未突破的關(guān)鍵前提技術(shù)。

其實(shí)我們對它的需求早在 40 年前就已經(jīng)非常明確。
對于線性網(wǎng)絡(luò)來說,我們確實(shí)可以做到可靠的持續(xù)學(xué)習(xí);但一旦涉及到非線性深度學(xué)習(xí)網(wǎng)絡(luò),系統(tǒng)在持續(xù)學(xué)習(xí)的過程中就會出現(xiàn)災(zāi)難性失效,特別是在嘗試保留舊知識的同時(shí)學(xué)習(xí)新知識時(shí)。
最為人所知的現(xiàn)象就是「災(zāi)難性遺忘(catastrophic forgetting)」。這早在 1990 年代就被發(fā)現(xiàn)了。更近的研究顯示,我們不僅會忘記舊知識,甚至?xí)霈F(xiàn)學(xué)習(xí)能力完全喪失(loss of plasticity)的現(xiàn)象。這個(gè)問題在我自己的實(shí)驗(yàn)室以及其他研究機(jī)構(gòu)中都已被反復(fù)證實(shí)。
近幾年出現(xiàn)了一些部分性的解決方案。我們現(xiàn)在可以在一定程度上使用持續(xù)性反向傳播(continual backprop)來實(shí)現(xiàn)一定程度的持續(xù)深度學(xué)習(xí)。另一個(gè)可能有前景的方向是:持續(xù)發(fā)現(xiàn)新的特征表示,以及使用自適應(yīng)步長機(jī)制(adaptive step sizes)。
我確實(shí)相信,在未來幾年內(nèi),我們總會以某種方式實(shí)現(xiàn)可靠的、持續(xù)性的非線性學(xué)習(xí)。因此,我認(rèn)為現(xiàn)在假設(shè)它將會實(shí)現(xiàn),并在 OaK 系統(tǒng)架構(gòu)中基于它的存在來進(jìn)行設(shè)計(jì),是合理的。
生成新的狀態(tài)特征
這里我要強(qiáng)調(diào)的不是「挑選出最好的特征」,而是要生成大量候選特征。
我認(rèn)為這是一個(gè)至今仍不清晰的領(lǐng)域,有很多不同的嘗試。

OaK 架構(gòu)依賴于狀態(tài)特征的持續(xù)發(fā)現(xiàn),而這其實(shí)是一個(gè)非常老的問題,早在上世紀(jì) 60 年代就已經(jīng)被提出。如果你對歷史有所了解,可能聽說過它的很多別稱,比如「表示學(xué)習(xí)(representation learning)」、「新術(shù)語問題(new terms problem)」以及「元學(xué)習(xí)(meta-learning)」,本質(zhì)上都在談同一類問題。
而眾所周知,反向傳播曾被認(rèn)為能解決這一問題,但實(shí)際上它并沒有。
但現(xiàn)在我們普遍承認(rèn),反向傳播其實(shí)并不能真正發(fā)現(xiàn)「好的特征表示」。它只是在某種「被動意義」上實(shí)現(xiàn)了目標(biāo),泛化能力差,而且也不是顯式地在學(xué)習(xí)這些表征。
另一些方法則基于「生成并測試(generate-and-test)」策略,這一思路可以追溯到很久以前。持續(xù)性反向傳播就是一種基于生成并測試思路的新算法。
我認(rèn)為,這一領(lǐng)域目前仍屬于未解問題,我們必須找到一種能夠從現(xiàn)有狀態(tài)特征中有效生成新特征的方法,我會在 OaK 架構(gòu)中假設(shè)這種方法是可用的。
我個(gè)人最青睞的解決思路是一個(gè)名為 IDBD(Incremental Delta-Bar-Delta) 的算法,我認(rèn)為它將在未來的方案中扮演重要角色。

- 論文標(biāo)題:Adapting Bias by Gradient Descent: An Incremental Version of Delta-Bar-Delta
- 論文鏈接:https://cdn.aaai.org/AAAI/1992/AAAI92-027.pdf
特征排序
我認(rèn)為這一步相對容易。排序標(biāo)準(zhǔn)也很清楚,只需回答這些問題即可:這些特征是否對子任務(wù)有用?是否對智能體整體表現(xiàn)有幫助?是否被模型的學(xué)習(xí)過程所實(shí)際使用?
我們可以簡單觀察這些特征是否在系統(tǒng)中被頻繁使用,從而據(jù)此進(jìn)行排序。
基于排名靠前的特征,構(gòu)建對應(yīng)的子問題
我特別想講一講這一步,因?yàn)槲覍?shí)際上認(rèn)為它是可行的,而且我們已經(jīng)在實(shí)驗(yàn)中實(shí)現(xiàn)過了。

那么,如何構(gòu)建子問題呢?
首先必須承認(rèn):關(guān)于「輔助子問題(auxiliary subproblems)」,已有很長的研究歷史。有些問題已經(jīng)基本達(dá)成共識,但還有很多問題仍然懸而未解。
我們需要認(rèn)真思考這些開放性問題:
- 子問題應(yīng)該是什么?
- 它們從何而來?
- 智能體是否能夠自主生成子問題?
- 這些子問題又是如何幫助主問題(最大化獎勵)實(shí)現(xiàn)的?
OaK 架構(gòu)正嘗試為這些問題給出統(tǒng)一解答。
我認(rèn)為,我們所說的「子問題」在現(xiàn)實(shí)中最直觀的體現(xiàn)就是「試玩(play)」,可以把它看作是個(gè)體在嘗試獲取某種特征的過程。如果你回顧一下動物,甚至人類的一生,你會發(fā)現(xiàn),我們的生活中充滿了各種子問題。
試玩或者說玩??杀豢醋魇莻€(gè)體在嘗試關(guān)注某種特征的過程。
這是一個(gè)人類的例子:嬰兒在玩耍。它的行為并非隨機(jī)。它與玩具互動,學(xué)到了一些東西,當(dāng)發(fā)現(xiàn)無法再繼續(xù)獲得新信息時(shí),它就會轉(zhuǎn)向下一項(xiàng)學(xué)習(xí)機(jī)會。
我們通常稱之為「好奇心(curiosity)」,但我們也可以用「特征達(dá)成的子問題」這一術(shù)語來理解它:某些體驗(yàn)包含顏色、觸覺、聲音等感受,嬰兒試圖再現(xiàn)這些體驗(yàn),這就是它探索世界、表達(dá)好奇的方式。說到底,這就是在逐步獲得對環(huán)境的控制力。

因此顯而易見,一個(gè)智能體必須自行生成子問題。我們不可能預(yù)先內(nèi)嵌所有潛在的子問題。

幸運(yùn)的是,我們已經(jīng)擁有許多可用的算法機(jī)制來支持這件事:我們擁有選項(xiàng),擁有價(jià)值函數(shù),擁有離策略學(xué)習(xí)和各種規(guī)劃方法。
那么,我們該如何實(shí)現(xiàn)這一目標(biāo)?什么樣的任務(wù)才適合作為子問題?
我提出的解決方案是:與獎勵一致的特征達(dá)成子問題。
這個(gè)方案的合理性來自我們不能使用其它東西。比如你無法直接使用「狀態(tài)」—— 因?yàn)橹悄荏w根本沒有對全局狀態(tài)的訪問能力;你也無法直接描述「物體」—— 因?yàn)槲覀儾]有先驗(yàn)定義的物體結(jié)構(gòu)。我們唯一擁有的,就是一系列特征與概念,而它們是智能體在理解世界過程中自我構(gòu)建的內(nèi)部結(jié)構(gòu)。
下圖展示了 OaK 根據(jù)特征創(chuàng)建子問題的方式:

構(gòu)建子問題的目標(biāo)是:將環(huán)境引導(dǎo)至一個(gè)該特征值較高的狀態(tài),同時(shí)又不能損失太多主任務(wù)的獎勵。詳見以下論文:

- 論文標(biāo)題:Reward-Respecting Subtasks for Model-Based Reinforcement Learning
- 論文鏈接:https://arxiv.org/pdf/2202.03466
為子問題學(xué)習(xí)解法與狀態(tài)轉(zhuǎn)移模型
接下來,我們需要做兩件事:
一是學(xué)習(xí)這些子問題的解(solution),二是學(xué)習(xí)這些解對應(yīng)的轉(zhuǎn)移模型。而這些「解」,就是我們所說的選項(xiàng)(options)。我認(rèn)為這兩步本身并不復(fù)雜,前提是我們能夠可靠地進(jìn)行持續(xù)深度學(xué)習(xí)。
現(xiàn)在進(jìn)入 OaK 架構(gòu)的核心部分。

我們將進(jìn)行一系列學(xué)習(xí)過程,這些過程既會利用已有特征,也會推動新的候選特征的生成。
也就是說,我們將首先獲得一組特征,然后基于這些特征構(gòu)建子問題,每個(gè)子問題的目標(biāo)就是實(shí)現(xiàn)對應(yīng)特征的達(dá)成。接下來,我們會逐個(gè)解決這些子問題。
如果我們定義了 1000 個(gè)子問題,我們就會訓(xùn)練出 1000 個(gè)選項(xiàng)作為對應(yīng)解法。
每個(gè)選項(xiàng)都將成為一個(gè)預(yù)測問題的基礎(chǔ)單元:「如果我在當(dāng)前狀態(tài)下執(zhí)行這個(gè)選項(xiàng),會發(fā)生什么?」
這就是所謂的狀態(tài)轉(zhuǎn)移模型 —— 它用于預(yù)測特定行為方式的后果。
請注意,這種預(yù)測過程與「解決子問題」是不同的:「解決子問題」意味著找到一種高效的行為方式,用于達(dá)成目標(biāo)特征;而狀態(tài)轉(zhuǎn)移模型則要求我們考慮行為方式的所有潛在后果。
比如,如果我走下樓去廚房,我可能確實(shí)抵達(dá)廚房了;但我也可能遇見我的伴侶,或者在樓梯上摔倒。
也就是說,可能發(fā)生的事情遠(yuǎn)不止一個(gè),我們需要能夠預(yù)測這些多樣化的后果。
這就是狀態(tài)轉(zhuǎn)移模型。一旦我擁有這些模型,就必須用它們來進(jìn)行規(guī)劃,從而改進(jìn)行為,并有望實(shí)現(xiàn)高度適應(yīng)性的行為。

可以從上圖中獲取更直觀地了解到:感知提供特征,得到了狀態(tài)特征。為了解決這些子問題,與世界互動并獲得選項(xiàng)。我預(yù)測這些選項(xiàng)的后果,于是得到一個(gè)轉(zhuǎn)移模型。這個(gè)轉(zhuǎn)移模型通過規(guī)劃提供了改進(jìn)的價(jià)值函數(shù)和值策略。接著,所有這些后續(xù)步驟會反饋回來,并影響感知。
執(zhí)行規(guī)劃
規(guī)劃是一個(gè)很大的話題,但目前已經(jīng)可以實(shí)現(xiàn) —— 我就有一個(gè)具體實(shí)現(xiàn)規(guī)劃的規(guī)劃。
為什么我們要進(jìn)行規(guī)劃?因?yàn)槭澜缱兓瑑r(jià)值也會隨之變化。換句話說,建立正確的模型比建立正確的價(jià)值函數(shù)更容易。

比如說,找到通往洗手間的路在某些時(shí)刻是非常重要的,但「在洗手間」的狀態(tài)的價(jià)值是會變化的。
通俗來說,有時(shí)候我想去洗手間,有時(shí)候我不想去。但是「如何去洗手間」這個(gè)選項(xiàng)的模型 —— 我希望能夠一直保留它,即便我當(dāng)下是否想去的意愿發(fā)生了變化。為了應(yīng)對這種情況,必須提前做好準(zhǔn)備,而這具有深遠(yuǎn)的意義。
我設(shè)想的規(guī)劃是通過價(jià)值迭代來完成的,通過這個(gè)過程你可以改進(jìn)你的價(jià)值函數(shù),從而知道哪些狀態(tài)是好的、哪些狀態(tài)是你想要的、哪些特征是你想要實(shí)現(xiàn)的、哪些是不想實(shí)現(xiàn)的。

這個(gè)公式是經(jīng)典價(jià)值迭代的表達(dá)。經(jīng)典價(jià)值迭代針對的是離散狀態(tài)的情形,可以有一個(gè)表格來存儲每個(gè)狀態(tài)的價(jià)值。
價(jià)值迭代會持續(xù)不斷地進(jìn)行,你要做的是在空閑時(shí)間思考選擇一個(gè)狀態(tài),而如何選擇這個(gè)狀態(tài)是一個(gè)重要的問題。然后你在該狀態(tài)上執(zhí)行一個(gè)備份(backup)操作。這個(gè)狀態(tài)的備份會改變該狀態(tài)的估計(jì)價(jià)值。然后,你要對所有你可能執(zhí)行的所有行為取最大值。然后檢查預(yù)期會得到的獎勵。
從下圖我們可以看到模型。這就是世界的模型,這個(gè)模型接收一個(gè)狀態(tài)和一個(gè)動作,然后預(yù)測下一個(gè)狀態(tài)的概率分布,并預(yù)測期望獎勵。

這就是一個(gè)原始模型,但不是高級模型。
價(jià)值迭代是為原始模型、低層模型定義的。其中有期望獎勵和下一個(gè)狀態(tài)的期望值。模型會對所有可能下一個(gè)狀態(tài)的概率和該狀態(tài)的值進(jìn)行加權(quán)求和,并進(jìn)行一點(diǎn)折扣。
你現(xiàn)在處于狀態(tài) s,觀察所有你可能采取的動作和由此導(dǎo)致的狀態(tài),然后你評估最有可能發(fā)生的情況,并將這些信息反向傳播回來,更新當(dāng)前狀態(tài)的價(jià)值。

所有的規(guī)劃方法本質(zhì)上都與之類似。有些方法看起來和這個(gè)價(jià)值函數(shù)形式完全一樣。
即使是 A* 方法、蒙特卡洛搜索和模型預(yù)測控制等方法,它們也都包含這個(gè)基本思想 —— 讓模型向前看,預(yù)測后果,然后更新模型對不同狀態(tài)或不同選擇的價(jià)值的理解,最終據(jù)此做出選擇。這就是價(jià)值迭代。
然后,當(dāng)我們將其抽象化后,我們就能「跳躍」,也就是說,在世界中采取較大的步驟。這是下一個(gè)階段。
生活是一步一步過的,但你對生活的規(guī)劃卻是在更高的層次上進(jìn)行的。

所以轉(zhuǎn)移模型(我稱其為「知識」)是關(guān)于這些大尺度動態(tài)的,其中你的動作或選擇(即選項(xiàng))是有目的性的。我們的知識不是建立在單個(gè)動作上的,而是建立在更高層概念上,例如叫 Uber 去機(jī)場、去冰島旅行、去洗手間或撿起一個(gè)物體。
我們的知識是關(guān)于選項(xiàng)的。所以選項(xiàng)模型就是我們上一頁講過的常規(guī)模型的泛化版本,我們把其中的 action(動作)替換為 option(選項(xiàng)),輸入就是我可能做的所有事情,也就是一系列擴(kuò)展的行為方式,而輸出的不是下一個(gè)狀態(tài),而是當(dāng)選項(xiàng)終止時(shí)我最終到達(dá)的狀態(tài)。

并且我們不再關(guān)心一步的期望獎勵,而是關(guān)心從開始到終止的總期望獎勵。
除了這兩個(gè)變化,價(jià)值函數(shù)的計(jì)算方式仍然是一樣的。我們?nèi)匀粫λ锌赡艿暮罄m(xù)情況求和,獲取獎勵,以及在終止?fàn)顟B(tài)下的期望值。核心思想是相同的。
所以我們可以在抽象層級上使用價(jià)值迭代進(jìn)行規(guī)劃。接下來我還需要說明一下我們是如何將這一方法泛化以支持函數(shù)近似的。因?yàn)槭澜缣罅?,我們沒有辦法為每一個(gè)狀態(tài)都定義一個(gè) V (s)。我們并不擁有世界中每一個(gè)狀態(tài)的具體價(jià)值函數(shù),但我們擁有通過權(quán)重向量(參數(shù))決定的狀態(tài)價(jià)值函數(shù)。

因此,我們可以使用一種近似方法來表示世界狀態(tài)。這個(gè)狀態(tài)將通過觀測、特征向量表示,并結(jié)合參數(shù),生成一個(gè)估計(jì)值。
所以很自然地,模型也會變成參數(shù)化的。我們會預(yù)測整個(gè)過程中的獎勵,并預(yù)測到終止?fàn)顟B(tài)的轉(zhuǎn)移概率,這些也都將通過參數(shù)來表示。
所以我們不再使用傳統(tǒng)的表格方式,而是通過梯度方法更新權(quán)重。
現(xiàn)在,我們的期望獎勵是基于模型、轉(zhuǎn)移模型以及其參數(shù)而得出的;轉(zhuǎn)移概率也是基于參數(shù)而得的;接著有估算出的值。這個(gè) b (s,a,w) 相當(dāng)于括號中的那一部分,它就成了學(xué)習(xí)的目標(biāo)值。
我們現(xiàn)在已經(jīng)回到了使用單一動作原語來進(jìn)行函數(shù)近似的階段。這個(gè)方法也可泛化到完整的選項(xiàng)(option)情形。
維護(hù)關(guān)于整個(gè)系統(tǒng)中各項(xiàng)元素效用的元數(shù)據(jù)
最后一步,是我們必須為所有內(nèi)容記錄統(tǒng)計(jì)信息或元數(shù)據(jù),特別是關(guān)于轉(zhuǎn)移模型的質(zhì)量信息。因?yàn)槟P褪墙频?,我們需要學(xué)會識別模型在哪些地方能提供可靠的答案,在哪些地方不能。
我們還必須對特征本身記錄統(tǒng)計(jì)信息,這樣在生成新特征時(shí),就能根據(jù)已有統(tǒng)計(jì)信息來指導(dǎo)特征生成過程,判斷哪些特征是好的,哪些是不好的。
下面歸總一下,圖中勾的顏色代表了這八個(gè)步驟能否做到:藍(lán)色表示如果能實(shí)現(xiàn)持續(xù)深度學(xué)習(xí)與元學(xué)習(xí),這部分就可以完成;紅色表示有很多想法,但沒有具體方案;黃色表示看起來很容易,但必須等其他部分完成之后才能進(jìn)行;綠色表示似乎已經(jīng)能夠做到。

總結(jié)

OaK 是開放式的,包含不斷探索的新循環(huán)。
這正是 OaK 的新想法:它的抽象過程是開放的,唯一的限制是計(jì)算資源。
基本循環(huán)如下:我們從狀態(tài)特征開始,基于這些狀態(tài)特征構(gòu)建子問題,然后解決這些子問題以產(chǎn)生選項(xiàng),再基于這些選項(xiàng)構(gòu)建選項(xiàng)模型,通過規(guī)劃過程來改進(jìn)選項(xiàng)和策略。
這一系列步驟都會使用狀態(tài)特征。雖然箭頭是單向的,但實(shí)際上存在反向影響:我們會告知狀態(tài)特征哪些是有用的,哪些是無用的。
正是 OaK 得以開放演化的核心所在:通過這樣一個(gè)循環(huán),系統(tǒng)不斷發(fā)現(xiàn)更優(yōu)的抽象,而這一切最終都與「獎勵」緊密相關(guān)。
請記住這個(gè)追求:我們追求的是泛化性、經(jīng)驗(yàn)性和開放式的抽象能力。我想,也許你已經(jīng)能看到這個(gè)愿景如何為你提供一條實(shí)現(xiàn)這些目標(biāo)的道路,盡管它仍有一些前提條件尚未解決。
因此,OaK 提出了一種通過運(yùn)行時(shí)經(jīng)驗(yàn)發(fā)展超級智能的愿景。




























