圖靈獎獲得者Yann LeCun:未來幾十年AI研究的最大挑戰(zhàn)是「預測世界模型」
深度學習大規(guī)模應用之后,人們一直期待真正的通用人工智能出現(xiàn),能夠帶來進一步的技術突破。
對此,Meta 首席科學家、圖靈獎獲得者 Yann LeCun 最近提出了一種新思路:他認為讓算法預測世界內在運行規(guī)律的「世界模型」將是關鍵。他的思考引發(fā)了人們的關注。
在本周的一次線上活動中,LeCun 用一個小時的時間介紹了自助人工智能的新思路,并提出聯(lián)合嵌入預測架構(JEPA)是未來的發(fā)展方向。
盡管 AI 研究最近取得了顯著進展,但我們離創(chuàng)造出像人一樣思考和學習的機器還有很長的路要走。正如 Yann LeCun 所說,一個從沒有開過車的青少年可以在 20 小時之內學會駕駛,但最好的自動駕駛系統(tǒng)卻需要數(shù)百萬或數(shù)十億的標記數(shù)據,或在虛擬環(huán)境中進行數(shù)百萬次強化學習試驗。即使費這么大力,它們也無法獲得像人類一樣可靠的駕駛能力。
怎樣才能打造出接近人類水平的 AI?僅靠更多的數(shù)據和更大的模型能解決嗎?
在 Meta AI 近期舉辦的 Inside the Lab event 中,LeCun 勾勒出了構建人類水平 AI 的另一種愿景。他指出,學習「世界模型」(即世界如何運作的內部模型)的能力可能是關鍵。
- 原視頻鏈接:https://www.youtube.com/watch?v=DokLw1tILlw
- PPT 鏈接:https://drive.google.com/file/d/1Txb9ykr03Lda-oTLXbnlQsEe46V8mGzi/view
Yann LeCun 的觀點與 Kanai 等人提出的意識信息生成理論非常一致——智能源于能夠生成世界復雜表示的能力(包括反事實),不過也有學者對此持消極態(tài)度。
卡耐基梅隆大學教授,前蘋果 AI 研究主管 Russ Salakhutdinov 對此評價道:Josh Tenenbaum 和其他很多研究者在十年前已經開始研究世界模型,當時我在他的實驗室做博士后。因此,當 Facebook 說他們正在研究基于世界模型的 AI 新愿景時,我覺得這聽起來有點好笑。
LeCun 提出的方法究竟能否成為通向通用人工智能的道路?讓我們結合 Meta AI 前幾天的博客來了解一下 LeCun 的想法。可以建模世界如何運行的 AI
LeCun 說,人和動物似乎能夠通過觀察和難以理解的少量互動,以一種獨立于任務的、無監(jiān)督的方式,學習大量關于世界如何運行的背景知識。可以假設,這些積累起來的知識可能構成了常識的基礎。常識可以被看作是世界模型的集合,可以告訴我們什么是大概率會發(fā)生的,什么是可能發(fā)生的,以及什么是不可能發(fā)生的。
這使得人類即使身處不熟悉的環(huán)境也能有效地制定計劃。例如,文章開頭提到的那個青少年可能以前沒有在雪地上開過車,但他知道雪地開車容易打滑,不能開得太猛。
常識不僅能讓動物預測未來的結果,還能填補時間或空間上缺失的信息。當司機聽到附近金屬碰撞的聲音時,他立即就能知道發(fā)生了事故,即使沒有看到涉事車輛。
人類、動物和智能系統(tǒng)使用世界模型的觀點可以追溯到幾十年前的心理學以及控制和機器人等工程領域。LeCun 提出,當今 AI 面臨的最重要的挑戰(zhàn)之一是設計學習范式和架構,讓機器以一種自監(jiān)督的方式學習世界模型,然后利用這些模型進行預測、推理和規(guī)劃。他的大綱融合了各種學科的觀點,如認知科學、系統(tǒng)神經科學、最佳控制、強化學習和「傳統(tǒng)」AI,并將它們與機器學習中的新概念相結合,如自監(jiān)督學習、聯(lián)合嵌入架構。
一種自主智能體系架構的提出
LeCun 提出了一個由六個獨立模塊組成的架構。假設每個模塊都是可微的,因為它可以很容易地計算某個目標函數(shù)相對于自己的輸入的梯度估計,并將梯度信息傳播到上游模塊。
上圖是一種自主智能系統(tǒng)的架構,配置器(Configurator)從其他模塊獲得輸入(圖中省略了這些箭頭)。
配置器(Configurator)模塊負責執(zhí)行控制(executive control):給定要執(zhí)行的任務,可以通過調整這些模塊的參數(shù)來預先配置感知模塊(perception module)、世界模型(world model)、成本(cost)和當前任務的 actor。
感知模塊(Perception module)接收來自傳感器的信號并估計當前世界的狀態(tài),對于給定的任務,只有一小部分感知到的世界狀態(tài)是相關和有用的。配置器模塊啟動感知系統(tǒng),從感知中提取相關信息,完成手頭的任務。
世界模型(World model)構成了架構中最復雜的部分。它的作用是雙重的:(1)估計感知未提供的關于世界狀態(tài)的缺失信息;(2)預測合理的未來世界狀態(tài)。
世界模型可以預測世界的自然進化,或預測由 actor 模塊提出的一系列動作所導致的未來世界狀態(tài)。世界模型是一種與當前任務相關的世界部分的模擬器。由于世界充滿了不確定性,模型必須能夠代表多種可能的預測。比如接近十字路口的司機可能會減速,以防另一輛接近十字路口的車沒有在停車標志處停下來。
成本模塊(Cost module)計算單個標量的輸出,該輸出預測智能體的不適(discomfort)程度。它由兩個子模塊組成:內在成本(intrinsic cost)是硬連接、不可變的(不可訓練的),并計算直接的不適(比如對智能體的損害、違反硬編碼的行為約束等);批判(critic)是可訓練的模塊,預測內在成本的未來值。智能體的最終目標是最小化長期的內在成本。
「這就是基本的行為驅動力和內在動機所在,」LeCun 表示。因此它將考慮到內在成本,比如沒有浪費能源,以及手頭任務的具體成本。因為成本模塊是可微的,所以成本梯度可以通過其他模塊反向傳播,用于規(guī)劃、推理和學習。
actor 模塊計算動作序列的提議。「actor 可以找到一個最優(yōu)的動作序列,最小化預估的未來成本,并以最優(yōu)序列輸出第一個動作,這種方式類似于傳統(tǒng)的最優(yōu)控制?!筁eCun 說。
短期記憶模塊(Short-term memory module)跟蹤當前和預測的世界狀態(tài)以及相關成本。
世界模型架構和自監(jiān)督訓練
該架構的核心是預測世界模型。構建它的一個關鍵挑戰(zhàn)是如何使它能夠表示多個看似合理的預測?,F(xiàn)實世界并不是完全可以預測的:特定情況的演變有多種可能的方式,并且情況的許多細節(jié)與手頭的任務無關。我可能需要預測開車時周圍的汽車會有哪些動作,而不需要思考道路附近樹木中單個葉子的詳細位置。世界模型到底應該如何學習世界的抽象表示,從而保留重要細節(jié),忽略不相關的細節(jié),并且可以在抽象表示的空間中進行預測呢?
解決方案的一個關鍵要素是聯(lián)合嵌入預測架構(JEPA)。JEPA 捕獲兩個輸入 x 和 y 之間的依賴關系。例如 x 可以是一段視頻,y 可以是視頻的下一段。輸入 x 和 y 被饋送到可訓練的編碼器,這些編碼器提取它們的抽象表示,即 s_x 和 s_y。訓練預測器模塊以從 s_x 預測 s_y。預測器可以使用潛變量 z 來表示 s_y 中存在但 s_x 中不存在的信息。
JEPA 以兩種方式處理預測中的不確定性:(1)編碼器可能會選擇丟棄有關 y 的難以預測的信息,(2)當潛變量 z 在一個集合范圍內變化時,預測將在一組看似合理的預測結果范圍內變化。
那么 JEPA 是如何訓練的呢?之前,唯一的方法是使用對比方法,包括顯示相匹配的 x 和 y 的示例,以及許多 x 和不匹配的 y 的示例。但是當表示(representation)是高維的時,這是相當不切實際的。過去兩年出現(xiàn)了另一種訓練策略:正則化方法。當應用于 JEPA 時,該方法使用四個標準:
- 使 x 的表示最大限度地提供關于 x 的信息
- 使 y 的表示最大限度地提供關于 y 的信息
- 使得從 x 的表示中最大限度地預測 y 的表示成為可能
- 讓預測器使用來自潛變量的、盡可能少的信息來表示預測中的不確定性。
這些標準可以以各種方式轉化為可微的成本函數(shù)。一種方法是 VICReg(方差 - 不變性 - 協(xié)方差正則化)方法。在 VICReg 中,x 和 y 的表示的信息內容通過將它們的分量的方差保持在閾值之上,并使這些分量盡可能地相互獨立來實現(xiàn)最大化。同時,該模型試圖使 y 的表示可以從 x 的表示中預測。此外,潛變量信息內容的最小化是通過使其離散、低維、稀疏或有噪聲來實現(xiàn)的。
JEPA 的精妙之處在于它自然地產生了輸入的充滿信息量的抽象表示,消除了不相關的細節(jié),這些表示可以用來執(zhí)行預測。這使得 JEPA 可以相互堆疊,以便學習具有更高抽象級別的表示,可以執(zhí)行長期預測。
例如,一個場景可以在高層次上描述為「廚師正在制作可麗餅」。可以預測的是,廚師會去取面粉、牛奶和雞蛋,把材料混合,把面糊舀進鍋里,用油炸面糊,翻轉可麗餅并重復上述過程。
在較低的層次上,傾倒面糊(pouring a ladle)又可以分解為舀面糊(scooping some batter )和將其倒在平底鍋上(spreading it around the pan)。這些過程可以一直分解下去,具體到廚師手上每一毫秒的精確軌跡。在這種低層次的手部軌跡預測上,我們的世界模型只能在較短的時間范圍內給出準確的預測。但在更高的抽象層次上,它可以做出長期預測。
分層 JEPA 可用于在多個抽象層次和多個時間尺度上執(zhí)行預測。訓練分層 JEPA 主要通過被動觀察,很少借助交互。
嬰兒在出生后的頭幾個月主要通過觀察來了解世界是如何運行的。她了解到世界是三維的;有些物體在其他物體的前面;當一個物體被遮擋時,它仍然存在。最終,在大約 9 個月大的時候,嬰兒學會了直觀物理,例如不受支撐的物體會因重力而落下。
LeCun 和 Meta AI 希望分層 JEPA 可以通過觀看視頻和與環(huán)境交互來了解世界是如何運行的。通過訓練自己預測視頻中會發(fā)生什么,JEPA 將產生世界的分層表示。通過做出一些動作并觀察結果,世界模型將學會預測其動作的后果,這將使其能夠進行推理和規(guī)劃。
感知 - 動作 episode
通過將分層 JEPA 訓練為世界模型,智能體能夠執(zhí)行復雜動作的分層規(guī)劃,將復雜任務分解為一系列不太復雜和不太抽象的子任務,直到分解為效應器上的低層次動作。
下圖是一個典型的感知 - 動作 episode。該圖說明了兩層層次結構的情況。
感知模塊提取世界狀態(tài)的分層表征(對應圖中 s1[0]=Enc1(x) , s2[0]=Enc2(s[0]))。然后,在給定第二層 actor 提出的一系列抽象動作的情況下,多次應用第二層預測器來預測未來狀態(tài)。actor 優(yōu)化第二層的動作序列以最小化總成本(圖中的 C(s2 [4]))。
這個過程類似于最優(yōu)控制中的模型預測控制(Model-Predictive Control)。對第二層潛變量的多個 drawing 重復該過程,可能會產生不同的高級場景。由此產生的高級動作雖然不能構成真正的動作,但是定義了低層次狀態(tài)序列必須滿足的約束。
這也構成了子目標。整個過程在較低的層次重復:運行低層次預測器,優(yōu)化低層動作序列以最小化來自上一層的中間成本,并對低層潛在變量的多個 drawing 重復該過程。一旦該過程完成,智能體將第一個低層次動作輸出到效應器,就可以重復整個 episode。
如果能成功構建這樣一個模型,那么所有模塊都將是可微的,因此整個動作優(yōu)化過程可以使用基于梯度的方法來執(zhí)行。
更接近人類智能水平的 AI
LeCun 的愿景中還存在許多艱巨的挑戰(zhàn)。其中最有趣和最困難的挑戰(zhàn)之一是實例化(instantiate)世界模型架構和訓練過程的細節(jié)。一定程度上,訓練世界模型將是未來幾十年人工智能取得實際進展面臨的主要挑戰(zhàn)。
然而,世界模型架構的許多方面仍有待定義,包括如何精確地訓練 critic、如何構建和訓練配置器(configurator)、如何使用短期記憶來跟蹤世界狀態(tài)和存儲歷史狀態(tài)等等。
創(chuàng)造像人類一樣有效學習和理解的機器是一項長期的科研工作,并且不能保證一定會成功。但基礎研究必將繼續(xù)加深機器對世界的理解,推進整個人工智能領域的發(fā)展。