LeCun高徒超詳筆記曝光,Meta世界模型首揭秘!首個「類人」模型怎么來的?
LeCun究竟是經(jīng)過了怎樣的思考,才得出了世界模型是AI大模型未來最理想道路的結(jié)論?
很幸運,去年曾聽過他在暑假學(xué)校關(guān)于統(tǒng)計物理和機器學(xué)習(xí)演講的學(xué)生Ania Dawid,將他的觀點仔細(xì)地整理和發(fā)表出來。
LeCun對于她的工作也表示了盛贊。

這篇筆記解釋了當(dāng)前機器學(xué)習(xí)方法的局限性,并且介紹了LeCun在2022年的論文<A Path Towards Autonomous Machine Intelligence>中提出的autonomous AI所需的核心概念,以及設(shè)計背后的主要思想。
論文地址:https://arxiv.org/abs/2306.02572
類人智能的可能性
在AI達(dá)到類人水平并帶來新的技術(shù)革新之前,當(dāng)前的自動化系統(tǒng)仍然有重大的局限性。
最理想的情況下,會出現(xiàn)L5自動駕駛、家用機器人、虛擬助理,這些機器人會學(xué)習(xí)可靠的世界模型,然后進(jìn)行推理,對復(fù)雜的行動序列做出計劃。
在這些筆記中,Ania Dawid總結(jié)了LeCun提出未來自主智能架構(gòu)背后的主要思想,引入了基于能力的潛變量模型,在LeCun建議構(gòu)建的模塊——分層聯(lián)合嵌入預(yù)測架構(gòu)(H-JEPA)中結(jié)合了它們的優(yōu)勢。
在過去十年中,機器學(xué)習(xí)方法迅速普及,ML模型在圍棋、國際象棋和Shogi等戰(zhàn)略游戲中都表現(xiàn)出了專家級的性能。
作為交換,創(chuàng)建深度學(xué)習(xí)模型需要在大量數(shù)據(jù)集上訓(xùn)練,這是一種極端的計算成本。
相比之下,人類的學(xué)習(xí)卻十分高效,我們可以快速直觀地找到方法來完成任務(wù),連嬰兒都能很快獲得對物理世界的直觀理解。
如何讓AI模型發(fā)展出像人類一樣的潛能?在這些課堂講稿中,LeCun與學(xué)生們探索了autonomous intelligence的概念。
他們希望能夠?qū)崿F(xiàn)一個充分自主的AI,他通過轉(zhuǎn)移知識和自動適應(yīng)新情況而在通用任務(wù)上表現(xiàn)良好,無需首先嘗試很多解決方案。

自主機器智能
當(dāng)前機器學(xué)習(xí)的局限性
到目前為止,機器學(xué)習(xí)系統(tǒng)仍然在很大程度上依賴于SL,這就需要大量的標(biāo)記樣本,而RL需要大量的試驗,這在當(dāng)前的現(xiàn)實中不切實際。在現(xiàn)實世界中,每個行動都需要時間和成本。

相比之下,人類和動物主要依靠對環(huán)境的積極觀察,并以此建立世界模型。
嬰兒就幾乎完全通過觀察來學(xué)習(xí),他們的學(xué)習(xí)過程與SSL最相似,只有一點點SL(和家長互動)或RL(通過實踐嘗試各種解釋方案)。
實際上,人類是想象和推演大部分結(jié)果,而不是全部嘗試一遍。
因此,實現(xiàn)完全自主類人智能的道路主要有三個挑戰(zhàn):
1.學(xué)習(xí)世界的表征和預(yù)測模型,使AI系統(tǒng)能夠預(yù)測未來,特別是自己行動會導(dǎo)致的結(jié)果。
最有可能的方法就是自監(jiān)督學(xué)習(xí)(SSL),因為SL和RL需要太多的成本或試驗。
2.學(xué)習(xí)以一種與DL兼容的方式推理。推理需要考慮到與前饋潛意識計算相反的意圖。最可能的方法就是像energy minimization那樣設(shè)計推理和規(guī)劃。
3.學(xué)習(xí)規(guī)劃復(fù)雜動作序列,這個過程中需要行動計劃的分層(hierarchical)表征。
自主智能的新范式
在論文中,LeCun提出了自主AI應(yīng)該有的模塊化結(jié)構(gòu)。
這個AI架構(gòu)由多個相互連接的模塊組成。
Perception模塊估計世界的當(dāng)前狀態(tài),actor可以使用該狀態(tài),并在world model的指導(dǎo)下提出最佳動作序列,根據(jù)actor的動作預(yù)測或「想象」未來可能的世界狀態(tài)。
這些聯(lián)系被稱為「感知-計劃-行動循環(huán)」。
在想象actor行為的可能后果時,世界模型使用cost推理模塊。
它可以分成兩個子模塊——對痛苦、快樂、饑餓等基本需求進(jìn)行建模的intrinsic cost,以及預(yù)測內(nèi)在成本未來值的critic。
Short-term memory模塊用于預(yù)測未來世界狀態(tài)。Configurator模塊通過配置所有其他模塊來實現(xiàn)任務(wù)之間的切換。

a.在SSL中,系統(tǒng)經(jīng)過訓(xùn)練,可以從輸入的可見部分(藍(lán)色)預(yù)測輸入的隱藏部分(橙色)。b. SSL將在未來的AI系統(tǒng)中發(fā)揮核心作用,SSL是蛋糕,SL是糖衣,RL是櫻桃
模型中的「感知-計劃-行動循環(huán)」類似于最優(yōu)控制中的model-predictive control(MPC)。關(guān)鍵的區(qū)別在于,世界模型預(yù)測未來是通過學(xué)習(xí)。
它也不同于RL,因為在這里成本函數(shù)是已知的,所有模塊都是可微的,在現(xiàn)實中不需要采取行動。
自監(jiān)督學(xué)習(xí)與不確定性表征
自監(jiān)督學(xué)習(xí)的主要目的,就是重建輸入或預(yù)測輸入的缺失部分,如上圖a所示。
輸入可以是圖像、視頻或文本。在訓(xùn)練中,模型學(xué)習(xí)數(shù)據(jù)的分層表征,因此,SSL的預(yù)訓(xùn)練通常先于SL或RL階段。
它還用于學(xué)習(xí)預(yù)測(前向)模型MPC,或者學(xué)習(xí)控制策略,或基于模型的RL。
自監(jiān)督學(xué)習(xí)對于文本非常有效,但對于圖像來說,當(dāng)模型被訓(xùn)練進(jìn)行單一預(yù)測時,訓(xùn)練使它們預(yù)測的是所有可能的平均值,因此,SSL產(chǎn)生了模糊的預(yù)測。
不過,做決定通常不需要預(yù)測世界上所有可能的細(xì)節(jié),只需要預(yù)測與任務(wù)相關(guān)的細(xì)節(jié)即可。


基于能量的模型
概率模型需要規(guī)范化,因此在高維數(shù)據(jù)的限制下,可能變得難以處理。
然而,在駕駛汽車的決策任務(wù)中,系統(tǒng)只需要選擇正確的答案,其他答案的概率是無關(guān)緊要的。
因此,我們可以讓模型通過能量函數(shù)來表示變量之間的依賴關(guān)系(例如下圖a所示的決策y和條件x)。
在這種情況下,能量指導(dǎo)模型只需要將最低的能量分配給正確的答案,將較大的能量分配給不正確的答案即可。

圖b中的能量函數(shù),表示了x和y之間的二次依賴關(guān)系。推理涉及為給定的x找到最小能量值。
EBM的一個優(yōu)點是,可以表示多模態(tài)的依賴關(guān)系。理論上,還可以以各種形式(文本、視覺等)描述數(shù)據(jù)之間的依賴關(guān)系。


基于能量的模型與概率模型
在概率設(shè)置中,訓(xùn)練包括找到這樣的模型參數(shù)w,使給定輸入的觀察輸出的可能性最大(或負(fù)可能性最小)。

第一個等式是基于數(shù)據(jù)點之間相互獨立的假設(shè),而進(jìn)行第二個變換,是因為求和計算比乘法計算更容易。
對于概率模型,訓(xùn)練僅限于從負(fù)對數(shù)似然(如交叉熵)生成的損失函數(shù)。
雖然放棄概率設(shè)置可能會令人驚訝,但請注意,做決策可以被視為選擇得分最高的選項,而不是最有可能的選項。
比如在下棋的時候,如果查看所有可能性來決定下一步怎么走,顯然非常棘手。
相反,可以通過探索可能性樹的一部分,比如用蒙特卡洛樹搜索的最短路徑,給出最小能量。
因此,沒有必要使用概率框架。

不過,如果需要的話,也可以通過將能量考慮為非歸一化的負(fù)對數(shù)概率,在EBM和概率模型之間建立聯(lián)系。
最常見的方法是通過Gibbs-Boltzmann distribution:

基于隱變量能量的模型
通過使用依賴于一組潛變量z的額外能量函數(shù),我們可以擴(kuò)展EBM的可能性。
這些隱藏變量通常被稱為潛變量(latent variables),旨在捕捉在x中無法直接獲得的y的信息。

在人臉檢測任務(wù)中,這些潛變量的示例可能是性別、姿勢或發(fā)色。
在自動駕駛汽車的情況下,潛變量可以參數(shù)化其他駕駛者的可能行為。
因此,它們?yōu)槲覀兲幚憩F(xiàn)實世界的不確定性提供了一種方法。

在結(jié)構(gòu)化預(yù)測問題中,我們假設(shè)數(shù)據(jù)具有一些未知的結(jié)構(gòu),學(xué)習(xí)器必須解析這些結(jié)構(gòu)才能進(jìn)行準(zhǔn)確的預(yù)測
最后,潛變量在所謂的結(jié)構(gòu)化預(yù)測問題中非常有用。

a.潛變量推斷EBM還包括潛變量的最小化(或邊緣化)。b. 一個潛變量EBM的例子,在尋找綠色點y和橢圓距離的問題中,它會從訓(xùn)練點(藍(lán)點)學(xué)習(xí)
訓(xùn)練基于能量的模型
到目前為止,我們已經(jīng)討論了如何使用EBM,特別是潛變量EBM進(jìn)行推理。
在本節(jié)中,我們將介紹如何訓(xùn)練EBM。

訓(xùn)練技術(shù)的選擇,取決于EBM架構(gòu)的選擇。
讓我們比較下圖中的兩種EBM架構(gòu)。

能量模型(EBM)可能會發(fā)生能量崩潰。(a)標(biāo)準(zhǔn)的確定性預(yù)測或回歸架構(gòu),其中能量函數(shù)Fw(x, y)是x的神經(jīng)網(wǎng)絡(luò)預(yù)測與y本身之間的距離,不容易發(fā)生能量崩潰。(b)一個可能發(fā)生能量崩潰的EBM示例
在第一種情況下,能量函數(shù)只是數(shù)據(jù)點y和數(shù)據(jù)點x的編碼器(如NN)輸出之間的距離。
這種架構(gòu)可以被認(rèn)為是一個回歸模型,并通過簡單地最小化訓(xùn)練樣本的能量來訓(xùn)練。
然而,對于其他架構(gòu),這樣的訓(xùn)練可能會導(dǎo)致能量函數(shù)的崩潰,即給定一個x,能量(energy)可能會變得「平坦」,為 y 的所有值提供基本相同的能量。
例如,圖b中的聯(lián)合嵌入架構(gòu),將輸入x和y分別編碼為

、

,目標(biāo)是找到這樣的

和

,這樣它們的x和y的表示就是接近的。
如果我們訓(xùn)練模型只是為了最小化編碼器輸出之間的距離,那么兩個編碼器可能會完全忽略輸入而只產(chǎn)生相同的恒定輸出。
對比式方法
為了防止能量崩潰,我們可以采取對比式方法。
x和y是我們希望降低能量的訓(xùn)練數(shù)據(jù)點,在下圖b中表示為藍(lán)點。
?y是一個對比點,在下圖b中表示為綠點,我們需要增加其能量。

能量模型(EBM)的訓(xùn)練:(a) 正確的訓(xùn)練方式在最小化訓(xùn)練樣本的能量的同時防止能量崩潰。(b) 對比式方法通過最小化訓(xùn)練樣本的能量同時增加訓(xùn)練集之外樣本的能量。(c) 正則化方法限制了低能量區(qū)域所占據(jù)的空間體積
當(dāng)最小化

時,我們需要確保訓(xùn)練樣本的能量雄安與訓(xùn)練樣本和對比樣本的能量,至少是邊際m,這取決于y和?y之間的距離。
適當(dāng)?shù)膶Ρ葥p失函數(shù)需要確保非零邊界,以避免能量崩潰。
對比損失函數(shù)可以像下面這個方程中的鉸鏈損失,那樣針對特定數(shù)據(jù)集進(jìn)行成對計算。

對比性方法最核心的問題是如何生成對比性點,然后最大可能性就可以被解釋為對比方性方法的特例。
架構(gòu)方法和正則化方法
我們的主要挑戰(zhàn)在于,選擇如何限制低能量空間的體積。
一種方法是構(gòu)建低能量空間體積受限的體系結(jié)構(gòu)。
另一種方法是添加一個正則化項,該項最小化低能量空間的某種度量。
最后,評分匹配(score matching)是一種正則化技術(shù),它最小化數(shù)據(jù)點周圍能量景觀的梯度并最大化曲率。
幾個能量模型的實例
Hopfield網(wǎng)絡(luò)
Hopfield網(wǎng)絡(luò)網(wǎng)絡(luò)是由John Hopfield在1982年推廣的全連接循環(huán)網(wǎng)絡(luò),方案如圖a所示,能量函數(shù)如下:

但是因為它會出現(xiàn)虛假最小值,使得在實踐中可用性不強。
玻爾茲曼機
在1983年,由Geoffrey Hinton和Terrence Sejnowski提出了Hopfield網(wǎng)絡(luò)的擴(kuò)展,稱為玻爾茲曼機。
它引入了被稱為隱藏單元的神經(jīng)元,如下圖7(b)所示。

它的能量函數(shù)及其自由能如下:

這個提議對整個機器學(xué)習(xí)社區(qū)來說非常重要,因為它首次引入了隱藏單元的概念,即那些輸入和輸出不可觀測的神經(jīng)元。
這些隱藏單元也可以理解為模型的潛變量。
去噪自編碼器
去噪自編碼器(Denoising Autoencoder,AE)是一種對比式EBM。
它是一種經(jīng)過訓(xùn)練的自編碼器,用于恢復(fù)被損壞輸入的干凈版本。
其架構(gòu)示意圖如下圖8(a)所示。

例如,該自編碼器可以經(jīng)過訓(xùn)練,使數(shù)據(jù)點在添加隨機噪聲后恢復(fù)到其原始位置,如圖8(b)所示。
原始數(shù)據(jù)點來自橙色螺旋線,并通過在其位置上添加一些噪聲進(jìn)行損壞。
然后,將損壞的綠色數(shù)據(jù)點作為x輸入到下圖8(a)中的去噪自編碼器,同時提供其干凈版本y。
重構(gòu)誤差是損壞點與原始點之間的距離,當(dāng)最小化時,去噪自編碼器輸出的藍(lán)色數(shù)據(jù)點將回到螺旋線上。
需要注意的是,在同一個問題中,也存在對于去噪自編碼器可能無法處理的問題點。例如,自編碼器無法重構(gòu)位于螺旋線兩個分支之間、與它們等距離的數(shù)據(jù)點。
這個問題是由數(shù)據(jù)的折疊結(jié)構(gòu)導(dǎo)致的,然而,在真實世界的數(shù)據(jù)中很少出現(xiàn)這種情況。
未來自主系統(tǒng)的構(gòu)建模塊
在上文中,我們看到了EBM如何克服概率模型的局限性之后,并且對于高維數(shù)據(jù),可能應(yīng)該使用正則化方法而不是對比式方法來訓(xùn)練它們。
討論了潛變量模型并解釋了它們在結(jié)構(gòu)化預(yù)測問題或融入不確定性方面的用途之后,可以這些優(yōu)勢結(jié)合到一種稱為聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的架構(gòu)中。
這就是昨天Meta發(fā)布的I-JEPA模型的原理。
聯(lián)合嵌入預(yù)測架構(gòu)
聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)是一種將嵌入模塊與潛變量結(jié)合的EBM,如圖9所示。

作為一個EBM,JEPA學(xué)習(xí)輸入數(shù)據(jù)x和y之間的依賴關(guān)系,但是在學(xué)習(xí)的內(nèi)部表示Sx和Sy的層次上進(jìn)行比較,其中si = Enc(i)。
產(chǎn)生表示sx和sy的兩個編碼器可以不同,特別是具有不同的架構(gòu),并且不共享參數(shù)。
由于這一點,輸入數(shù)據(jù)可以具有各種格式(例如視頻和音頻)。
此外,JEPA自然地處理多模態(tài)數(shù)據(jù)。
首先,x和y的編碼器可以具有不變性特性,例如,將各種y映射到相同的Sy。
訓(xùn)練JEPA的最終目標(biāo)是使表示Sx和Sy可以相互預(yù)測。
如我們在第4節(jié)中討論的,EBM可以使用對比式方法和正則化方法進(jìn)行訓(xùn)練,但對比式方法在高維情況下往往效率非常低下。
因此,JEPA可以使用損失函數(shù)進(jìn)行訓(xùn)練,該損失函數(shù)除了包括預(yù)測誤差外,還包括如下圖10所示的正則化項。

特別是為了防止信息能量崩潰,我們需要確保sx和sy盡可能多地攜帶關(guān)于x和y的信息。
否則,訓(xùn)練過程可能會導(dǎo)致編碼器成為常數(shù)。
最后,我們需要最小化或限制潛變量的信息內(nèi)容,以防止模型僅僅依賴于其中的信息。
結(jié)論
在筆記中,我們總結(jié)了LeCun的主要觀點,解決了上邊提到的AI現(xiàn)在發(fā)展中的局限性。
在第3節(jié)中,我們解釋了由于現(xiàn)實世界的數(shù)據(jù)(如視頻或文本)通常具有高維度,基于能量模型的發(fā)展方向(EBM)可能是比概率模型更有前景的發(fā)展方向。
在第4節(jié)中,我們介紹了對訓(xùn)練EBM的對比和正則化方法,并解釋了由于在高維度中生成對比樣本的成本巨大,正則化方法似乎更有前景用于訓(xùn)練未來的EBM。
在第5節(jié)中,我們給出了EBM的歷史和現(xiàn)實的實際用例。
最后,第6節(jié)集中討論了這個事實:人類決策過程基于各種格式和模態(tài)的數(shù)據(jù),其結(jié)構(gòu)通常需要解碼才能進(jìn)行預(yù)測,而且還包含可能是多余的信息。
這種多模態(tài)的障礙可以通過LeCun提出的一種新架構(gòu),在3個維度解決,這種構(gòu)架被稱為聯(lián)合嵌入預(yù)測架構(gòu)(JEPAs)。
最終,我們將要面對的挑戰(zhàn)是使未來的自主AI能夠?qū)Ω鞣N時間尺度和抽象級別上的世界狀態(tài)進(jìn)行預(yù)測。這種多層次的預(yù)測可以通過分層聯(lián)合嵌入預(yù)測架構(gòu)(H-JEPA)來實現(xiàn)。
通過正則化方法訓(xùn)練的這種架構(gòu),可能是設(shè)計能夠在不確定性下的預(yù)測世界模型的起點,這將成為未來自主AI發(fā)展中取得突破。



































