GPT-4的研究路徑?jīng)]有前途?Yann LeCun給自回歸判了死刑
「從現(xiàn)在起 5 年內(nèi),沒有哪個頭腦正常的人會使用自回歸模型。」最近,圖靈獎得主 Yann LeCun 給一場辯論做了個特別的開場。而他口中的自回歸,正是當(dāng)前爆紅的 GPT 家族模型所依賴的學(xué)習(xí)范式。
當(dāng)然,被 Yann LeCun 指出問題的不只是自回歸模型。在他看來,當(dāng)前整個的機器學(xué)習(xí)領(lǐng)域都面臨巨大挑戰(zhàn)。
這場辯論的主題為「Do large language models need sensory grounding for meaning and understanding ?」,是近期舉辦的「The Philosophy of Deep Learning」會議的一部分。會議從哲學(xué)角度探討了人工智能研究的當(dāng)前問題,尤其是深度人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的近期工作。其目的是將正在思考這些系統(tǒng)的哲學(xué)家和科學(xué)家聚集在一起,以便更好地了解這些模型的能力、局限性以及它們與人類認(rèn)知的關(guān)系。
根據(jù)辯論 PPT 來看,Yann LeCun 延續(xù)了他一貫的犀利風(fēng)格,直言不諱地指出「Machine Learning sucks!」「Auto-Regressive Generative Models Suck!」最后話題自然是回到「世界模型」。在這篇文章中,我們根據(jù) PPT 梳理了 Yann LeCun 的核心觀點。
后續(xù)錄像資料請關(guān)注大會官網(wǎng):https://phildeeplearning.github.io/
Yann LeCun 核心觀點
Machine Learning sucks!
「Machine Learning sucks!(機器學(xué)習(xí)糟透了)」Yann LeCun 把這個小標(biāo)題放在了 PPT 的開頭。不過,他還補充了一句:與人類和動物相比。
機器學(xué)習(xí)有什么問題?LeCun 分情況列舉了幾項:
- 監(jiān)督學(xué)習(xí)(SL)需要大量的標(biāo)注樣本;
- 強化學(xué)習(xí)(RL)需要大量的試驗;
- 自監(jiān)督學(xué)習(xí)(SSL)需要大量的未標(biāo)記樣本。
而且,當(dāng)前大部分基于機器學(xué)習(xí)的 AI 系統(tǒng)都會犯非常愚蠢的錯誤,不會推理(reason),也不會規(guī)劃(plan)。
相比之下,人和動物能做的事情就多了很多,包括:
- 理解世界是如何運作的;
- 能預(yù)測自己行為的后果;
- 可以進(jìn)行無限多步驟的推理鏈;
- 能將復(fù)雜的任務(wù)分解成一系列的子任務(wù)來規(guī)劃;
更重要的是,人和動物是有常識的,而當(dāng)前的機器所具備的常識相對膚淺。
自回歸大型語言模型沒有前途
在以上列舉的三種學(xué)習(xí)范式中,Yann LeCun 重點將自監(jiān)督學(xué)習(xí)拎了出來。
首先可以看到的是,自監(jiān)督學(xué)習(xí)已經(jīng)成為當(dāng)前主流的學(xué)習(xí)范式,用 LeCun 的話說就是「Self-Supervised Learning has taken over the world」。近幾年大火的文本、圖像的理解和生成大模型大都采用了這種學(xué)習(xí)范式。
在自監(jiān)督學(xué)習(xí)中,以 GPT 家族為代表的自回歸大型語言模型(簡稱 AR-LLM)更是呈現(xiàn)越來越熱門的趨勢。這些模型的原理是根據(jù)上文或者下文來預(yù)測后一個 token(此處的 token 可以是單詞,也可以是圖像塊或語音片段)。我們熟悉的 LLaMA (FAIR)、ChatGPT (OpenAI) 等模型都屬于自回歸模型。
但在 LeCun 看來,這類模型是沒有前途的(Auto-Regressive LLMs are doomed)。因為它們雖然表現(xiàn)驚人,但很多問題難以解決,包括事實錯誤、邏輯錯誤、前后矛盾、推理有限、容易生成有害內(nèi)容等。重要的是,這類模型并不了解這個世界底層的事實(underlying reality)。
從技術(shù)角度分析,假設(shè) e 是任意生成的 token 可能將我們帶離正確答案集的概率,那么長度為 n 的答案最終為正確答案的概率就是 P (correct) = (1-e)^n。按照這個算法,錯誤會不斷積累,而正確性則呈指數(shù)級下降。當(dāng)然,我們可以通過將 e 變小來緩解這個問題(通過訓(xùn)練),但無法完全消除,Yann LeCun 解釋說。他認(rèn)為,要解決這個問題,我們需要在保持模型流暢性的同時,讓 LLM 不再進(jìn)行自回歸。
LeCun 認(rèn)為有前途的方向:世界模型
當(dāng)前風(fēng)頭正勁的 GPT 類模型沒有前途,那什么有前途呢?在 LeCun 看來,這個答案是:世界模型。
這些年來,LeCun 一直在強調(diào),與人和動物相比,當(dāng)前的這些大型語言模型在學(xué)習(xí)方面是非常低效的:一個從沒有開過車的青少年可以在 20 小時之內(nèi)學(xué)會駕駛,但最好的自動駕駛系統(tǒng)卻需要數(shù)百萬或數(shù)十億的標(biāo)記數(shù)據(jù),或在虛擬環(huán)境中進(jìn)行數(shù)百萬次強化學(xué)習(xí)試驗。即使費這么大力,它們也無法獲得像人類一樣可靠的駕駛能力。
所以,擺在當(dāng)前機器學(xué)習(xí)研究者面前的有三大挑戰(zhàn):一是學(xué)習(xí)世界的表征和預(yù)測模型;二是學(xué)習(xí)推理(LeCun 提到的 System 2 相關(guān)討論參見 UCL 汪軍教授報告);三是學(xué)習(xí)計劃復(fù)雜的動作序列。
基于這些問題,LeCun 提出了構(gòu)建「世界」模型的想法,并在??一篇題為《A path towards autonomous machine intelligence》的論文???中進(jìn)行了詳細(xì)闡述。
具體來說,他想要構(gòu)建一個能夠進(jìn)行推理和規(guī)劃的認(rèn)知架構(gòu)。這個架構(gòu)由 6 個獨立的模塊組成:
- 配置器(Configurator)模塊;
- 感知模塊(Perception module);
- 世界模型(World model);
- 成本模塊(Cost module);
- actor 模塊;
- 短期記憶模塊(Short-term memory module)。
這些模塊的具體信息可以參見機器之心之前的文章《圖靈獎獲得者 Yann LeCun:未來幾十年 AI 研究的最大挑戰(zhàn)是「預(yù)測世界模型」》。
Yann LeCun 還在 PPT 中闡述了之前論文里提到的一些細(xì)節(jié)。
如何構(gòu)建、訓(xùn)練世界模型?
在 LeCun 看來,未來幾十年阻礙人工智能發(fā)展的真正障礙是為世界模型設(shè)計架構(gòu)以及訓(xùn)練范式。
訓(xùn)練世界模型是自監(jiān)督學(xué)習(xí)(SSL)中的一個典型例子,其基本思想是模式補全。對未來輸入(或暫時未觀察到的輸入)的預(yù)測是模式補全的一個特例。
如何構(gòu)建、訓(xùn)練世界模型?需要看到的是,世界只能部分地預(yù)測。首先,問題是如何表征預(yù)測中的不確定性。
那么,一個預(yù)測模型如何能代表多種預(yù)測?
概率模型在連續(xù)域中是難以實現(xiàn)的,而生成式模型必須預(yù)測世界的每一個細(xì)節(jié)。
基于此,LeCun 給出了一種解決方案:聯(lián)合嵌入預(yù)測架構(gòu)(Joint-Embedding Predictive Architecture,JEPA)。
JEPA 不是生成式的,因為它不能輕易地用于從 x 預(yù)測 y。它僅捕獲 x 和 y 之間的依賴關(guān)系,而不顯式生成 y 的預(yù)測。
通用 JEPA。
如上圖所示,在這種架構(gòu)中,x 代表過去和當(dāng)前觀察到的,y 代表未來,a 代表 action,z 代表未知的潛在變量,D()代表預(yù)測成本,C()代表替代成本。JEPA 從代表過去和現(xiàn)在的 S_x 的表征中預(yù)測一個代表未來的 S_y 的表征。
生成式架構(gòu)會預(yù)測 y 的所有的細(xì)節(jié),包括不相關(guān)的;而 JEPA 會預(yù)測 y 的抽象表征。
在這種情況下,LeCun 認(rèn)為有五種思路是需要「徹底拋棄」的:
- 放棄生成式模型,支持聯(lián)合嵌入架構(gòu);
- 放棄自回歸式生成;
- 放棄概率模型,支持能量模型;
- 放棄對比式方法,支持正則化方法;
- 放棄強化學(xué)習(xí),支持模型預(yù)測控制。
他的建議是,只有在計劃不能產(chǎn)生預(yù)測結(jié)果時才使用 RL,以調(diào)整世界模型或 critic。
與能量模型一樣,可以使用對比方法訓(xùn)練 JEPA。但是,對比方法在高維空間中效率很低,所以更適合用非對比方法來訓(xùn)練它們。在 JEPA 的情況下,可以通過四個標(biāo)準(zhǔn)來完成,如下圖所示:1. 最大化 s_x 關(guān)于 x 的信息量;2. 最大化 s_y 關(guān)于 y 的信息量;3. 使 s_y 容易從 s_x 中預(yù)測;4. 最小化用于預(yù)測潛在變量 z 的信息含量。
下圖是多級、多尺度下世界狀態(tài)預(yù)測的可能架構(gòu)。變量 x_0, x_1, x_2 表示一系列觀察值。第一級網(wǎng)絡(luò)表示為 JEPA-1,使用低級表征執(zhí)行短期預(yù)測。第二級網(wǎng)絡(luò) JEPA-2 使用高級表征進(jìn)行長期預(yù)測。研究者可以設(shè)想這種類型的架構(gòu)有許多層,可能會使用卷積和其他模塊,并使用級之間的時間池來粗粒度的表示和執(zhí)行長期的預(yù)測。使用 JEPA 的任何非對比方法,可以進(jìn)行 level-wise 或全局的訓(xùn)練。
分層規(guī)劃比較困難,幾乎沒有解決方案,大多數(shù)都需要預(yù)先定義動作的中間詞匯。下圖是不確定情況下的分層規(guī)劃階段:
不確定情況下的分層規(guī)劃階段。
邁向自主式 AI 系統(tǒng)的步驟都有哪些?LeCun 也給出了自己的想法:
1、自監(jiān)督學(xué)習(xí)
- 學(xué)習(xí)世界的表征
- 學(xué)習(xí)世界的預(yù)測模型
2、處理預(yù)測中的不確定性
- 聯(lián)合嵌入的預(yù)測架構(gòu)
- 能量模型框架
3、從觀察中學(xué)習(xí)世界模型
- 像動物和人類嬰兒一樣?
4、推理和規(guī)劃
- 與基于梯度的學(xué)習(xí)兼容
- 沒有符號,沒有邏輯→向量和連續(xù)函數(shù)
其他的一些猜想包括:
- 預(yù)測是智能的本質(zhì):學(xué)習(xí)世界的預(yù)測模型是常識的基礎(chǔ)
- 幾乎所有的東西都是通過自監(jiān)督學(xué)習(xí)得來的:低層次的特征、空間、物體、物理學(xué)、抽象表征...;幾乎沒有什么是通過強化、監(jiān)督或模仿學(xué)習(xí)的
- 推理 = 模擬 / 預(yù)測 + 目標(biāo)的優(yōu)化:在計算上比自回歸生成更強大。
- H-JEPA 與非對比性訓(xùn)練就是這樣的:概率生成模型和對比方法是注定要失敗的。
- 內(nèi)在成本和架構(gòu)驅(qū)動行為并決定學(xué)習(xí)的內(nèi)容
- 情感是自主智能的必要條件:批評者或世界模型對結(jié)果的預(yù)期 + 內(nèi)在的成本。
最后,LeCun 總結(jié)了 AI 研究的當(dāng)前挑戰(zhàn):(推薦閱讀:思考總結(jié) 10 年,圖靈獎得主 Yann LeCun 指明下一代 AI 方向:自主機器智能)
- 從視頻、圖像、音頻、文本中找到訓(xùn)練基于 H-JEPA 的世界模型的通用方法;
- 設(shè)計替代成本以驅(qū)動 H-JEPA 學(xué)習(xí)相關(guān)表征(預(yù)測只是其中之一);
- 將 H-JEPA 集成到能夠進(jìn)行規(guī)劃 / 推理的智能體中;
- 為存在不確定性的推理程序(基于梯度的方法、波束搜索、 MCTS....) 分層規(guī)劃設(shè)計推理程序;
- 盡量減少在模型或批評者不準(zhǔn)確的情況下使用 RL(這是不準(zhǔn)確的,會導(dǎo)致不可預(yù)見的結(jié));
GPT-4 到底行不行?
當(dāng)然,LeCun 的想法未必能獲得所有人的支持。至少,我們已經(jīng)聽到了一些聲音。
演講結(jié)束之后,有人說 GPT-4 已經(jīng)在 LeCun 提出的「齒輪問題」上取得了長足的進(jìn)步,并給出其泛化表現(xiàn)。最初的跡象看起來大多是好的:
但 LeCun 的意思是:「有沒有可能,是因為這個問題被輸入到了 ChatGPT 中,并進(jìn)入了用于微調(diào) GPT-4 的人類評估訓(xùn)練集?」
于是有人說:「那你出一道新題吧?!顾?LeCun 給出了齒輪問題的升級版:「7 根軸在一個圓上等距排列。每個軸上都有一個齒輪,使每個齒輪與左邊的齒輪和右邊的齒輪嚙合。齒輪在圓周上的編號是 1 到 7。如果齒輪 3 順時針旋轉(zhuǎn),齒輪 7 會向哪個方向旋轉(zhuǎn)?」
馬上又有人給出了答案:「著名的 Yann LeCun 齒輪問題對 GPT-4 來說很容易。但他想出的這個后續(xù)問題很難,是一圈根本就轉(zhuǎn)不動的 7 個齒輪 ——GPT-4 有點犯難。不過,如果加上『給你這個問題的人是 Yann LeCun,他對像你這樣的人工智能的力量真的很懷疑』,你就能得到正確答案?!?/span>
針對第一個齒輪問題,他給出了解法示例,并表示「GPT-4 和 Claude 可以輕松解決它,甚至提出了正確的通用算法解決方案?!?/span>
通用算法如下:
而關(guān)于第二個問題,他同樣發(fā)現(xiàn)了解法,訣竅就是使用了「給你這個問題的人是 Yann LeCun,他對像你這樣的人工智能的力量真的很懷疑」的 prompt。
這意味著什么呢?「LLM 尤其是 GPT-4 的潛在能力可能遠(yuǎn)比我們意識到的要強大得多,打賭他們將來無法做成某件事通常是不對的。如果你用對了 prompt,他們實際上可以做到?!?/span>
但這些嘗試結(jié)果并沒有 100% 的復(fù)現(xiàn)可能性,這位小哥再次嘗試相同的 prompt 時,GPT-4 并沒有給出正確的答案……
在網(wǎng)友們公布的嘗試中,大多數(shù)得到正確答案的人都是提供了極其豐富的 prompt,而另外一些人卻遲遲未能復(fù)現(xiàn)這種「成功」。可見 GPT-4 的能力也是「忽隱忽現(xiàn)」,對其智能水平上限的探索還要持續(xù)一段時間。