LeCun力薦的JEPA殺入LLM,用CV的思路訓(xùn)練LLM,性能魯棒性雙豐收
LeCun 這次不是批評 LLM,而是親自改造。

當(dāng)前 LLM 的訓(xùn)練(包括預(yù)訓(xùn)練、微調(diào)和評估)主要依賴于在「輸入空間」進(jìn)行重構(gòu)與生成,例如預(yù)測下一個詞。
而在 CV 領(lǐng)域,基于「嵌入空間」的訓(xùn)練目標(biāo),如聯(lián)合嵌入預(yù)測架構(gòu)(JEPA),已被證明遠(yuǎn)優(yōu)于在輸入空間操作的同類方法。

JEPA 的核心概念最早由 Yann LeCun 及其團(tuán)隊提出,旨在通過在抽象表征空間中預(yù)測未來或缺失的特征來高效學(xué)習(xí)世界知識。隨后,Meta AI 團(tuán)隊提出了具體實現(xiàn),包括 I-JEPA(用于圖像、自監(jiān)督學(xué)習(xí)、CVPR 2023)和 V-JEPA(用于視頻),驗證了 JEPA 在視覺表征學(xué)習(xí)中的有效性。
這就啟發(fā)了一個新思路:語言模型的訓(xùn)練,能否從視覺領(lǐng)域獲得一些啟發(fā)?
此前,由于設(shè)計上的挑戰(zhàn),適用于語言任務(wù)的 JEPA 風(fēng)格模型一直未能出現(xiàn)。主要原因是 LLM 的能力主要通過其生成文本來評判,這是一種輸入空間的操作,使得非重構(gòu)的 JEPA 思想難以直接應(yīng)用。
為填補這一空白,Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。這項工作基于 JEPA 理念,首次將這種高效的自監(jiān)督學(xué)習(xí)架構(gòu)成功地從視覺領(lǐng)域擴(kuò)展到了 LLM。
該工作通過將(文本、代碼)等數(shù)據(jù)對視為同一概念的多種視圖,成功地將 JEPA 目標(biāo)應(yīng)用于 LLM,作為標(biāo)準(zhǔn)「文本→代碼」等生成任務(wù)的有效補充。這既保留了 LLM 強大的生成能力,又引入了 JEPA 在嵌入空間學(xué)習(xí)高質(zhì)量表征的優(yōu)勢。

- 論文標(biāo)題: LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
- 論文地址:https://arxiv.org/pdf/2509.14252v1
- 代碼:https://github.com/rbalestr-lab/llm-jepa
實驗證明,LLM-JEPA 的性能顯著超越了標(biāo)準(zhǔn)的 LLM 訓(xùn)練目標(biāo)。該方法不僅表現(xiàn)出色,還對過擬合問題顯示出強大的魯棒性。
這些結(jié)論在 Llama3、OpenELM、Gemma2、Olmo 等多個主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多樣化的數(shù)據(jù)集上均得到了有力驗證。
JEPA-LLM:提升 LLM 的推理與生成能力
LLM 簡介
當(dāng)代 LLM 的構(gòu)建大多遵循著相同的核心原則:即通過堆疊大量的非線性運算層與跳躍連接(即 Transformer 架構(gòu))來搭建。
盡管各模型在細(xì)節(jié)上,如位置嵌入、初始化方法或歸一化層上可能有所不同,但其性能表現(xiàn)的主要驅(qū)動力,依舊是預(yù)訓(xùn)練階段所使用的高質(zhì)量數(shù)據(jù)集。在訓(xùn)練目標(biāo)上,現(xiàn)有方法也基本趨于統(tǒng)一,即自回歸 token 空間重構(gòu)。
作者首先將特定任務(wù)和數(shù)據(jù)集下所使用的典型 LLM 目標(biāo)函數(shù)定義為
。在絕大多數(shù)情況下,該函數(shù)具體表現(xiàn)為一個交叉熵?fù)p失,用于衡量模型預(yù)測的 token 與需要重構(gòu)的真實 token 之間的差異。
值得注意的是,該研究提出的 LLM-JEPA 方法并不依賴于
的具體形式,因此具有很強的通用性,能夠適應(yīng)多種應(yīng)用場景。

在此公式中,Classifier 負(fù)責(zé)根據(jù)上下文 token
來預(yù)測下一個 token
的 logits。整個計算過程通過因果自回歸機制一次性完成。根據(jù)訓(xùn)練階段或任務(wù)的不同,該損失函數(shù)的輸入與輸出也會相應(yīng)變化。
LLM-JEPA 目標(biāo)函數(shù)的設(shè)計
作者以「Text」(文本)和「Code」(代碼)為例,來說明如何處理對同一底層知識的不同「視角(view)」。通過這個例子,讀者可以清晰地理解,LLM-JEPA 目標(biāo)函數(shù)能夠以統(tǒng)一的方式處理各種不同類型的視角。
LLM-JEPA 目標(biāo)函數(shù)的設(shè)計遵循兩大原則:第一,必須保留 LLM 的生成能力,因此算法的起點是傳統(tǒng)的
損失。第二,旨在利用聯(lián)合嵌入預(yù)測任務(wù)來增強 LLM 的抽象能力。
基于此,研究團(tuán)隊在
之上,引入了成熟的 JEPA 目標(biāo),構(gòu)建了如下的完整損失函數(shù) L:

其中,λ≥0 是一個用于平衡兩項損失權(quán)重的超參數(shù);Pred 和 Enc 分別代表預(yù)測器和編碼器網(wǎng)絡(luò);d 則是一個可選擇的度量函數(shù),例如 ?2 距離。下面將對各個組件進(jìn)行詳細(xì)說明。
編碼器: 編碼器的實現(xiàn)方式沿用了 LLM 探查中的常見做法,即取模型最后一層最后一個 token 的 hidden_state 作為輸入序列的嵌入向量。在實踐中,研究團(tuán)隊指出,無法通過單次前向傳播同時產(chǎn)出 Enc(Text) 和 Enc(Code)。一種看似高效的做法是將 [Text,Code] 拼接后輸入,但這需要修改自注意力機制以避免跨視角信息泄露,從而導(dǎo)致方案與特定 LLM 架構(gòu)綁定。為此,研究團(tuán)隊提出通過兩次獨立的前向傳播來分別獲取 Text 和 Code 的編碼。這種方式雖然增加了訓(xùn)練成本,但并不影響推理效率。
度量: 在嵌入向量的比較方面,CV 領(lǐng)域已廣泛采用余弦相似度。因此,該研究建議在 LLM-JEPA 中也采用相同的度量方式。
預(yù)測: 該設(shè)計巧妙地利用了 LLM 的自回歸特性和內(nèi)部的自注意力機制,構(gòu)建了一個權(quán)重綁定預(yù)測器。具體來說,通過在輸入序列末尾添加一個特殊的 [PRED] token ,模型可以對輸入信息進(jìn)行進(jìn)一步的非線性處理,并將最后一層 [PRED] token 對應(yīng)的最終嵌入作為預(yù)測結(jié)果
。由于預(yù)測任務(wù)復(fù)用了 LLM 的內(nèi)部權(quán)重,這種設(shè)計極大地減少了額外的訓(xùn)練開銷和架構(gòu)設(shè)計的復(fù)雜性。實踐中,通過在輸入提示后附加 k 個預(yù)測器 token ,并取最后一個 token 的嵌入作為最終預(yù)測。當(dāng) k=0 時,預(yù)測器退化為恒等函數(shù),即
。
與先前工作的關(guān)系: 研究表明,類似
這樣的輸入空間重構(gòu)損失(token 可視為原始文本的無損壓縮)在視覺領(lǐng)域并非最優(yōu)。受此啟發(fā),一些研究開始為 LLM 引入嵌入空間正則化器。然而,現(xiàn)有方案大多依賴對嵌入空間施加復(fù)雜的結(jié)構(gòu)性約束(如層次結(jié)構(gòu)、聚類等),這與 JEPA 的理念不同。作者同時指出,將(文本問題、代碼差異)這類數(shù)據(jù)對視為不同「視角」并加以利用,在 LLM 微調(diào)中已有應(yīng)用,但它們通常通過生成式任務(wù)(從一個視角生成另一個)來學(xué)習(xí),并未采用 JEPA 風(fēng)格的損失函數(shù)。
實證驗證:LLM-JEPA 性能優(yōu)于傳統(tǒng) LLM
- 傳統(tǒng)
損失無法隱式優(yōu)化 LJEPA 目標(biāo)
研究團(tuán)隊首先觀察到一個關(guān)鍵現(xiàn)象(如圖 4 所示):僅僅最小化傳統(tǒng)的
損失,并不會隱式地優(yōu)化
損失。這一發(fā)現(xiàn)直接說明了在訓(xùn)練中顯式地加入
損失項的必要性。

- LLM-JEPA 能夠提升微調(diào)效果
研究團(tuán)隊在多個主流預(yù)訓(xùn)練 LLM(包括 Llama-3.2-1B-Instruct、gemma-2-2b-it 等)及多種數(shù)據(jù)集(如 NL-RX-SYNTH、GSM8K 等)上展開了全面的微調(diào)實驗。
實驗流程是,首先為每個(模型、數(shù)據(jù)集)組合搜索出最優(yōu)學(xué)習(xí)率,然后在此基礎(chǔ)上,通過網(wǎng)格搜索確定 LLM-JEPA 的兩個關(guān)鍵超參數(shù) k 和 λ 的最佳組合。評估指標(biāo)根據(jù)任務(wù)特性而定,例如在 NL-RX 數(shù)據(jù)集上采用精確匹配準(zhǔn)確率。
實驗結(jié)果(圖 1 左)清晰地表明,LLM-JEPA 能夠在不同模型、不同數(shù)據(jù)集、不同訓(xùn)練時長和不同模型尺寸下全面提升性能。

如表 3 所示,即使在不同的 LoRA 秩配置下,LLM-JEPA 的性能優(yōu)勢依然穩(wěn)固。

此外,研究還提供了證據(jù)(圖 6、7、10),證明 LLM-JEPA 能夠?qū)W習(xí)到從 Text 編碼到 Code 編碼之間的一個近似線性變換。


- LLM-JEPA 同樣能改進(jìn)預(yù)訓(xùn)練過程
為了驗證其在預(yù)訓(xùn)練階段的有效性,研究團(tuán)隊在一個數(shù)據(jù)集上從零開始訓(xùn)練 Llama-3.2-1B-Instruct。結(jié)果如表 1 所示,采用 LLM-JEPA 的模型在學(xué)習(xí)表示的質(zhì)量上顯著優(yōu)于傳統(tǒng)方法。

在另一項對釋義數(shù)據(jù)集的預(yù)訓(xùn)練實驗中,使用 JEPA 預(yù)訓(xùn)練過的模型,在下游情感分類任務(wù)上進(jìn)行微調(diào)時,也表現(xiàn)出更強的性能(表 4)。這證明了 JEPA 在預(yù)訓(xùn)練階段帶來的益處可以遷移到下游任務(wù)。

最后,表 2 的生成樣本表明,經(jīng)過 JEPA 預(yù)訓(xùn)練后,模型在遵循提示進(jìn)行文本生成時,其原有的生成能力并未受到損害。

研究團(tuán)隊表示,盡管當(dāng)前實驗主要聚焦于微調(diào)階段,但初步的預(yù)訓(xùn)練結(jié)果同樣展現(xiàn)了巨大潛力,研究團(tuán)隊計劃在未來工作中對其進(jìn)行更大規(guī)模、更全面的測試。
關(guān)于該方法的局限性,當(dāng)前最主要的瓶頸是訓(xùn)練過程中為獲取多視角表示而導(dǎo)致的三倍計算開銷。
未來,研究團(tuán)隊計劃探索通過掩碼自注意力矩陣等方式,實現(xiàn)在單次前向傳播中完成 LLM-JEPA 損失的計算,以降低訓(xùn)練成本。
不過也有人指出,該方法因嚴(yán)重依賴「配對數(shù)據(jù)」而導(dǎo)致其泛化性不足,再加上高昂的訓(xùn)練成本,使其缺乏實際應(yīng)用價值。

對此你怎么看?
更多細(xì)節(jié)請參見原論文。






























