偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LeCun力薦的JEPA殺入LLM,用CV的思路訓(xùn)練LLM,性能魯棒性雙豐收

人工智能 新聞
Hai Huang、Yann LeCun 及 Randall Balestriero 提出了?LLM-JEPA。這項工作基于 JEPA 理念,首次將這種高效的自監(jiān)督學(xué)習(xí)架構(gòu)成功地從視覺領(lǐng)域擴(kuò)展到了 LLM。

LeCun 這次不是批評 LLM,而是親自改造。

當(dāng)前 LLM 的訓(xùn)練(包括預(yù)訓(xùn)練、微調(diào)和評估)主要依賴于在「輸入空間」進(jìn)行重構(gòu)與生成,例如預(yù)測下一個詞。

而在 CV 領(lǐng)域,基于「嵌入空間」的訓(xùn)練目標(biāo),如聯(lián)合嵌入預(yù)測架構(gòu)(JEPA),已被證明遠(yuǎn)優(yōu)于在輸入空間操作的同類方法。

JEPA 的核心概念最早由 Yann LeCun 及其團(tuán)隊提出,旨在通過在抽象表征空間中預(yù)測未來或缺失的特征來高效學(xué)習(xí)世界知識。隨后,Meta AI 團(tuán)隊提出了具體實現(xiàn),包括 I-JEPA(用于圖像、自監(jiān)督學(xué)習(xí)、CVPR 2023)和 V-JEPA(用于視頻),驗證了 JEPA 在視覺表征學(xué)習(xí)中的有效性。

這就啟發(fā)了一個新思路:語言模型的訓(xùn)練,能否從視覺領(lǐng)域獲得一些啟發(fā)?

此前,由于設(shè)計上的挑戰(zhàn),適用于語言任務(wù)的 JEPA 風(fēng)格模型一直未能出現(xiàn)。主要原因是 LLM 的能力主要通過其生成文本來評判,這是一種輸入空間的操作,使得非重構(gòu)的 JEPA 思想難以直接應(yīng)用。

為填補這一空白,Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。這項工作基于 JEPA 理念,首次將這種高效的自監(jiān)督學(xué)習(xí)架構(gòu)成功地從視覺領(lǐng)域擴(kuò)展到了 LLM。

該工作通過將(文本、代碼)等數(shù)據(jù)對視為同一概念的多種視圖,成功地將 JEPA 目標(biāo)應(yīng)用于 LLM,作為標(biāo)準(zhǔn)「文本→代碼」等生成任務(wù)的有效補充。這既保留了 LLM 強大的生成能力,又引入了 JEPA 在嵌入空間學(xué)習(xí)高質(zhì)量表征的優(yōu)勢。

  • 論文標(biāo)題: LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
  • 論文地址:https://arxiv.org/pdf/2509.14252v1
  • 代碼:https://github.com/rbalestr-lab/llm-jepa

實驗證明,LLM-JEPA 的性能顯著超越了標(biāo)準(zhǔn)的 LLM 訓(xùn)練目標(biāo)。該方法不僅表現(xiàn)出色,還對過擬合問題顯示出強大的魯棒性。

這些結(jié)論在 Llama3、OpenELM、Gemma2、Olmo 等多個主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多樣化的數(shù)據(jù)集上均得到了有力驗證。

JEPA-LLM:提升 LLM 的推理與生成能力

LLM 簡介

當(dāng)代 LLM 的構(gòu)建大多遵循著相同的核心原則:即通過堆疊大量的非線性運算層與跳躍連接(即 Transformer 架構(gòu))來搭建。

盡管各模型在細(xì)節(jié)上,如位置嵌入、初始化方法或歸一化層上可能有所不同,但其性能表現(xiàn)的主要驅(qū)動力,依舊是預(yù)訓(xùn)練階段所使用的高質(zhì)量數(shù)據(jù)集。在訓(xùn)練目標(biāo)上,現(xiàn)有方法也基本趨于統(tǒng)一,即自回歸 token 空間重構(gòu)。

作者首先將特定任務(wù)和數(shù)據(jù)集下所使用的典型 LLM 目標(biāo)函數(shù)定義為。在絕大多數(shù)情況下,該函數(shù)具體表現(xiàn)為一個交叉熵?fù)p失,用于衡量模型預(yù)測的 token 與需要重構(gòu)的真實 token 之間的差異。

值得注意的是,該研究提出的 LLM-JEPA 方法并不依賴于的具體形式,因此具有很強的通用性,能夠適應(yīng)多種應(yīng)用場景。

在此公式中,Classifier 負(fù)責(zé)根據(jù)上下文 token  來預(yù)測下一個 token 的 logits。整個計算過程通過因果自回歸機制一次性完成。根據(jù)訓(xùn)練階段或任務(wù)的不同,該損失函數(shù)的輸入與輸出也會相應(yīng)變化。

LLM-JEPA 目標(biāo)函數(shù)的設(shè)計

作者以「Text」(文本)和「Code」(代碼)為例,來說明如何處理對同一底層知識的不同「視角(view)」。通過這個例子,讀者可以清晰地理解,LLM-JEPA 目標(biāo)函數(shù)能夠以統(tǒng)一的方式處理各種不同類型的視角。

LLM-JEPA 目標(biāo)函數(shù)的設(shè)計遵循兩大原則:第一,必須保留 LLM 的生成能力,因此算法的起點是傳統(tǒng)的損失。第二,旨在利用聯(lián)合嵌入預(yù)測任務(wù)來增強 LLM 的抽象能力。

基于此,研究團(tuán)隊在之上,引入了成熟的 JEPA 目標(biāo),構(gòu)建了如下的完整損失函數(shù) L:

其中,λ≥0 是一個用于平衡兩項損失權(quán)重的超參數(shù);Pred 和 Enc 分別代表預(yù)測器和編碼器網(wǎng)絡(luò);d 則是一個可選擇的度量函數(shù),例如 ?2 距離。下面將對各個組件進(jìn)行詳細(xì)說明。

編碼器: 編碼器的實現(xiàn)方式沿用了 LLM 探查中的常見做法,即取模型最后一層最后一個 token 的 hidden_state 作為輸入序列的嵌入向量。在實踐中,研究團(tuán)隊指出,無法通過單次前向傳播同時產(chǎn)出 Enc(Text) 和 Enc(Code)。一種看似高效的做法是將 [Text,Code] 拼接后輸入,但這需要修改自注意力機制以避免跨視角信息泄露,從而導(dǎo)致方案與特定 LLM 架構(gòu)綁定。為此,研究團(tuán)隊提出通過兩次獨立的前向傳播來分別獲取 Text 和 Code 的編碼。這種方式雖然增加了訓(xùn)練成本,但并不影響推理效率。

度量: 在嵌入向量的比較方面,CV 領(lǐng)域已廣泛采用余弦相似度。因此,該研究建議在 LLM-JEPA 中也采用相同的度量方式。

預(yù)測: 該設(shè)計巧妙地利用了 LLM 的自回歸特性和內(nèi)部的自注意力機制,構(gòu)建了一個權(quán)重綁定預(yù)測器。具體來說,通過在輸入序列末尾添加一個特殊的 [PRED]  token ,模型可以對輸入信息進(jìn)行進(jìn)一步的非線性處理,并將最后一層 [PRED]  token 對應(yīng)的最終嵌入作為預(yù)測結(jié)果。由于預(yù)測任務(wù)復(fù)用了 LLM 的內(nèi)部權(quán)重,這種設(shè)計極大地減少了額外的訓(xùn)練開銷和架構(gòu)設(shè)計的復(fù)雜性。實踐中,通過在輸入提示后附加 k 個預(yù)測器 token ,并取最后一個 token 的嵌入作為最終預(yù)測。當(dāng) k=0 時,預(yù)測器退化為恒等函數(shù),即

與先前工作的關(guān)系: 研究表明,類似這樣的輸入空間重構(gòu)損失(token 可視為原始文本的無損壓縮)在視覺領(lǐng)域并非最優(yōu)。受此啟發(fā),一些研究開始為 LLM 引入嵌入空間正則化器。然而,現(xiàn)有方案大多依賴對嵌入空間施加復(fù)雜的結(jié)構(gòu)性約束(如層次結(jié)構(gòu)、聚類等),這與 JEPA 的理念不同。作者同時指出,將(文本問題、代碼差異)這類數(shù)據(jù)對視為不同「視角」并加以利用,在 LLM 微調(diào)中已有應(yīng)用,但它們通常通過生成式任務(wù)(從一個視角生成另一個)來學(xué)習(xí),并未采用 JEPA 風(fēng)格的損失函數(shù)。

實證驗證:LLM-JEPA 性能優(yōu)于傳統(tǒng) LLM
  • 傳統(tǒng)損失無法隱式優(yōu)化 LJEPA 目標(biāo)

研究團(tuán)隊首先觀察到一個關(guān)鍵現(xiàn)象(如圖 4 所示):僅僅最小化傳統(tǒng)的損失,并不會隱式地優(yōu)化損失。這一發(fā)現(xiàn)直接說明了在訓(xùn)練中顯式地加入損失項的必要性。

  • LLM-JEPA 能夠提升微調(diào)效果

研究團(tuán)隊在多個主流預(yù)訓(xùn)練 LLM(包括 Llama-3.2-1B-Instruct、gemma-2-2b-it 等)及多種數(shù)據(jù)集(如 NL-RX-SYNTH、GSM8K 等)上展開了全面的微調(diào)實驗。

實驗流程是,首先為每個(模型、數(shù)據(jù)集)組合搜索出最優(yōu)學(xué)習(xí)率,然后在此基礎(chǔ)上,通過網(wǎng)格搜索確定 LLM-JEPA 的兩個關(guān)鍵超參數(shù) k 和 λ 的最佳組合。評估指標(biāo)根據(jù)任務(wù)特性而定,例如在 NL-RX 數(shù)據(jù)集上采用精確匹配準(zhǔn)確率。

實驗結(jié)果(圖 1 左)清晰地表明,LLM-JEPA 能夠在不同模型、不同數(shù)據(jù)集、不同訓(xùn)練時長和不同模型尺寸下全面提升性能。

如表 3 所示,即使在不同的 LoRA 秩配置下,LLM-JEPA 的性能優(yōu)勢依然穩(wěn)固。

此外,研究還提供了證據(jù)(圖 6、7、10),證明 LLM-JEPA 能夠?qū)W習(xí)到從 Text 編碼到 Code 編碼之間的一個近似線性變換。

  • LLM-JEPA 同樣能改進(jìn)預(yù)訓(xùn)練過程

為了驗證其在預(yù)訓(xùn)練階段的有效性,研究團(tuán)隊在一個數(shù)據(jù)集上從零開始訓(xùn)練 Llama-3.2-1B-Instruct。結(jié)果如表 1 所示,采用 LLM-JEPA 的模型在學(xué)習(xí)表示的質(zhì)量上顯著優(yōu)于傳統(tǒng)方法。

在另一項對釋義數(shù)據(jù)集的預(yù)訓(xùn)練實驗中,使用 JEPA 預(yù)訓(xùn)練過的模型,在下游情感分類任務(wù)上進(jìn)行微調(diào)時,也表現(xiàn)出更強的性能(表 4)。這證明了 JEPA 在預(yù)訓(xùn)練階段帶來的益處可以遷移到下游任務(wù)。

最后,表 2 的生成樣本表明,經(jīng)過 JEPA 預(yù)訓(xùn)練后,模型在遵循提示進(jìn)行文本生成時,其原有的生成能力并未受到損害。

研究團(tuán)隊表示,盡管當(dāng)前實驗主要聚焦于微調(diào)階段,但初步的預(yù)訓(xùn)練結(jié)果同樣展現(xiàn)了巨大潛力,研究團(tuán)隊計劃在未來工作中對其進(jìn)行更大規(guī)模、更全面的測試。

關(guān)于該方法的局限性,當(dāng)前最主要的瓶頸是訓(xùn)練過程中為獲取多視角表示而導(dǎo)致的三倍計算開銷。

未來,研究團(tuán)隊計劃探索通過掩碼自注意力矩陣等方式,實現(xiàn)在單次前向傳播中完成 LLM-JEPA 損失的計算,以降低訓(xùn)練成本。

不過也有人指出,該方法因嚴(yán)重依賴「配對數(shù)據(jù)」而導(dǎo)致其泛化性不足,再加上高昂的訓(xùn)練成本,使其缺乏實際應(yīng)用價值

對此你怎么看?

更多細(xì)節(jié)請參見原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2013-07-01 16:32:18

百度云Push免費云Push

2009-04-01 10:43:00

3G室內(nèi)覆蓋

2013-11-18 11:21:30

SiteApp網(wǎng)站移動化

2015-02-05 17:56:12

51CTO學(xué)院iOS就業(yè)班高薪開發(fā)

2023-08-25 17:10:14

LLM人工智能

2022-02-21 08:00:00

管理系統(tǒng)應(yīng)用程序模式

2022-03-25 22:25:10

AI模型訓(xùn)練

2023-09-27 08:18:03

2025-08-24 09:24:07

2024-09-25 08:46:31

2024-12-30 10:35:00

訓(xùn)練數(shù)據(jù)模型

2024-06-18 08:52:50

LLM算法深度學(xué)習(xí)

2023-06-30 09:00:00

Falcon LLM開源

2024-12-11 08:12:24

2024-03-11 07:40:00

開源AGI

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2025-02-20 14:44:06

點贊
收藏

51CTO技術(shù)棧公眾號