偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LeCun力薦的JEPA殺入LLM，用CV的思路訓(xùn)練LLM，性能魯棒性雙豐收

2025-09-23 09:02:00

人工智能新聞

Hai Huang、Yann LeCun 及 Randall Balestriero 提出了?LLM-JEPA。這項工作基于 JEPA 理念，首次將這種高效的自監(jiān)督學(xué)習(xí)架構(gòu)成功地從視覺領(lǐng)域擴(kuò)展到了 LLM。

LeCun 這次不是批評 LLM，而是親自改造。

當(dāng)前 LLM 的訓(xùn)練（包括預(yù)訓(xùn)練、微調(diào)和評估）主要依賴于在「輸入空間」進(jìn)行重構(gòu)與生成，例如預(yù)測下一個詞。

而在 CV 領(lǐng)域，基于「嵌入空間」的訓(xùn)練目標(biāo)，如聯(lián)合嵌入預(yù)測架構(gòu)（JEPA），已被證明遠(yuǎn)優(yōu)于在輸入空間操作的同類方法。

JEPA 的核心概念最早由 Yann LeCun 及其團(tuán)隊提出，旨在通過在抽象表征空間中預(yù)測未來或缺失的特征來高效學(xué)習(xí)世界知識。隨后，Meta AI 團(tuán)隊提出了具體實現(xiàn)，包括 I-JEPA（用于圖像、自監(jiān)督學(xué)習(xí)、CVPR 2023）和 V-JEPA（用于視頻），驗證了 JEPA 在視覺表征學(xué)習(xí)中的有效性。

這就啟發(fā)了一個新思路：語言模型的訓(xùn)練，能否從視覺領(lǐng)域獲得一些啟發(fā)？

此前，由于設(shè)計上的挑戰(zhàn)，適用于語言任務(wù)的 JEPA 風(fēng)格模型一直未能出現(xiàn)。主要原因是 LLM 的能力主要通過其生成文本來評判，這是一種輸入空間的操作，使得非重構(gòu)的 JEPA 思想難以直接應(yīng)用。

為填補這一空白，Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。這項工作基于 JEPA 理念，首次將這種高效的自監(jiān)督學(xué)習(xí)架構(gòu)成功地從視覺領(lǐng)域擴(kuò)展到了 LLM。

該工作通過將（文本、代碼）等數(shù)據(jù)對視為同一概念的多種視圖，成功地將 JEPA 目標(biāo)應(yīng)用于 LLM，作為標(biāo)準(zhǔn)「文本→代碼」等生成任務(wù)的有效補充。這既保留了 LLM 強大的生成能力，又引入了 JEPA 在嵌入空間學(xué)習(xí)高質(zhì)量表征的優(yōu)勢。

論文標(biāo)題： LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
論文地址：https://arxiv.org/pdf/2509.14252v1
代碼：https://github.com/rbalestr-lab/llm-jepa

實驗證明，LLM-JEPA 的性能顯著超越了標(biāo)準(zhǔn)的 LLM 訓(xùn)練目標(biāo)。該方法不僅表現(xiàn)出色，還對過擬合問題顯示出強大的魯棒性。

這些結(jié)論在 Llama3、OpenELM、Gemma2、Olmo 等多個主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多樣化的數(shù)據(jù)集上均得到了有力驗證。

JEPA-LLM：提升 LLM 的推理與生成能力

LLM 簡介

當(dāng)代 LLM 的構(gòu)建大多遵循著相同的核心原則：即通過堆疊大量的非線性運算層與跳躍連接（即 Transformer 架構(gòu)）來搭建。

盡管各模型在細(xì)節(jié)上，如位置嵌入、初始化方法或歸一化層上可能有所不同，但其性能表現(xiàn)的主要驅(qū)動力，依舊是預(yù)訓(xùn)練階段所使用的高質(zhì)量數(shù)據(jù)集。在訓(xùn)練目標(biāo)上，現(xiàn)有方法也基本趨于統(tǒng)一，即自回歸 token 空間重構(gòu)。

作者首先將特定任務(wù)和數(shù)據(jù)集下所使用的典型 LLM 目標(biāo)函數(shù)定義為。在絕大多數(shù)情況下，該函數(shù)具體表現(xiàn)為一個交叉熵?fù)p失，用于衡量模型預(yù)測的 token 與需要重構(gòu)的真實 token 之間的差異。

值得注意的是，該研究提出的 LLM-JEPA 方法并不依賴于的具體形式，因此具有很強的通用性，能夠適應(yīng)多種應(yīng)用場景。

在此公式中，Classifier 負(fù)責(zé)根據(jù)上下文 token 來預(yù)測下一個 token 的 logits。整個計算過程通過因果自回歸機制一次性完成。根據(jù)訓(xùn)練階段或任務(wù)的不同，該損失函數(shù)的輸入與輸出也會相應(yīng)變化。

LLM-JEPA 目標(biāo)函數(shù)的設(shè)計

作者以「Text」（文本）和「Code」（代碼）為例，來說明如何處理對同一底層知識的不同「視角（view）」。通過這個例子，讀者可以清晰地理解，LLM-JEPA 目標(biāo)函數(shù)能夠以統(tǒng)一的方式處理各種不同類型的視角。

LLM-JEPA 目標(biāo)函數(shù)的設(shè)計遵循兩大原則：第一，必須保留 LLM 的生成能力，因此算法的起點是傳統(tǒng)的損失。第二，旨在利用聯(lián)合嵌入預(yù)測任務(wù)來增強 LLM 的抽象能力。

基于此，研究團(tuán)隊在之上，引入了成熟的 JEPA 目標(biāo)，構(gòu)建了如下的完整損失函數(shù) L：

其中，λ≥0 是一個用于平衡兩項損失權(quán)重的超參數(shù)；Pred 和 Enc 分別代表預(yù)測器和編碼器網(wǎng)絡(luò)；d 則是一個可選擇的度量函數(shù)，例如 ?2 距離。下面將對各個組件進(jìn)行詳細(xì)說明。

編碼器： 編碼器的實現(xiàn)方式沿用了 LLM 探查中的常見做法，即取模型最后一層最后一個 token 的 hidden_state 作為輸入序列的嵌入向量。在實踐中，研究團(tuán)隊指出，無法通過單次前向傳播同時產(chǎn)出 Enc(Text) 和 Enc(Code)。一種看似高效的做法是將 [Text,Code] 拼接后輸入，但這需要修改自注意力機制以避免跨視角信息泄露，從而導(dǎo)致方案與特定 LLM 架構(gòu)綁定。為此，研究團(tuán)隊提出通過兩次獨立的前向傳播來分別獲取 Text 和 Code 的編碼。這種方式雖然增加了訓(xùn)練成本，但并不影響推理效率。

度量： 在嵌入向量的比較方面，CV 領(lǐng)域已廣泛采用余弦相似度。因此，該研究建議在 LLM-JEPA 中也采用相同的度量方式。

預(yù)測： 該設(shè)計巧妙地利用了 LLM 的自回歸特性和內(nèi)部的自注意力機制，構(gòu)建了一個權(quán)重綁定預(yù)測器。具體來說，通過在輸入序列末尾添加一個特殊的 [PRED] token ，模型可以對輸入信息進(jìn)行進(jìn)一步的非線性處理，并將最后一層 [PRED] token 對應(yīng)的最終嵌入作為預(yù)測結(jié)果。由于預(yù)測任務(wù)復(fù)用了 LLM 的內(nèi)部權(quán)重，這種設(shè)計極大地減少了額外的訓(xùn)練開銷和架構(gòu)設(shè)計的復(fù)雜性。實踐中，通過在輸入提示后附加 k 個預(yù)測器 token ，并取最后一個 token 的嵌入作為最終預(yù)測。當(dāng) k=0 時，預(yù)測器退化為恒等函數(shù)，即。

與先前工作的關(guān)系： 研究表明，類似這樣的輸入空間重構(gòu)損失（token 可視為原始文本的無損壓縮）在視覺領(lǐng)域并非最優(yōu)。受此啟發(fā)，一些研究開始為 LLM 引入嵌入空間正則化器。然而，現(xiàn)有方案大多依賴對嵌入空間施加復(fù)雜的結(jié)構(gòu)性約束（如層次結(jié)構(gòu)、聚類等），這與 JEPA 的理念不同。作者同時指出，將（文本問題、代碼差異）這類數(shù)據(jù)對視為不同「視角」并加以利用，在 LLM 微調(diào)中已有應(yīng)用，但它們通常通過生成式任務(wù)（從一個視角生成另一個）來學(xué)習(xí)，并未采用 JEPA 風(fēng)格的損失函數(shù)。

實證驗證：LLM-JEPA 性能優(yōu)于傳統(tǒng) LLM

傳統(tǒng)損失無法隱式優(yōu)化 LJEPA 目標(biāo)

研究團(tuán)隊首先觀察到一個關(guān)鍵現(xiàn)象（如圖 4 所示）：僅僅最小化傳統(tǒng)的損失，并不會隱式地優(yōu)化損失。這一發(fā)現(xiàn)直接說明了在訓(xùn)練中顯式地加入損失項的必要性。

LLM-JEPA 能夠提升微調(diào)效果

研究團(tuán)隊在多個主流預(yù)訓(xùn)練 LLM（包括 Llama-3.2-1B-Instruct、gemma-2-2b-it 等）及多種數(shù)據(jù)集（如 NL-RX-SYNTH、GSM8K 等）上展開了全面的微調(diào)實驗。

實驗流程是，首先為每個（模型、數(shù)據(jù)集）組合搜索出最優(yōu)學(xué)習(xí)率，然后在此基礎(chǔ)上，通過網(wǎng)格搜索確定 LLM-JEPA 的兩個關(guān)鍵超參數(shù) k 和 λ 的最佳組合。評估指標(biāo)根據(jù)任務(wù)特性而定，例如在 NL-RX 數(shù)據(jù)集上采用精確匹配準(zhǔn)確率。

實驗結(jié)果（圖 1 左）清晰地表明，LLM-JEPA 能夠在不同模型、不同數(shù)據(jù)集、不同訓(xùn)練時長和不同模型尺寸下全面提升性能。

如表 3 所示，即使在不同的 LoRA 秩配置下，LLM-JEPA 的性能優(yōu)勢依然穩(wěn)固。

此外，研究還提供了證據(jù)（圖 6、7、10），證明 LLM-JEPA 能夠?qū)W習(xí)到從 Text 編碼到 Code 編碼之間的一個近似線性變換。

LLM-JEPA 同樣能改進(jìn)預(yù)訓(xùn)練過程

為了驗證其在預(yù)訓(xùn)練階段的有效性，研究團(tuán)隊在一個數(shù)據(jù)集上從零開始訓(xùn)練 Llama-3.2-1B-Instruct。結(jié)果如表 1 所示，采用 LLM-JEPA 的模型在學(xué)習(xí)表示的質(zhì)量上顯著優(yōu)于傳統(tǒng)方法。

在另一項對釋義數(shù)據(jù)集的預(yù)訓(xùn)練實驗中，使用 JEPA 預(yù)訓(xùn)練過的模型，在下游情感分類任務(wù)上進(jìn)行微調(diào)時，也表現(xiàn)出更強的性能（表 4）。這證明了 JEPA 在預(yù)訓(xùn)練階段帶來的益處可以遷移到下游任務(wù)。

最后，表 2 的生成樣本表明，經(jīng)過 JEPA 預(yù)訓(xùn)練后，模型在遵循提示進(jìn)行文本生成時，其原有的生成能力并未受到損害。

研究團(tuán)隊表示，盡管當(dāng)前實驗主要聚焦于微調(diào)階段，但初步的預(yù)訓(xùn)練結(jié)果同樣展現(xiàn)了巨大潛力，研究團(tuán)隊計劃在未來工作中對其進(jìn)行更大規(guī)模、更全面的測試。

關(guān)于該方法的局限性，當(dāng)前最主要的瓶頸是訓(xùn)練過程中為獲取多視角表示而導(dǎo)致的三倍計算開銷。

未來，研究團(tuán)隊計劃探索通過掩碼自注意力矩陣等方式，實現(xiàn)在單次前向傳播中完成 LLM-JEPA 損失的計算，以降低訓(xùn)練成本。

不過也有人指出，該方法因嚴(yán)重依賴「配對數(shù)據(jù)」而導(dǎo)致其泛化性不足，再加上高昂的訓(xùn)練成本，使其缺乏實際應(yīng)用價值。

對此你怎么看？

更多細(xì)節(jié)請參見原論文。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營