偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LeCun世界模型首項(xiàng)研究來了:自監(jiān)督視覺,像人一樣學(xué)習(xí)和推理,已開源

人工智能 新聞
讓 AI 像人類一樣學(xué)習(xí)和推理,這是人工智能邁向人類智能的重要一步。圖靈獎得主 Yann LeCun 曾提出自監(jiān)督 + 世界模型的解決方案,如今終于有了第一個實(shí)實(shí)在在的視覺模型。

去年初,Meta 首席 AI 科學(xué)家 Yann LeCun 針對「如何才能打造出接近人類水平的 AI」提出了全新的思路。他勾勒出了構(gòu)建人類水平 AI 的另一種愿景,指出學(xué)習(xí)世界模型(即世界如何運(yùn)作的內(nèi)部模型)的能力或許是關(guān)鍵。這種學(xué)到世界運(yùn)作方式內(nèi)部模型的機(jī)器可以更快地學(xué)習(xí)、規(guī)劃完成復(fù)雜的任務(wù),并輕松適應(yīng)不熟悉的情況。

LeCun 認(rèn)為,構(gòu)造自主 AI 需要預(yù)測世界模型,而世界模型必須能夠執(zhí)行多模態(tài)預(yù)測,對應(yīng)的解決方案是一種叫做分層 JEPA(聯(lián)合嵌入預(yù)測架構(gòu))的架構(gòu)。該架構(gòu)可以通過堆疊的方式進(jìn)行更抽象、更長期的預(yù)測。

6 月 9 日,在 2023 北京智源大會開幕式的 keynote 演講中,LeCun 又再次講解了世界模型的概念,他認(rèn)為基于自監(jiān)督的語言模型無法獲得關(guān)于真實(shí)世界的知識,這些模型在本質(zhì)上是不可控的。

圖片

今日,Meta 推出了首個基于 LeCun 世界模型概念的 AI 模型。該模型名為圖像聯(lián)合嵌入預(yù)測架構(gòu)(Image Joint Embedding Predictive Architecture, I-JEPA),它通過創(chuàng)建外部世界的內(nèi)部模型來學(xué)習(xí), 比較圖像的抽象表示(而不是比較像素本身)。

I-JEPA 在多項(xiàng)計算機(jī)視覺任務(wù)上取得非常不錯的效果,并且計算效率遠(yuǎn)高于其他廣泛使用的計算機(jī)視覺模型。此外 I-JEPA 學(xué)得的表示也可以用于很多不同的應(yīng)用,無需進(jìn)行大量微調(diào)。

圖片

舉個例子,Meta 在 72 小時內(nèi)使用 16 塊 A100 GPU 訓(xùn)練了一個 632M 參數(shù)的視覺 transformer 模型,還在 ImageNet 上實(shí)現(xiàn)了 low-shot 分類的 SOTA 性能,其中每個類只有 12 個標(biāo)簽樣本。其他方法通常需要 2 到 10 倍的 GPU 小時數(shù),并在使用相同數(shù)據(jù)量訓(xùn)練時誤差率更高。

相關(guān)的論文《Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture》已被 CVPR 2023 接收。當(dāng)然,所有的訓(xùn)練代碼和模型檢查點(diǎn)都將開源。

圖片

  • 論文地址:https://arxiv.org/pdf/2301.08243.pdf
  • GitHub 地址:https://t.co/DgS9XiwnMz

通過自監(jiān)督學(xué)習(xí)獲取常識型知識

I-JEPA 基于一個事實(shí),即人類僅通過被動觀察就可以了解關(guān)于世界的大量背景知識,這些常識信息被認(rèn)為是實(shí)現(xiàn)智能行為的關(guān)鍵。

通常,AI 研究人員會設(shè)計學(xué)習(xí)算法來捕獲現(xiàn)實(shí)世界的常識,并將其編碼為算法可訪問的數(shù)字表征。為了高效,這些表征需要以自監(jiān)督的方式來學(xué)習(xí),即直接從圖像或聲音等未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),而不是從手動標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。

在高層級上,JEPA 的一個輸入中某個部分的表征是根據(jù)其他部分的表征來預(yù)測的。同時,通過在高抽象層次上預(yù)測表征而不是直接預(yù)測像素值,JEPA 能夠直接學(xué)習(xí)有用的表征,同時避免了生成模型的局限性。

相比之下,生成模型會通過刪除或扭曲模型輸入的部分內(nèi)容來學(xué)習(xí)。然而,生成模型的一個顯著缺點(diǎn)是模型試圖填補(bǔ)每一點(diǎn)缺失的信息,即使現(xiàn)實(shí)世界本質(zhì)上是不可預(yù)測的。因此,生成模型過于關(guān)注不相關(guān)的細(xì)節(jié),而不是捕捉高級可預(yù)測的概念。

圖片

自監(jiān)督學(xué)習(xí)的通用架構(gòu),其中系統(tǒng)學(xué)習(xí)捕獲其輸入之間的關(guān)系。

邁向能力廣泛的 JEPA 的第一步

I-JEPA 的核心思路是以更類似于人類理解的抽象表征來預(yù)測缺失信息。與在像素 /token 空間中進(jìn)行預(yù)測的生成方法相比,I-JEPA 使用抽象的預(yù)測目標(biāo),潛在地消除了不必要的像素級細(xì)節(jié),從而使模型學(xué)習(xí)更多語義特征。

另一個引導(dǎo) I-JEPA 產(chǎn)生語義表征的核心設(shè)計是多塊掩碼策略。該研究使用信息豐富的上下文來預(yù)測包含語義信息的塊,并表明這是非常必要的。

圖片

I-JEPA 使用單個上下文塊來預(yù)測源自同一圖像的各種目標(biāo)塊的表征。

I-JEPA 中的預(yù)測器可以看作是一個原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。更重要的是,這個世界模型是語義級的,因?yàn)樗A(yù)測圖像中不可見區(qū)域的高級信息,而不是像素級細(xì)節(jié)。

圖片

預(yù)測器如何學(xué)習(xí)建模世界的語義。對于每張圖像,藍(lán)框外的部分被編碼并作為上下文提供給預(yù)測器。然后預(yù)測器輸出它期望在藍(lán)框內(nèi)區(qū)域的表示。為了可視化預(yù)測,Meta 訓(xùn)練了一個生成模型, 它生成了由預(yù)測輸出表示的內(nèi)容草圖,并在藍(lán)框內(nèi)顯示樣本輸出。很明顯,預(yù)測器識別出了應(yīng)該填充哪些部分的語義(如狗的頭部、鳥的腿、狼的前肢、建筑物的另一側(cè))。

為了理解模型捕獲的內(nèi)容,Meta 訓(xùn)練了一個隨機(jī)解碼器,將 I-JEPA 預(yù)測的表示映射回像素空間,這展示出了探針操作后在藍(lán)框中進(jìn)行預(yù)測時的模型輸出。這種定性評估表明,I-JEPA 正確捕獲了位置不確定性,并生成了具有正確姿態(tài)的高級對象部分(如狗的頭部、狼的前肢)。

簡而言之,I-JEPA 能夠?qū)W習(xí)對象部分的高級表示,而不會丟棄它們在圖像中的局部位置信息。

高效率、強(qiáng)性能

I-JEPA 預(yù)訓(xùn)練在計算上也很高效,在使用更多計算密集型數(shù)據(jù)增強(qiáng)來生成多個視圖時不會產(chǎn)生任何開銷。目標(biāo)編碼器只需要處理圖像的一個視圖,上下文編碼器只需要處理上下文塊。

實(shí)驗(yàn)發(fā)現(xiàn),I-JEPA 在不使用手動視圖增強(qiáng)的情況下學(xué)習(xí)了強(qiáng)大的現(xiàn)成語義表示,具體可見下圖。此外 I-JEPA 還在 ImageNet-1K 線性探針和半監(jiān)督評估上優(yōu)于像素和 token 重建方法。

圖片

ImageNet-1k 數(shù)據(jù)集上的線性評估。

I-JEPA 還能與以往在語義任務(wù)上依賴手動數(shù)據(jù)增強(qiáng)的方法競爭。相比之下,I-JEPA 在對象計數(shù)和深度預(yù)測等低級視覺任務(wù)上取得了更好的性能。通過使用較小剛性歸納偏置的更簡單模型,I-JEPA 適用于更廣泛的任務(wù)集合。

圖片

low shot 分類準(zhǔn)確性:使用 1% 標(biāo)簽時 ImageNet-1k 上的半監(jiān)督評估結(jié)果(每類只有 12 張標(biāo)簽圖像)。

AI 智能向人類水平更近了一步

I-JEPA 展示了無需通過手動圖像變換來編碼額外知識時,學(xué)習(xí)有競爭力的現(xiàn)成圖像表示的潛力。繼續(xù)推進(jìn) JEPA 以從更豐富模態(tài)中學(xué)習(xí)更通用世界模型將變得特別有趣,比如人們從一個短上下文中對視頻中的將來事件做出長期空間和時間預(yù)測,并利用音頻或文本 prompt 對這些預(yù)測進(jìn)行調(diào)整。

Meta 希望將 JEPA 方法擴(kuò)展到其他領(lǐng)域,比如圖像 - 文本配對數(shù)據(jù)和視頻數(shù)據(jù)。未來,JEPA 模型可以在視頻理解等任務(wù)中得到應(yīng)用。這是應(yīng)用和擴(kuò)展自監(jiān)督方法來學(xué)習(xí)更通用世界模型的重要一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-25 13:27:39

2022-01-21 15:33:56

架構(gòu)模型AI

2025-10-21 09:06:00

2021-12-20 16:23:40

AI 數(shù)據(jù)人工智能

2024-07-12 12:50:46

2022-07-12 16:46:45

DeepMindAIAlphaFold?

2020-03-09 10:00:35

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-04-23 15:13:16

算法模型技術(shù)

2024-12-25 20:13:35

2022-02-24 13:59:59

AI智能體研究

2025-09-04 01:45:00

2025-04-21 08:20:00

視覺模型訓(xùn)練

2020-10-11 21:39:35

計算機(jī)互聯(lián)網(wǎng) 技術(shù)

2025-08-18 18:19:34

AI視覺模型

2021-03-05 12:58:31

AISEER模型

2023-06-15 14:01:00

模型筆記

2024-11-18 08:40:00

2023-04-05 14:19:07

FlinkRedisNoSQL

2024-10-28 10:30:00

AI開源模型

2023-09-04 14:28:33

FlarumDiscourse開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號