剛剛,LeCun親自出鏡,Meta推出新世界模型!
最近,Meta 大動(dòng)作不斷。
前些天有外媒曝出馬克?扎克伯格正在組建一個(gè)名為「超級(jí)智能團(tuán)隊(duì)」的專(zhuān)家團(tuán)隊(duì),以實(shí)現(xiàn)通用人工智能。隨后開(kāi)出 9 位數(shù)的薪酬為該團(tuán)隊(duì)吸納人才。
就在剛剛,Meta 又有新的動(dòng)作,推出基于視頻訓(xùn)練的世界模型 V-JEPA 2(全稱(chēng) Video Joint Embedding Predictive Architecture 2)。其能夠?qū)崿F(xiàn)最先進(jìn)的環(huán)境理解與預(yù)測(cè)能力,并在新環(huán)境中完成零樣本規(guī)劃與機(jī)器人控制。

Meta 表示,他們?cè)谧非蟾呒?jí)機(jī)器智能(AMI)的目標(biāo)過(guò)程中,關(guān)鍵在于開(kāi)發(fā)出能像人類(lèi)一樣認(rèn)知世界、規(guī)劃陌生任務(wù)執(zhí)行方案,并高效適應(yīng)不斷變化環(huán)境的 AI 系統(tǒng)。
這次,Meta 首席 AI 科學(xué)家 Yann LeCun 親自出鏡,介紹世界模型與其他 AI 模型的不同。
他說(shuō),世界模型是一種現(xiàn)實(shí)的抽象數(shù)字孿生,AI 可以參考它來(lái)理解世界并預(yù)測(cè)其行為的后果。與理解語(yǔ)言不同,世界模型使機(jī)器能夠理解物理世界,并能夠規(guī)劃行動(dòng)路線以完成任務(wù),而無(wú)需進(jìn)行數(shù)百萬(wàn)次的試驗(yàn),因?yàn)槭澜缒P吞峁┝藢?duì)世界運(yùn)行方式的基本理解。能夠使用世界模型進(jìn)行推理和規(guī)劃的 AI 將產(chǎn)生廣泛影響。例如,它可以用于幫助視障人士的輔助技術(shù)、在混合現(xiàn)實(shí)中為復(fù)雜任務(wù)提供指導(dǎo)、使教育更加個(gè)性化,甚至可以理解代碼對(duì)程序狀態(tài)和外部世界的影響。
此外,世界模型對(duì)于自動(dòng)駕駛汽車(chē)和機(jī)器人等自主系統(tǒng)至關(guān)重要,它將開(kāi)啟機(jī)器人技術(shù)的新紀(jì)元,使現(xiàn)實(shí)世界中的 AI 智能體能夠在不需要大量機(jī)器人訓(xùn)練數(shù)據(jù)的情況下幫助完成家務(wù)和體力任務(wù)。
V-JEPA 2 擁有 12 億參數(shù),基于聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)構(gòu)建。在此之前,Meta 已經(jīng)證明,JEPA 架構(gòu)在處理圖像和 3D 點(diǎn)云等模態(tài)方面出色的表現(xiàn)。
此次發(fā)布的 V-JEPA 2 是在去年首個(gè)基于視頻訓(xùn)練模型 V-JEPA 的基礎(chǔ)上,進(jìn)一步提升了動(dòng)作預(yù)測(cè)和世界建模能力,使機(jī)器人能夠通過(guò)與陌生物體及環(huán)境交互來(lái)完成任務(wù)。
我們先看幾個(gè)示例:
開(kāi)啟對(duì)世界的理解。V-JEPA 2 與語(yǔ)言建模相結(jié)合,可提供卓越的運(yùn)動(dòng)理解以及領(lǐng)先的視覺(jué)推理能力。當(dāng)視頻中的人跳向水面時(shí),V-JEPA 2 給出了解讀:向前,1.5 周空翻,無(wú)轉(zhuǎn)體。

預(yù)測(cè)下一步會(huì)發(fā)生什么。V-JEPA 2 可以預(yù)測(cè)世界將如何發(fā)展。示例中,當(dāng)人正在做當(dāng)前事情時(shí),V-JEPA 2 能夠預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。
下面是 V-JEPA 2 的一些性能指標(biāo):

目前,V-JEPA 2 相關(guān)論文、下載鏈接等已經(jīng)放出。

- 論文標(biāo)題:V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
- 論文鏈接:https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
- 項(xiàng)目鏈接:https://github.com/facebookresearch/vjepa2
- HuggingFace 鏈接:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
- 項(xiàng)目網(wǎng)站:https://ai.meta.com/vjepa/
V-JEPA 2 有哪些創(chuàng)新?
V-JEPA 2 基于 JEPA 構(gòu)建,包含兩個(gè)主要組件:
- 編碼器,用于接收原始視頻并輸出嵌入,這些嵌入能夠捕捉世界狀態(tài)的語(yǔ)義信息。
- 預(yù)測(cè)器,用于接收視頻嵌入以及關(guān)于預(yù)測(cè)內(nèi)容的附加上下文,并輸出預(yù)測(cè)后的嵌入。
在訓(xùn)練過(guò)程中,Meta 使用基于視頻的自監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練 V-JEPA 2,因而無(wú)需額外的人工注釋即可在視頻上進(jìn)行訓(xùn)練。
V-JEPA 2 訓(xùn)練包含兩個(gè)階段:無(wú)動(dòng)作預(yù)訓(xùn)練,以及后續(xù)的動(dòng)作條件訓(xùn)練。
在第一階段 —— 預(yù)訓(xùn)練階段,Meta 使用了超過(guò) 100 萬(wàn)小時(shí)的視頻和 100 萬(wàn)張圖像。這些豐富的視覺(jué)數(shù)據(jù)有助于模型深入了解世界的運(yùn)作方式,包括人與物體的交互方式、物體在物理世界中的移動(dòng)方式以及物體與其他物體的互動(dòng)方式。
僅僅經(jīng)過(guò)預(yù)訓(xùn)練,Meta 就發(fā)現(xiàn)模型已經(jīng)展現(xiàn)出與理解和預(yù)測(cè)相關(guān)的關(guān)鍵能力。例如,通過(guò)在凍結(jié)編碼器和預(yù)測(cè)器特征的基礎(chǔ)上訓(xùn)練注意力讀出(read-out)模型,V-JEPA 2 在 Epic-Kitchens-100 動(dòng)作預(yù)測(cè)任務(wù)中創(chuàng)造了新的最高紀(jì)錄,該任務(wù)可以根據(jù)以自我為中心的視頻預(yù)測(cè)未來(lái) 1 秒將執(zhí)行的動(dòng)作(由名詞和動(dòng)詞組成)。最后,將 V-JEPA 2 與語(yǔ)言模型相結(jié)合,可以在視頻問(wèn)答基準(zhǔn)(例如感知測(cè)試和 TempCompass)上實(shí)現(xiàn)最先進(jìn)的性能。
在第一階段之后,模型能夠預(yù)測(cè)世界狀態(tài)的可能演變。然而,這些預(yù)測(cè)并沒(méi)有直接考慮智能體將采取的具體行動(dòng)。
因而,在訓(xùn)練的第二階段,Meta 專(zhuān)注于利用機(jī)器人數(shù)據(jù)(包括視覺(jué)觀察(視頻)和機(jī)器人正在執(zhí)行的控制動(dòng)作)來(lái)提升模型的規(guī)劃能力。
Meta 通過(guò)向預(yù)測(cè)器提供動(dòng)作信息,將這些數(shù)據(jù)整合到 JEPA 訓(xùn)練流程中。在使用這些額外數(shù)據(jù)進(jìn)行訓(xùn)練后,預(yù)測(cè)器學(xué)會(huì)在進(jìn)行預(yù)測(cè)時(shí)考慮具體動(dòng)作,然后即可用于控制。
第二階段的訓(xùn)練不需要大量的機(jī)器人數(shù)據(jù) —— 僅使用 62 小時(shí)的機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練就能構(gòu)建出一個(gè)可用于規(guī)劃和控制的模型。
Meta 展示了 V-JEPA 2 如何用于在新環(huán)境中進(jìn)行零樣本機(jī)器人的規(guī)劃,這些環(huán)境中涉及的物體在訓(xùn)練階段從未見(jiàn)過(guò)。與其他機(jī)器人基礎(chǔ)模型不同 —— 這些模型通常需要部分訓(xùn)練數(shù)據(jù)來(lái)自模型部署的具體機(jī)器人實(shí)例和環(huán)境 —— 他們使用開(kāi)源的 DROID 數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,然后直接將其部署到 Meta 實(shí)驗(yàn)室的機(jī)器人上。他們證明了 V-JEPA 2 的預(yù)測(cè)器可以用于基礎(chǔ)任務(wù),例如夠到物體、拿起物體,并將其放置到新位置。
對(duì)于短期任務(wù),例如拿起或放置物體,Meta 以圖像的形式指定目標(biāo)。他們使用 V-JEPA 2 的編碼器獲取當(dāng)前狀態(tài)和目標(biāo)狀態(tài)的嵌入向量。從其觀察到的當(dāng)前狀態(tài)出發(fā),機(jī)器人通過(guò)預(yù)測(cè)器來(lái)想象采取一組候選動(dòng)作的后果,并根據(jù)這些動(dòng)作與期望目標(biāo)的接近程度對(duì)候選動(dòng)作進(jìn)行評(píng)分。在每個(gè)時(shí)間步,機(jī)器人通過(guò)模型預(yù)測(cè)控制重新規(guī)劃,并執(zhí)行評(píng)分最高的下一個(gè)動(dòng)作以接近目標(biāo)。
對(duì)于長(zhǎng)期任務(wù),例如拿起物體并將其放置到正確的位置,他們指定了一系列視覺(jué)子目標(biāo),機(jī)器人會(huì)按順序嘗試實(shí)現(xiàn)這些子目標(biāo),類(lèi)似于人類(lèi)觀察到的視覺(jué)模仿學(xué)習(xí)。通過(guò)這些視覺(jué)子目標(biāo),V-JEPA 2 在新環(huán)境和未見(jiàn)環(huán)境中放置新物體的成功率達(dá)到了 65% 到 80%。
對(duì)物理理解進(jìn)行基準(zhǔn)測(cè)試
這次,Meta 還發(fā)布了三個(gè)新的基準(zhǔn)測(cè)試,用于評(píng)估現(xiàn)有模型從視頻中理解和推理物理世界的能力。盡管人類(lèi)在這三個(gè)基準(zhǔn)測(cè)試中的表現(xiàn)都非常出色(準(zhǔn)確率在 85% 到 95% 之間),但包括 V-JEPA 2 在內(nèi)的頂級(jí)模型與人類(lèi)表現(xiàn)之間仍存在顯著差距,這表明模型需要在這些方向上進(jìn)一步改進(jìn)。
第一個(gè)基準(zhǔn)測(cè)試 ——IntPhys 2 專(zhuān)門(mén)設(shè)計(jì)用于衡量模型區(qū)分物理合理場(chǎng)景和不合理場(chǎng)景的能力,它是基于早期的 IntPhys 基準(zhǔn)測(cè)試進(jìn)行構(gòu)建和擴(kuò)展的。他們?cè)O(shè)計(jì) IntPhys 2 的方式類(lèi)似于發(fā)展認(rèn)知科學(xué)家評(píng)估年幼人類(lèi)何時(shí)獲得直覺(jué)物理能力的方法,即通過(guò)「違背預(yù)期」范式。他們通過(guò)游戲引擎生成視頻對(duì)來(lái)實(shí)現(xiàn)這一點(diǎn),其中兩個(gè)視頻在某個(gè)時(shí)間點(diǎn)之前完全相同,然后其中一個(gè)視頻中發(fā)生了違反物理規(guī)律的事件。模型必須識(shí)別出哪個(gè)視頻中發(fā)生了違反物理規(guī)律的事件。盡管人類(lèi)在各種場(chǎng)景和條件下幾乎都能完美完成這項(xiàng)任務(wù),但他們發(fā)現(xiàn)當(dāng)前的視頻模型表現(xiàn)僅接近隨機(jī)水平。

- IntPhys 2 項(xiàng)目鏈接:https://github.com/facebookresearch/IntPhys2
- HuggingFace 鏈接:https://huggingface.co/datasets/facebook/IntPhys2
- 論文鏈接:https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/
第二個(gè)基準(zhǔn)測(cè)試 ——MVPBench 通過(guò)多項(xiàng)選擇題來(lái)衡量視頻語(yǔ)言模型的物理理解能力。與文獻(xiàn)中的其他視頻問(wèn)答基準(zhǔn)測(cè)試不同,MVPBench 旨在減少視頻語(yǔ)言模型中常見(jiàn)的捷徑解決方案,例如依賴于表面的視覺(jué)或文本線索和偏見(jiàn)。MVPBench 中的每個(gè)示例都有一個(gè)最小變化對(duì):一個(gè)視覺(jué)上相似的視頻,以及相同的問(wèn)題,但答案相反。為了正確回答一個(gè)問(wèn)題,模型還必須正確回答其對(duì)應(yīng)的最小變化對(duì)。

- MVPBench 項(xiàng)目鏈接:https://github.com/facebookresearch/minimal_video_pairs
- HuggingFace 鏈接:https://huggingface.co/datasets/facebook/minimal_video_pairs
- 論文鏈接:https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/
第三個(gè)基準(zhǔn)測(cè)試 ——CausalVQA 旨在關(guān)注模型對(duì)物理世界視頻中因果關(guān)系的理解,包括反事實(shí)(如果…… 會(huì)發(fā)生什么)、預(yù)期(接下來(lái)可能會(huì)發(fā)生什么)和計(jì)劃(為了實(shí)現(xiàn)目標(biāo)應(yīng)該采取什么行動(dòng))。
Meta 發(fā)現(xiàn),雖然大型多模態(tài)模型越來(lái)越能夠回答視頻中發(fā)生了什么的問(wèn)題,但它們?nèi)匀浑y以回答可能發(fā)生什么和接下來(lái)可能會(huì)發(fā)生什么的問(wèn)題,這表明在預(yù)測(cè)物理世界在給定動(dòng)作和事件空間的情況下可能如何演變方面,它們的表現(xiàn)與人類(lèi)存在巨大差距。

- CausalVQA 項(xiàng)目鏈接:https://github.com/facebookresearch/CausalVQA
- 論文鏈接:https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/
V-JEPA 2 在 Hugging Face 關(guān)于物理推理榜單上排名第一,超越 GPT-4o 等。

地址:https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard
Meta 下一步會(huì)做什么
Meta 計(jì)劃在多個(gè)領(lǐng)域進(jìn)一步探索世界模型。目前,V-JEPA 2 能夠在單一時(shí)間尺度上進(jìn)行學(xué)習(xí)和預(yù)測(cè)。然而,許多任務(wù)需要跨多個(gè)時(shí)間尺度進(jìn)行規(guī)劃。想象一下,將一個(gè)高級(jí)任務(wù)分解成更小的步驟,例如裝載洗碗機(jī)或烘烤蛋糕。Meta 希望專(zhuān)注于訓(xùn)練能夠跨多個(gè)時(shí)間和空間尺度進(jìn)行學(xué)習(xí)、推理和規(guī)劃的分層 JEPA 模型。另一個(gè)重要方向是多模態(tài) JEPA 模型,這些模型能夠利用多種感官進(jìn)行預(yù)測(cè),包括視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)。
期待 Meta 接下來(lái)的更多研究。
參考鏈接:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/



































