Meta世界模型登場!機(jī)器人自學(xué)百萬小時視頻,零樣本秒懂物理世界,LeCun親自發(fā)布
機(jī)器人輕輕伸出機(jī)械臂,撿起一塊布料并折疊。
沒有人給它“示范”過。
也沒有人告訴它什么是“布”、什么是“拿起”、什么是“折疊”。
它只是在看過100萬小時的視頻之后,自己“理解”了這一切。
圖片
這是一段實(shí)驗(yàn)視頻,記錄的是 Meta 最新發(fā)布的 V-JEPA 2 在機(jī)器人控制上的一次測試。它沒有依賴大量手工標(biāo)注的數(shù)據(jù),也沒有借助龐大的語言模型來“解釋世界”。它靠的,是對這個世界運(yùn)行規(guī)律的理解——一種被稱為“世界模型”的理念。
是的,在世界模型這條冷門卻持久的技術(shù)路徑上,Meta 發(fā)布了 V-JEPA 2,一個 12 億參數(shù)的視頻模型,它能讓機(jī)器人在沒見過的環(huán)境中直接執(zhí)行任務(wù)。
V-JEPA 2 是 Meta 在“世界模型”方向上的第二次出擊。這個模型并不只是識別圖像,而是嘗試“理解物理世界”:它能從視頻中學(xué)習(xí)因果關(guān)系、預(yù)測未來場景,并據(jù)此規(guī)劃行為。Meta 聲稱,它已經(jīng)具備“零樣本”在機(jī)器人上的規(guī)劃與控制能力。
圖片
lecun親自出境宣發(fā)世界模型
地址:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
其實(shí),在 Meta 的 AI 路線圖中,LeCun 一直堅(jiān)持“自監(jiān)督學(xué)習(xí)”和“世界模型”是未來關(guān)鍵。他認(rèn)為,今天的 AI 模型太依賴標(biāo)簽、數(shù)據(jù)和預(yù)設(shè)范式,缺乏真正的因果和空間理解能力。
相比 OpenAI、Google DeepMind 以大模型、對話能力為突破口,業(yè)內(nèi)普遍認(rèn)為 Meta 選擇了相對穩(wěn)健的 embodied AI 路線:他們的 AI 不必回答問題,而是更擅長在廚房、客廳、走廊等物理世界中“看懂并預(yù)測”。
這種 AI 的應(yīng)用圖景也隨之改變:不是像 ChatGPT 那樣聊天辦公,而是做家務(wù)、配送物品、輔助護(hù)理。Meta 描述的終極目標(biāo)是“real-world AI agents”——現(xiàn)實(shí)世界中的智能體,能做事,而不是說話。
比快更重要的是“少數(shù)據(jù)”
來自meta,供交流學(xué)習(xí)使用,侵刪
V-JEPA 2 具備 12 億參數(shù),采用的是 Meta 自研的 JEPA(Joint Embedding Predictive Architecture)架構(gòu)。在一個無須人工標(biāo)注、全程自監(jiān)督的訓(xùn)練過程中,它觀看了超過 100 萬小時的視頻,并在一個短期的“動作條件訓(xùn)練”階段中,僅靠 62 小時的機(jī)器人數(shù)據(jù),學(xué)會了用預(yù)測未來的方式來選擇動作。用 Meta 的話說,它學(xué)會了“思考之后再行動”。
這一訓(xùn)練流程分為兩個階段:第一階段是從人類的視頻中學(xué)習(xí)世界是怎么運(yùn)行的,比如物體如何移動、人與物如何互動;第二階段是讓模型結(jié)合機(jī)器人的控制信號,去理解“如果我采取某個動作,會發(fā)生什么”。
最終,Meta 展示了它在多種機(jī)器人實(shí)驗(yàn)中的能力:在實(shí)驗(yàn)室里,一臺機(jī)器人面對陌生物體和新場景,依靠 V-JEPA 2 的模擬預(yù)測能力,可以完成“撿起物體并放到指定位置”的任務(wù),成功率在 65%-80% 之間。
LeCun 的“孤勇”與 AMI 的下一步
視頻來自meta,供交流學(xué)習(xí)使用,侵刪
在 Meta 內(nèi)部,V-JEPA 項(xiàng)目有一個特殊的領(lǐng)路人:Yann LeCun——深度學(xué)習(xí)三巨頭之一。這一次,他親自出鏡解讀模型細(xì)節(jié)。在許多人向 AGI、Sora 或語音助手下注時,他堅(jiān)持走世界模型這條路。
LeCun 多次提到,“世界模型”是自己研究了近 20 年的方向。他不看好自回歸預(yù)測未來視頻幀的主流方式,而是傾向 JEPA 這種嵌入空間中的預(yù)測策略,避免 LLM-style 架構(gòu)在物理世界模擬上的困境。他相信真正的“高級機(jī)器智能”(Advanced Machine Intelligence, AMI)必須先有物理直覺,就像嬰兒扔網(wǎng)球知道它會掉下,而不是變成一個蘋果。
這也是 V-JEPA 與其他多模態(tài)大模型的分野:前者關(guān)注“理解世界怎么運(yùn)作”,后者則更強(qiáng)調(diào)語言和圖像的泛化能力。世界模型,不只是描述,而是預(yù)測和規(guī)劃。
而 Meta 最近的系列動作也顯示,它沒有放棄這條非主流路線:組建“超級智能”團(tuán)隊(duì)、重金挖角 Alexandr Wang、招聘 DeepMind 首席研究員 Jack Rae,以及發(fā)布全新基準(zhǔn)測試,標(biāo)志著它在 AMI 路線上全面加速。
三大新基準(zhǔn),補(bǔ)課物理常識
為驗(yàn)證模型是否真的具備“世界理解”能力,Meta 還同步發(fā)布了三個視頻推理基準(zhǔn):IntPhys 2、MVPBench、CausalVQA——三者分別檢驗(yàn)物理常識、最小干擾識別能力和因果推理水平。
- IntPhys 2:靈感來自認(rèn)知科學(xué)中“違反預(yù)期范式”,即給模型兩個視頻,其中一個在最后一秒出現(xiàn)物理“bug”(比如物體穿墻),模型要指出哪個視頻是“不可能的”。
- MVPBench:要求模型對兩個幾乎一致的視頻回答同一個問題,答案卻相反。這種“最小變化對”避免模型通過表面特征“猜題”,而真正考驗(yàn)推理能力。
- CausalVQA:聚焦“物理因果性”的問答任務(wù),問題涵蓋“反事實(shí)”、“預(yù)測未來”和“下一步計劃”三類。這些問題比單純理解“發(fā)生了什么”更難,V-JEPA 2 雖已優(yōu)于以往模型,但離人類表現(xiàn)仍有不小差距。
Meta 在 Hugging Face 上還專門上線了 Leaderboard,希望整個研究社區(qū)都能圍繞“世界理解”這一新維度展開競賽和優(yōu)化。
離通用智能,還有多遠(yuǎn)?
V-JEPA 2 是一把“萬金油鑰匙”的雛形:它不依賴具體機(jī)器人或場景,訓(xùn)練一次可以“即插即用”。這是區(qū)別于傳統(tǒng)機(jī)器人模型的重大突破。后者往往需要為每一個新場景單獨(dú)收集數(shù)據(jù)、訓(xùn)練模型,而 V-JEPA 2 強(qiáng)調(diào)通用性。
在執(zhí)行短任務(wù)時,比如把物體從 A 點(diǎn)移動到 B 點(diǎn),V-JEPA 2 接收兩個圖像(當(dāng)前狀態(tài)和目標(biāo)狀態(tài)),然后用預(yù)測器模擬各種可能的動作后果,選出最可能成功的那個。這種“模型預(yù)測控制”(model predictive control, MPC)讓機(jī)器人每一步都像“想清楚再動”。
據(jù)悉,接下來,Meta 的重點(diǎn)是構(gòu)建能處理“多時間尺度”的世界模型:不僅做一步規(guī)劃,還能像人一樣分解長任務(wù);以及“多模態(tài)”的世界模型:不僅看,還能聽、摸,最終形成更加完整的“世界理解系統(tǒng)”。
但真正的問題是:這種以“從視頻中理解世界”為中心的路線,能否撐起 AGI 的未來?
就在這個通往高級機(jī)器智能的岔路口,V-JEPA 2 把 Meta 推向了一條冷門、但可能最接近“常識”的路徑——但三年后,是不是所有人都還在等 LeCun 證明“世界模型”這一假說,仍是未知數(shù)。
作者長期關(guān)注 AI 產(chǎn)業(yè)落地與學(xué)術(shù)動態(tài)、以及具身智能、汽車科技等前沿領(lǐng)域,歡迎對這些方向感興趣的朋友添加微信 Q1yezi,共同交流行業(yè)動態(tài)與技術(shù)趨勢!