偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Meta世界模型登場(chǎng)！機(jī)器人自學(xué)百萬(wàn)小時(shí)視頻，零樣本秒懂物理世界，LeCun親自發(fā)布

2025-06-13 00:03:00

人工智能機(jī)器人

V-JEPA 2 是一把“萬(wàn)金油鑰匙”的雛形：它不依賴(lài)具體機(jī)器人或場(chǎng)景，訓(xùn)練一次可以“即插即用”。這是區(qū)別于傳統(tǒng)機(jī)器人模型的重大突破。后者往往需要為每一個(gè)新場(chǎng)景單獨(dú)收集數(shù)據(jù)、訓(xùn)練模型，而 V-JEPA 2 強(qiáng)調(diào)通用性。

機(jī)器人輕輕伸出機(jī)械臂，撿起一塊布料并折疊。

沒(méi)有人給它“示范”過(guò)。

也沒(méi)有人告訴它什么是“布”、什么是“拿起”、什么是“折疊”。

它只是在看過(guò)100萬(wàn)小時(shí)的視頻之后，自己“理解”了這一切。

圖片

這是一段實(shí)驗(yàn)視頻，記錄的是 Meta 最新發(fā)布的 V-JEPA 2 在機(jī)器人控制上的一次測(cè)試。它沒(méi)有依賴(lài)大量手工標(biāo)注的數(shù)據(jù)，也沒(méi)有借助龐大的語(yǔ)言模型來(lái)“解釋世界”。它靠的，是對(duì)這個(gè)世界運(yùn)行規(guī)律的理解——一種被稱(chēng)為“世界模型”的理念。

是的，在世界模型這條冷門(mén)卻持久的技術(shù)路徑上，Meta 發(fā)布了 V-JEPA 2，一個(gè) 12 億參數(shù)的視頻模型，它能讓機(jī)器人在沒(méi)見(jiàn)過(guò)的環(huán)境中直接執(zhí)行任務(wù)。

V-JEPA 2 是 Meta 在“世界模型”方向上的第二次出擊。這個(gè)模型并不只是識(shí)別圖像，而是嘗試“理解物理世界”：它能從視頻中學(xué)習(xí)因果關(guān)系、預(yù)測(cè)未來(lái)場(chǎng)景，并據(jù)此規(guī)劃行為。Meta 聲稱(chēng)，它已經(jīng)具備“零樣本”在機(jī)器人上的規(guī)劃與控制能力。

圖片

lecun親自出境宣發(fā)世界模型

地址：https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

其實(shí)，在 Meta 的 AI 路線圖中，LeCun 一直堅(jiān)持“自監(jiān)督學(xué)習(xí)”和“世界模型”是未來(lái)關(guān)鍵。他認(rèn)為，今天的 AI 模型太依賴(lài)標(biāo)簽、數(shù)據(jù)和預(yù)設(shè)范式，缺乏真正的因果和空間理解能力。

相比 OpenAI、Google DeepMind 以大模型、對(duì)話能力為突破口，業(yè)內(nèi)普遍認(rèn)為 Meta 選擇了相對(duì)穩(wěn)健的 embodied AI 路線：他們的 AI 不必回答問(wèn)題，而是更擅長(zhǎng)在廚房、客廳、走廊等物理世界中“看懂并預(yù)測(cè)”。

這種 AI 的應(yīng)用圖景也隨之改變：不是像 ChatGPT 那樣聊天辦公，而是做家務(wù)、配送物品、輔助護(hù)理。Meta 描述的終極目標(biāo)是“real-world AI agents”——現(xiàn)實(shí)世界中的智能體，能做事，而不是說(shuō)話。

比快更重要的是“少數(shù)據(jù)”

來(lái)自meta，供交流學(xué)習(xí)使用，侵刪

V-JEPA 2 具備 12 億參數(shù)，采用的是 Meta 自研的 JEPA（Joint Embedding Predictive Architecture）架構(gòu)。在一個(gè)無(wú)須人工標(biāo)注、全程自監(jiān)督的訓(xùn)練過(guò)程中，它觀看了超過(guò) 100 萬(wàn)小時(shí)的視頻，并在一個(gè)短期的“動(dòng)作條件訓(xùn)練”階段中，僅靠 62 小時(shí)的機(jī)器人數(shù)據(jù)，學(xué)會(huì)了用預(yù)測(cè)未來(lái)的方式來(lái)選擇動(dòng)作。用 Meta 的話說(shuō)，它學(xué)會(huì)了“思考之后再行動(dòng)”。

這一訓(xùn)練流程分為兩個(gè)階段：第一階段是從人類(lèi)的視頻中學(xué)習(xí)世界是怎么運(yùn)行的，比如物體如何移動(dòng)、人與物如何互動(dòng)；第二階段是讓模型結(jié)合機(jī)器人的控制信號(hào)，去理解“如果我采取某個(gè)動(dòng)作，會(huì)發(fā)生什么”。

最終，Meta 展示了它在多種機(jī)器人實(shí)驗(yàn)中的能力：在實(shí)驗(yàn)室里，一臺(tái)機(jī)器人面對(duì)陌生物體和新場(chǎng)景，依靠 V-JEPA 2 的模擬預(yù)測(cè)能力，可以完成“撿起物體并放到指定位置”的任務(wù)，成功率在 65%-80% 之間。

LeCun 的“孤勇”與 AMI 的下一步

視頻來(lái)自meta，供交流學(xué)習(xí)使用，侵刪

在 Meta 內(nèi)部，V-JEPA 項(xiàng)目有一個(gè)特殊的領(lǐng)路人：Yann LeCun——深度學(xué)習(xí)三巨頭之一。這一次，他親自出鏡解讀模型細(xì)節(jié)。在許多人向 AGI、Sora 或語(yǔ)音助手下注時(shí)，他堅(jiān)持走世界模型這條路。

LeCun 多次提到，“世界模型”是自己研究了近 20 年的方向。他不看好自回歸預(yù)測(cè)未來(lái)視頻幀的主流方式，而是傾向 JEPA 這種嵌入空間中的預(yù)測(cè)策略，避免 LLM-style 架構(gòu)在物理世界模擬上的困境。他相信真正的“高級(jí)機(jī)器智能”（Advanced Machine Intelligence, AMI）必須先有物理直覺(jué)，就像嬰兒扔網(wǎng)球知道它會(huì)掉下，而不是變成一個(gè)蘋(píng)果。

這也是 V-JEPA 與其他多模態(tài)大模型的分野：前者關(guān)注“理解世界怎么運(yùn)作”，后者則更強(qiáng)調(diào)語(yǔ)言和圖像的泛化能力。世界模型，不只是描述，而是預(yù)測(cè)和規(guī)劃。

而 Meta 最近的系列動(dòng)作也顯示，它沒(méi)有放棄這條非主流路線：組建“超級(jí)智能”團(tuán)隊(duì)、重金挖角 Alexandr Wang、招聘 DeepMind 首席研究員 Jack Rae，以及發(fā)布全新基準(zhǔn)測(cè)試，標(biāo)志著它在 AMI 路線上全面加速。

三大新基準(zhǔn)，補(bǔ)課物理常識(shí)

為驗(yàn)證模型是否真的具備“世界理解”能力，Meta 還同步發(fā)布了三個(gè)視頻推理基準(zhǔn)：IntPhys 2、MVPBench、CausalVQA——三者分別檢驗(yàn)物理常識(shí)、最小干擾識(shí)別能力和因果推理水平。

IntPhys 2：靈感來(lái)自認(rèn)知科學(xué)中“違反預(yù)期范式”，即給模型兩個(gè)視頻，其中一個(gè)在最后一秒出現(xiàn)物理“bug”（比如物體穿墻），模型要指出哪個(gè)視頻是“不可能的”。
MVPBench：要求模型對(duì)兩個(gè)幾乎一致的視頻回答同一個(gè)問(wèn)題，答案卻相反。這種“最小變化對(duì)”避免模型通過(guò)表面特征“猜題”，而真正考驗(yàn)推理能力。
CausalVQA：聚焦“物理因果性”的問(wèn)答任務(wù)，問(wèn)題涵蓋“反事實(shí)”、“預(yù)測(cè)未來(lái)”和“下一步計(jì)劃”三類(lèi)。這些問(wèn)題比單純理解“發(fā)生了什么”更難，V-JEPA 2 雖已優(yōu)于以往模型，但離人類(lèi)表現(xiàn)仍有不小差距。

Meta 在 Hugging Face 上還專(zhuān)門(mén)上線了 Leaderboard，希望整個(gè)研究社區(qū)都能?chē)@“世界理解”這一新維度展開(kāi)競(jìng)賽和優(yōu)化。

離通用智能，還有多遠(yuǎn)？

V-JEPA 2 是一把“萬(wàn)金油鑰匙”的雛形：它不依賴(lài)具體機(jī)器人或場(chǎng)景，訓(xùn)練一次可以“即插即用”。這是區(qū)別于傳統(tǒng)機(jī)器人模型的重大突破。后者往往需要為每一個(gè)新場(chǎng)景單獨(dú)收集數(shù)據(jù)、訓(xùn)練模型，而 V-JEPA 2 強(qiáng)調(diào)通用性。

在執(zhí)行短任務(wù)時(shí)，比如把物體從 A 點(diǎn)移動(dòng)到 B 點(diǎn)，V-JEPA 2 接收兩個(gè)圖像（當(dāng)前狀態(tài)和目標(biāo)狀態(tài)），然后用預(yù)測(cè)器模擬各種可能的動(dòng)作后果，選出最可能成功的那個(gè)。這種“模型預(yù)測(cè)控制”（model predictive control, MPC）讓機(jī)器人每一步都像“想清楚再動(dòng)”。

據(jù)悉，接下來(lái)，Meta 的重點(diǎn)是構(gòu)建能處理“多時(shí)間尺度”的世界模型：不僅做一步規(guī)劃，還能像人一樣分解長(zhǎng)任務(wù)；以及“多模態(tài)”的世界模型：不僅看，還能聽(tīng)、摸，最終形成更加完整的“世界理解系統(tǒng)”。

但真正的問(wèn)題是：這種以“從視頻中理解世界”為中心的路線，能否撐起 AGI 的未來(lái)？

就在這個(gè)通往高級(jí)機(jī)器智能的岔路口，V-JEPA 2 把 Meta 推向了一條冷門(mén)、但可能最接近“常識(shí)”的路徑——但三年后，是不是所有人都還在等 LeCun 證明“世界模型”這一假說(shuō)，仍是未知數(shù)。

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)落地與學(xué)術(shù)動(dòng)態(tài)、以及具身智能、汽車(chē)科技等前沿領(lǐng)域，歡迎對(duì)這些方向感興趣的朋友添加微信 Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)！

責(zé)任編輯：武曉燕來(lái)源：大數(shù)據(jù)文摘

機(jī)器人 V-JEPA 2 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="0or3o"></p>