偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LeCun親自出鏡打臉質(zhì)疑者!憋了20年的AI世界模型,終于爆發(fā)了

人工智能
對(duì)于世界模型,Meta接下來(lái)還將進(jìn)行多個(gè)方向的深入探索。目前,V-JEPA 2只能在單一時(shí)間尺度上進(jìn)行學(xué)習(xí)和預(yù)測(cè),但現(xiàn)實(shí)中許多任務(wù)需要跨多個(gè)時(shí)間尺度進(jìn)行規(guī)劃。

正處于風(fēng)暴中心的LeCun,親自出鏡了!

在視頻中,他介紹了V-JEPA 2的新進(jìn)展,目標(biāo)就是開(kāi)發(fā)能改變AI與物理世界交互方式的世界模型。

圖片圖片

可見(jiàn),對(duì)于Meta剛剛發(fā)布的這個(gè)博客,LeCun真的格外用心。

圖片圖片

最近,Meta要組建「超級(jí)智能」新團(tuán)隊(duì)、重金挖角Alexandr Wang、全力沖擊AGI的消息,鬧得是沸沸揚(yáng)揚(yáng)。

就在今天,Meta還被曝出提供了數(shù)千萬(wàn)美元的天價(jià)年薪,挖來(lái)了谷歌DeepMind首席研究員Jack Rae,同時(shí)還在招募AI語(yǔ)音初創(chuàng)公司Sesame AI的主管Johan Schalkwayk。

圖片圖片

一切跡象都表明:LeCun似乎要在小扎那里坐冷板凳了?

就在這個(gè)當(dāng)口,LeCun親自出鏡介紹V-JEPA 2的舉動(dòng),無(wú)疑意義重大。

世界模型這條路,真的能走通嗎?相對(duì)于其他大科技公司,在這條目前十分非主流的路線上,LeCun更像一個(gè)一意孤行的「孤勇者」。

前路是什么,誰(shuí)都不知道。

LeCun曾這樣透露:「通過(guò)訓(xùn)練系統(tǒng)預(yù)測(cè)視頻中將要發(fā)生的事情,來(lái)理解世界如何運(yùn)作的想法是非常古老的。我至少以某種形式研究了20年?!?/p>

在今年3月的2025美國(guó)數(shù)學(xué)會(huì)聯(lián)合會(huì)議演講上,LeCun也曾經(jīng)說(shuō)過(guò),他折騰了20年,終于發(fā)現(xiàn)——

借用自回歸預(yù)測(cè)的思路,像訓(xùn)練LLM那樣訓(xùn)練生成式架構(gòu),去預(yù)測(cè)視頻接下來(lái)會(huì)發(fā)生什么,是根本不可能的。

可以說(shuō),今天Meta的V-JEPA 2,正是20年磨一劍的成果。

V-JEPA 2登場(chǎng)!

剛剛,Meta宣布:V-JEPA 2正式發(fā)布!

這是首個(gè)基于視頻訓(xùn)練的世界模型,不僅具備先進(jìn)的視頻理解與預(yù)測(cè)能力,還首次實(shí)現(xiàn)了零樣本規(guī)劃和機(jī)器人在新環(huán)境中的自主控制。

它的發(fā)布,代表著Meta朝著實(shí)現(xiàn)高級(jí)機(jī)器智能 (AMI) 和構(gòu)建能在物理世界中運(yùn)行的有用AI智能體的目標(biāo),邁出了下一步。

這也是LeCun一貫的理念:在我們邁向AMI的過(guò)程中,構(gòu)建能像人類(lèi)一樣學(xué)習(xí)世界、規(guī)劃未知任務(wù)、并靈活適應(yīng)變化環(huán)境的AI系統(tǒng),將至關(guān)重要。

圖片圖片

V-JEPA 2有12億參數(shù),基于2022年首次提出的Meta 聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA) 構(gòu)建。

此前的研究表明,JEPA 在圖像和3D點(diǎn)云等模態(tài)上已有出色表現(xiàn)。

此次發(fā)布的V-JEPA 2,建立在去年發(fā)布的首個(gè)視頻版V-JEPA基礎(chǔ)上,進(jìn)一步提升了動(dòng)作預(yù)測(cè)和世界建模能力,使機(jī)器人能與陌生物體與環(huán)境互動(dòng)并完成任務(wù)。

同時(shí),Meta還同步發(fā)布了三個(gè)全新基準(zhǔn)評(píng)估集,幫助評(píng)估模型在視頻中的世界理解與推理能力。

網(wǎng)友:期待三年后的AGI

對(duì)于V-JEPA 2的發(fā)布,LeCun的支持者們,一如既往表示著贊許。

「聽(tīng)說(shuō),你也在組建一個(gè)復(fù)仇者聯(lián)盟?三年后,我們或許會(huì)看到接近AGI的JEPA技術(shù)?!?/p>

圖片圖片

有人說(shuō),V-JEPA是自己最喜歡的一個(gè)算法名稱(chēng),請(qǐng)一定要繼續(xù)。

圖片圖片

有人問(wèn)出了那個(gè)敏感問(wèn)題:小扎會(huì)解雇你嗎?還以為你已經(jīng)離開(kāi)Meta了……

圖片圖片

圖片圖片

也有犀利的評(píng)論表示,V-JEPA似乎只是另一個(gè)用于視頻的基礎(chǔ)模型,沒(méi)有專(zhuān)有技術(shù)?而且Meta跟Scale AI的重組,是否表明Meta當(dāng)前的AI政策失敗了?

圖片圖片

什么是世界模型?

在親自出鏡的視頻中,LeCun再次解釋了世界模型的概念。

如果你把一個(gè)網(wǎng)球拋向空中,重力會(huì)使它落回地面。如果它在空中盤(pán)旋、突然轉(zhuǎn)向飛向另一個(gè)方向,或者自發(fā)地變成一個(gè)蘋(píng)果,那才令人驚訝。

這種物理直覺(jué)并不是成年人經(jīng)過(guò)多年教育后才獲得的。在還不能完整表達(dá)句子之前,幼兒就已經(jīng)通過(guò)觀察周?chē)氖澜?,發(fā)展出了這種直覺(jué)。

預(yù)測(cè)世界將如何回應(yīng)我們的行動(dòng)或他人的行動(dòng),是人類(lèi)一直在使用的能力,尤其是當(dāng)人們計(jì)劃采取何種行動(dòng)、如何應(yīng)對(duì)新情況時(shí)。

比如穿過(guò)陌生的擁擠人群時(shí),我們會(huì)朝目的地移動(dòng),同時(shí)盡力避免撞到沿途的其他人和障礙物。

打冰球時(shí),我們會(huì)滑向冰球?qū)⒁サ奈恢?,而不是它?dāng)前所在的位置。

炒菜時(shí),我們會(huì)思考還要讓鍋在火焰上停留多久,或者是否應(yīng)該調(diào)低熱量。

之所以能有這些直覺(jué),都是來(lái)自我們對(duì)世界的內(nèi)部模型。它同時(shí)充當(dāng)了一個(gè)內(nèi)部模擬器,使我們能夠預(yù)測(cè)假設(shè)行動(dòng)的結(jié)果,從而最終根據(jù)我們認(rèn)為最能實(shí)現(xiàn)目標(biāo)的方式,來(lái)選擇最佳行動(dòng)。

圖片圖片

在采取行動(dòng)之前,我們會(huì)利用自己的世界模型,來(lái)想象潛在的后果。

所以,如果我們想構(gòu)建能「三思而后行」的AI智能體,最重要的就是讓它們學(xué)會(huì)具備以下能力的世界模型。

理解:世界模型應(yīng)該能夠理解對(duì)世界的觀察,包括識(shí)別視頻中的物體、動(dòng)作和運(yùn)動(dòng)等內(nèi)容。  

預(yù)測(cè):世界模型應(yīng)該能夠預(yù)測(cè)世界將如何演變,以及如果智能體采取行動(dòng),世界將如何變化。  

規(guī)劃:基于預(yù)測(cè)能力,世界模型應(yīng)該有助于規(guī)劃實(shí)現(xiàn)特定目標(biāo)的動(dòng)作序列。

所以,怎樣通過(guò)世界模型,讓AI智能體中在物理世界中進(jìn)行規(guī)劃和推理?

Meta主要通過(guò)視頻,訓(xùn)練出了世界模型V-JEPA 2。

之所以用視頻,是因?yàn)樗顷P(guān)于世界豐富信息的重要來(lái)源,而且信息很容易獲取。

V-JEPA 2的兩階段訓(xùn)練細(xì)節(jié)

V-JEPA 2是一個(gè)基于「聯(lián)合嵌入預(yù)測(cè)架構(gòu)」(JEPA)構(gòu)建的時(shí)間模型,即通過(guò)視頻數(shù)據(jù),學(xué)習(xí)物理世界運(yùn)作規(guī)律。

與傳統(tǒng)AI模型不同,通過(guò)自監(jiān)督學(xué)習(xí),無(wú)需大量人工標(biāo)注,即可從視頻中學(xué)習(xí)。

它的核心組件包括:

· 編碼器:輸入原始視頻,輸出捕捉觀察世界狀態(tài)有用語(yǔ)義信息的嵌入

· 預(yù)測(cè)器:輸入視頻嵌入以及關(guān)于預(yù)測(cè)內(nèi)容的額外上下文,輸出預(yù)測(cè)嵌入

圖片圖片

具體來(lái)說(shuō),V-JEPA 2的訓(xùn)練分為兩個(gè)階段,逐步讓模型從「理解世界」到「改變世界」。

第一階段:無(wú)動(dòng)作預(yù)訓(xùn)練

V-JEPA 2使用超100萬(wàn)小時(shí)視頻和100萬(wàn)張圖像,涵蓋了豐富多樣的視覺(jué)信息。

這些數(shù)據(jù)讓模型學(xué)會(huì)了,關(guān)于世界運(yùn)作方式的許多知識(shí)。

其中包括,人們?nèi)绾闻c物體交互、物體在物理世界中的移動(dòng)方式,以及物體之間的相互作用。

通過(guò)預(yù)訓(xùn)練,V-JEPA 2展現(xiàn)出驚人的能力。

比如,在動(dòng)作識(shí)別任務(wù)Something-Something v2中,它通過(guò)輕量級(jí)注意力機(jī)制表現(xiàn)出色。

同樣,通過(guò)在凍結(jié)的編碼器和預(yù)測(cè)器特征上訓(xùn)練注意力讀取器,V-JEPA 2在Epic-Kitchens-100動(dòng)作預(yù)測(cè)任務(wù)中,刷新了SOTA。

圖片圖片

它能夠從第一人稱(chēng)視頻,預(yù)測(cè)出未來(lái)1秒將執(zhí)行的動(dòng)作。

與語(yǔ)言模型結(jié)合后,它還在視頻問(wèn)答基準(zhǔn)測(cè)試,如Perception Test和TempCompass中,創(chuàng)下了最新記錄。

第二階段:動(dòng)作條件訓(xùn)練

第一階段訓(xùn)練完成后,V-JEPA 2雖能夠預(yù)測(cè)世界可能的演變,但這種預(yù)測(cè)并未考慮智能體即將采取的行動(dòng)。

因此,在第二階段預(yù)訓(xùn)練中,Meta加入了機(jī)器人數(shù)據(jù),包括視覺(jué)觀察(視頻)和機(jī)器人執(zhí)行的控制動(dòng)作。

研究人員將這些數(shù)據(jù)納入JEPA訓(xùn)練流程,通過(guò)向預(yù)測(cè)器提供動(dòng)作信息。

在訓(xùn)練這些額外數(shù)據(jù)后,預(yù)測(cè)器學(xué)會(huì)在預(yù)測(cè)時(shí)考慮特定動(dòng)作,并可用于控制。

令人驚嘆的是,僅用62小時(shí)的機(jī)器人數(shù)據(jù),V-JEPA 2就學(xué)會(huì)根據(jù)具體行動(dòng)進(jìn)行預(yù)測(cè)和規(guī)劃。

圖片圖片

精準(zhǔn)規(guī)劃,機(jī)器人「即插即用」

V-JEPA 2最激動(dòng)人心的應(yīng)用之一是,零樣本機(jī)器人規(guī)劃。

傳統(tǒng)機(jī)器人模型,通常需要針對(duì)特定機(jī)器人和環(huán)境進(jìn)行訓(xùn)練,而V-JEPA 2則不同。

圖片圖片

它基于開(kāi)源DROID數(shù)據(jù)集進(jìn)行訓(xùn)練,可以直接部署到實(shí)驗(yàn)室的機(jī)器人上。

諸如,它可以完成抓取、拾取物體、放置到新位置等任務(wù)。

圖片圖片

對(duì)于簡(jiǎn)單的任務(wù),如拾取或放置物體,V-JEPA 2通過(guò)圖像指定目標(biāo)。

模型利用編碼器獲取當(dāng)前狀態(tài)和目標(biāo)狀態(tài)的嵌入,機(jī)器人通過(guò)預(yù)測(cè)器「想象」不同動(dòng)作的結(jié)果,挑選最接近目標(biāo)的動(dòng)作執(zhí)行。

這種「模型預(yù)測(cè)控制」的方式,讓機(jī)器人每一步都更聰明。

而對(duì)于復(fù)雜的任務(wù),如拾取并放置到正確位置,V-JEPA 2通過(guò)一系列視覺(jué)子目標(biāo)引導(dǎo)機(jī)器人,類(lèi)似于人類(lèi)的視覺(jué)模仿學(xué)習(xí)。

在全新環(huán)境中,V-JEPA 2拾取和放置新物體的成功率達(dá)到65%–80%。

圖片圖片

三大「物理理解」基準(zhǔn)測(cè)試

此外,Meta團(tuán)隊(duì)同時(shí)發(fā)布了三個(gè)全新基準(zhǔn)測(cè)試,用于評(píng)估現(xiàn)有模型從視頻中理解和推理物理世界的能力。

IntPhys 2

IntPhys 2是對(duì)早期IntPhys基準(zhǔn)升級(jí),靈感來(lái)源于認(rèn)知科學(xué)中幼兒學(xué)習(xí)直覺(jué)物理的方式。

它采用「違反預(yù)期范式」,通過(guò)游戲引擎生成視頻對(duì):兩段視頻在某一點(diǎn)之前完全相同,之后其中一段會(huì)出現(xiàn)違反物理規(guī)律的事件。

模型的任務(wù)是,識(shí)別哪段視頻不合理。

人類(lèi)在各種場(chǎng)景下,幾乎能達(dá)到100%準(zhǔn)確率,而當(dāng)前視頻模型表現(xiàn)幾乎靠隨機(jī)猜測(cè)。

圖片圖片

MVPBench

MVPBench通過(guò)多項(xiàng)選擇題,測(cè)試視頻-語(yǔ)言模型的物理理解能力。

與其他視頻問(wèn)答基準(zhǔn)不同,它專(zhuān)門(mén)設(shè)計(jì)了「最小變化對(duì)」——兩段視覺(jué)上幾乎相同的視頻,搭配相同問(wèn)題但答案相反。

模型只有在同時(shí)答對(duì)這對(duì)問(wèn)題時(shí),才能得分,這避免了依賴(lài)表面視覺(jué)或文本線索的「捷徑」解法。

圖片圖片

CausalVQA

CausalVQA專(zhuān)注于測(cè)試模型對(duì)物理世界因果關(guān)系的理解能力,涵蓋了三類(lèi)問(wèn)題。

主要包括,反事實(shí)(如果……會(huì)發(fā)生什么)、預(yù)測(cè)(接下來(lái)可能會(huì)發(fā)生什么)和規(guī)劃(接下來(lái)應(yīng)采取什么行動(dòng)以實(shí)現(xiàn)目標(biāo))。

研究發(fā)現(xiàn),多模態(tài)模型在描述「發(fā)生了什么」時(shí)表現(xiàn)還不錯(cuò),但在預(yù)測(cè)「本可以發(fā)生什么」或「接下來(lái)會(huì)發(fā)生什么」時(shí),仍與人類(lèi)存在較大差距。

圖片圖片

下一步:通往高級(jí)機(jī)器智能!

對(duì)于世界模型,Meta接下來(lái)還將進(jìn)行多個(gè)方向的深入探索。

目前,V-JEPA 2只能在單一時(shí)間尺度上進(jìn)行學(xué)習(xí)和預(yù)測(cè),但現(xiàn)實(shí)中許多任務(wù)需要跨多個(gè)時(shí)間尺度進(jìn)行規(guī)劃。

比如「裝洗碗機(jī)」或者「烤一個(gè)蛋糕」,這就需要將整體任務(wù)拆解為一系列小步驟。

因此,Meta接下來(lái)將重點(diǎn)研究分層的JEPA模型,使其能夠在不同的時(shí)間和空間尺度上進(jìn)行學(xué)習(xí)、推理和規(guī)劃。

另一個(gè)重要方向,就是開(kāi)發(fā)多模態(tài)JEPA模型,使其不僅能通過(guò)視覺(jué)進(jìn)行預(yù)測(cè),還能融合聽(tīng)覺(jué)、觸覺(jué)等多種感知能力,實(shí)現(xiàn)更全面的世界理解。

參考資料:

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-06-12 09:37:30

2022-02-25 14:48:45

AI模型Meta

2022-02-28 11:10:05

AI機(jī)器學(xué)習(xí)模型

2023-05-26 15:10:46

2024-03-05 11:18:14

模型訓(xùn)練

2024-02-19 08:58:00

模型AI

2024-12-09 07:15:00

世界模型AILLM

2025-06-13 09:10:00

2025-06-13 00:03:00

2025-06-12 09:12:00

2025-07-01 09:02:00

2025-03-03 02:25:00

.NET 9JSON序列化

2023-12-20 13:34:56

2017-09-18 15:09:42

蘋(píng)果

2020-08-06 08:19:17

人工智能醫(yī)療技術(shù)

2025-03-03 09:22:00

2023-12-12 12:43:04

AI模型

2022-12-31 08:17:02

2024-02-27 09:43:48

視頻模型

2020-01-07 10:09:23

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)