楊立昆親自指導(dǎo)開源世界大模型,為AI Agent打造超級大腦
今天凌晨,全球社交巨頭Meta在官網(wǎng)開源了一個世界大模型V-JEPA 2。
與第一代相比,V-JEPA 2使用了100萬視頻+100萬圖片超大規(guī)模訓(xùn)練數(shù)據(jù)集,可以讓AI Agent像人類那樣理解真實的物理世界,為智能體打造一個“超級大腦”自主學(xué)會觀察、規(guī)劃到執(zhí)行全自動化能力。
值得一提的是,圖靈獎獲得者、Meta首席科學(xué)家楊立昆(Yann LeCun)參與了該模型的開發(fā),這在Meta開源的眾多大模型中很罕見。


開源地址:https://github.com/facebookresearch/vjepa2?tab=readme-ov-file
對于這個新模型楊立昆還特意在今天凌晨1點發(fā)文推薦了一波,看來是相當(dāng)?shù)臐M意。

網(wǎng)友表示,感謝老楊帶來的新研究。

太棒了!我一直都在熱切期待這個成果。請問對于這種架構(gòu),scaling laws仍然適用嗎?如果適用的話,是否有計劃開發(fā)更大規(guī)模的模型?

我很期待嘗試 V-JEPA-v2 用于零樣本物理推理和機器人規(guī)劃。很好奇它在陌生場景和微妙因果事件中的泛化能力如何。非常期待測試它在實時預(yù)測任務(wù)中的速度和效率!

世界模型實際上受到人類如何形成周圍環(huán)境心理地圖的啟發(fā),它們是邁向真正具身人工智能的一步。

V-JEPA 2的核心架構(gòu)是一個自監(jiān)督學(xué)習(xí)框架,通過互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)來訓(xùn)練模型,使其能夠?qū)W習(xí)到視頻中的動態(tài)和靜態(tài)信息。預(yù)訓(xùn)練階段使用了超過100萬小時的視頻和100萬張圖像,這些數(shù)據(jù)涵蓋了各種動作和場景。預(yù)訓(xùn)練的目標(biāo)是讓模型能夠通過觀察學(xué)習(xí)到世界的背景知識,而無需依賴于大量的標(biāo)注數(shù)據(jù)。

在預(yù)訓(xùn)練階段使用了“掩碼去噪”, 將視頻片段分割成一系列的“管狀塊”,每個管狀塊包含了時間序列上的連續(xù)幀。然后,模型通過編碼器處理這些管狀塊,并通過預(yù)測器來預(yù)測被掩蓋部分的表示。這種訓(xùn)練方式不僅讓模型能夠?qū)W習(xí)到視頻中的運動信息,還能捕捉到場景中的靜態(tài)特征。
為了提高預(yù)訓(xùn)練的效率和效果,V-JEPA 2將模型的參數(shù)從300M擴展到1B參數(shù),這使得模型能夠?qū)W習(xí)到更復(fù)雜的特征。訓(xùn)練時間從90K迭代擴展到252K迭代,這使得模型能夠更充分地利用大規(guī)模數(shù)據(jù)。
此外,輸入分辨率從256×256提高到384×384,視頻長度從16幀擴展到64幀,這些改進(jìn)都顯著提升了模型的性能。
在預(yù)訓(xùn)練階段結(jié)束后,V-JEPA 2進(jìn)一步擴展為一個動作條件的世界模型V-JEPA 2-AC,用于機器人規(guī)劃任務(wù)。這一模塊的目標(biāo)是讓模型能夠根據(jù)動作和狀態(tài)預(yù)測未來的視頻幀,從而為機器人提供規(guī)劃能力。

V-JEPA 2-AC的訓(xùn)練使用了來自Droid數(shù)據(jù)集的62小時未標(biāo)記機器人視頻數(shù)據(jù)。這些數(shù)據(jù)包含了機器人的動作和狀態(tài)信息,但沒有明確的獎勵信號。V-JEPA 2-AC通過一個自回歸的預(yù)測器來學(xué)習(xí)這些動作的效果,預(yù)測器使用了一個塊因果注意力機制,能夠根據(jù)當(dāng)前的動作和狀態(tài)預(yù)測未來的視頻幀表示。
V-JEPA 2-AC的預(yù)測器是一個300M參數(shù)的Transformer網(wǎng)絡(luò),它能夠自回歸地預(yù)測未來視頻幀的表示。在訓(xùn)練過程中,模型不僅使用了教師強制(teacher-forcing)損失,還使用了rollout損失來提高模型在推理時的自回歸能力。這種訓(xùn)練方式使得V-JEPA 2-AC能夠在給定子目標(biāo)的情況下,通過規(guī)劃實現(xiàn)零樣本的機器人任務(wù)執(zhí)行。

在實際部署中,V-JEPA 2-AC能夠通過模型預(yù)測控制來規(guī)劃機器人的動作。具體來說,模型會在每個時間步規(guī)劃一個動作序列,然后執(zhí)行第一個動作,觀察新的狀態(tài),并重復(fù)這一過程。這種規(guī)劃方式類似于人類在執(zhí)行任務(wù)時的視覺反饋控制。
在實驗中,V-JEPA 2-AC被部署在兩個不同實驗室中的Franka機器人手臂上,這些實驗室的環(huán)境并未出現(xiàn)在訓(xùn)練數(shù)據(jù)中。V-JEPA 2-AC能夠通過規(guī)劃實現(xiàn)零樣本的抓取和放置任務(wù),而無需在這些環(huán)境中收集任何數(shù)據(jù),也無需進(jìn)行特定于任務(wù)的訓(xùn)練或獎勵。
這一結(jié)果表明,V-JEPA 2-AC能夠有效地將從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中學(xué)習(xí)到的知識應(yīng)用于實際的機器人任務(wù)中。

此外,V-JEPA 2還展示了其在視頻問答任務(wù)上的能力。通過與大模型對齊,V-JEPA 2能夠處理視頻問答任務(wù),這需要模型能夠理解視頻內(nèi)容并用自然語言回答問題。V-JEPA 2的視頻問答能力通過一個多模態(tài)大模型實現(xiàn),該模型使用V-JEPA 2作為視覺編碼器,并將視覺特征與語言模型的輸入對齊。

在視頻問答任務(wù)中,V-JEPA 2的性能在多個基準(zhǔn)測試中達(dá)到了新的高度。例如,在PerceptionTest上,它達(dá)到了84.0%的準(zhǔn)確率;在TempCompass上,達(dá)到了76.9%的多選準(zhǔn)確率。這些成績證明了V-JEPA 2在結(jié)合視覺和語言理解方面的強大能力。



































