楊立昆親自指導(dǎo)開源世界大模型,為AI Agent打造超級(jí)大腦
今天凌晨,全球社交巨頭Meta在官網(wǎng)開源了一個(gè)世界大模型V-JEPA 2。
與第一代相比,V-JEPA 2使用了100萬視頻+100萬圖片超大規(guī)模訓(xùn)練數(shù)據(jù)集,可以讓AI Agent像人類那樣理解真實(shí)的物理世界,為智能體打造一個(gè)“超級(jí)大腦”自主學(xué)會(huì)觀察、規(guī)劃到執(zhí)行全自動(dòng)化能力。
值得一提的是,圖靈獎(jiǎng)獲得者、Meta首席科學(xué)家楊立昆(Yann LeCun)參與了該模型的開發(fā),這在Meta開源的眾多大模型中很罕見。
開源地址:https://github.com/facebookresearch/vjepa2?tab=readme-ov-file
對(duì)于這個(gè)新模型楊立昆還特意在今天凌晨1點(diǎn)發(fā)文推薦了一波,看來是相當(dāng)?shù)臐M意。
網(wǎng)友表示,感謝老楊帶來的新研究。
太棒了!我一直都在熱切期待這個(gè)成果。請(qǐng)問對(duì)于這種架構(gòu),scaling laws仍然適用嗎?如果適用的話,是否有計(jì)劃開發(fā)更大規(guī)模的模型?
我很期待嘗試 V-JEPA-v2 用于零樣本物理推理和機(jī)器人規(guī)劃。很好奇它在陌生場景和微妙因果事件中的泛化能力如何。非常期待測試它在實(shí)時(shí)預(yù)測任務(wù)中的速度和效率!
世界模型實(shí)際上受到人類如何形成周圍環(huán)境心理地圖的啟發(fā),它們是邁向真正具身人工智能的一步。
V-JEPA 2的核心架構(gòu)是一個(gè)自監(jiān)督學(xué)習(xí)框架,通過互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)來訓(xùn)練模型,使其能夠?qū)W習(xí)到視頻中的動(dòng)態(tài)和靜態(tài)信息。預(yù)訓(xùn)練階段使用了超過100萬小時(shí)的視頻和100萬張圖像,這些數(shù)據(jù)涵蓋了各種動(dòng)作和場景。預(yù)訓(xùn)練的目標(biāo)是讓模型能夠通過觀察學(xué)習(xí)到世界的背景知識(shí),而無需依賴于大量的標(biāo)注數(shù)據(jù)。
在預(yù)訓(xùn)練階段使用了“掩碼去噪”, 將視頻片段分割成一系列的“管狀塊”,每個(gè)管狀塊包含了時(shí)間序列上的連續(xù)幀。然后,模型通過編碼器處理這些管狀塊,并通過預(yù)測器來預(yù)測被掩蓋部分的表示。這種訓(xùn)練方式不僅讓模型能夠?qū)W習(xí)到視頻中的運(yùn)動(dòng)信息,還能捕捉到場景中的靜態(tài)特征。
為了提高預(yù)訓(xùn)練的效率和效果,V-JEPA 2將模型的參數(shù)從300M擴(kuò)展到1B參數(shù),這使得模型能夠?qū)W習(xí)到更復(fù)雜的特征。訓(xùn)練時(shí)間從90K迭代擴(kuò)展到252K迭代,這使得模型能夠更充分地利用大規(guī)模數(shù)據(jù)。
此外,輸入分辨率從256×256提高到384×384,視頻長度從16幀擴(kuò)展到64幀,這些改進(jìn)都顯著提升了模型的性能。
在預(yù)訓(xùn)練階段結(jié)束后,V-JEPA 2進(jìn)一步擴(kuò)展為一個(gè)動(dòng)作條件的世界模型V-JEPA 2-AC,用于機(jī)器人規(guī)劃任務(wù)。這一模塊的目標(biāo)是讓模型能夠根據(jù)動(dòng)作和狀態(tài)預(yù)測未來的視頻幀,從而為機(jī)器人提供規(guī)劃能力。
V-JEPA 2-AC的訓(xùn)練使用了來自Droid數(shù)據(jù)集的62小時(shí)未標(biāo)記機(jī)器人視頻數(shù)據(jù)。這些數(shù)據(jù)包含了機(jī)器人的動(dòng)作和狀態(tài)信息,但沒有明確的獎(jiǎng)勵(lì)信號(hào)。V-JEPA 2-AC通過一個(gè)自回歸的預(yù)測器來學(xué)習(xí)這些動(dòng)作的效果,預(yù)測器使用了一個(gè)塊因果注意力機(jī)制,能夠根據(jù)當(dāng)前的動(dòng)作和狀態(tài)預(yù)測未來的視頻幀表示。
V-JEPA 2-AC的預(yù)測器是一個(gè)300M參數(shù)的Transformer網(wǎng)絡(luò),它能夠自回歸地預(yù)測未來視頻幀的表示。在訓(xùn)練過程中,模型不僅使用了教師強(qiáng)制(teacher-forcing)損失,還使用了rollout損失來提高模型在推理時(shí)的自回歸能力。這種訓(xùn)練方式使得V-JEPA 2-AC能夠在給定子目標(biāo)的情況下,通過規(guī)劃實(shí)現(xiàn)零樣本的機(jī)器人任務(wù)執(zhí)行。
在實(shí)際部署中,V-JEPA 2-AC能夠通過模型預(yù)測控制來規(guī)劃機(jī)器人的動(dòng)作。具體來說,模型會(huì)在每個(gè)時(shí)間步規(guī)劃一個(gè)動(dòng)作序列,然后執(zhí)行第一個(gè)動(dòng)作,觀察新的狀態(tài),并重復(fù)這一過程。這種規(guī)劃方式類似于人類在執(zhí)行任務(wù)時(shí)的視覺反饋控制。
在實(shí)驗(yàn)中,V-JEPA 2-AC被部署在兩個(gè)不同實(shí)驗(yàn)室中的Franka機(jī)器人手臂上,這些實(shí)驗(yàn)室的環(huán)境并未出現(xiàn)在訓(xùn)練數(shù)據(jù)中。V-JEPA 2-AC能夠通過規(guī)劃實(shí)現(xiàn)零樣本的抓取和放置任務(wù),而無需在這些環(huán)境中收集任何數(shù)據(jù),也無需進(jìn)行特定于任務(wù)的訓(xùn)練或獎(jiǎng)勵(lì)。
這一結(jié)果表明,V-JEPA 2-AC能夠有效地將從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中學(xué)習(xí)到的知識(shí)應(yīng)用于實(shí)際的機(jī)器人任務(wù)中。
此外,V-JEPA 2還展示了其在視頻問答任務(wù)上的能力。通過與大模型對(duì)齊,V-JEPA 2能夠處理視頻問答任務(wù),這需要模型能夠理解視頻內(nèi)容并用自然語言回答問題。V-JEPA 2的視頻問答能力通過一個(gè)多模態(tài)大模型實(shí)現(xiàn),該模型使用V-JEPA 2作為視覺編碼器,并將視覺特征與語言模型的輸入對(duì)齊。
在視頻問答任務(wù)中,V-JEPA 2的性能在多個(gè)基準(zhǔn)測試中達(dá)到了新的高度。例如,在PerceptionTest上,它達(dá)到了84.0%的準(zhǔn)確率;在TempCompass上,達(dá)到了76.9%的多選準(zhǔn)確率。這些成績證明了V-JEPA 2在結(jié)合視覺和語言理解方面的強(qiáng)大能力。