伯克利&Meta面向具身智能的世界模型:讓AI通過全身動(dòng)作「看見」未來(lái)
本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。
- 論文標(biāo)題:Whole-Body Conditioned Egocentric Video Prediction
- 論文地址:https://arxiv.org/pdf/2506.21552
- 項(xiàng)目地址:https://dannytran123.github.io/PEVA/
- 參考閱讀鏈接:https://x.com/YutongBAI1002/status/1938442251866411281
幾十年來(lái),人工智能領(lǐng)域一直在思考一個(gè)看似簡(jiǎn)單但非常根本的問題:
如果一個(gè)智能體要在真實(shí)世界中行動(dòng)、規(guī)劃,并且和環(huán)境互動(dòng),它需要一個(gè)怎樣的「世界模型」?
在很多早期研究中,世界模型就是一個(gè)預(yù)測(cè)引擎:只要給它一個(gè)抽象的控制指令,比如「向前走一米」或者「向左轉(zhuǎn) 30 度」,它就能模擬出未來(lái)的圖像。這類方式在實(shí)驗(yàn)室環(huán)境里已經(jīng)發(fā)揮過很大作用,但一旦放到真正復(fù)雜的人類生活環(huán)境,就常常捉襟見肘。
畢竟,人并不是一個(gè)漂浮在空中的攝像頭。人有四肢、有關(guān)節(jié)、有骨骼,也有著非常具體的物理限制:
- 關(guān)節(jié)的活動(dòng)范圍
- 軀干的穩(wěn)定性和平衡
- 肌肉力量的極限
這些物理約束決定了:并不是所有動(dòng)作都能被執(zhí)行,很多計(jì)劃只能在可達(dá)、可平衡、可承受的范圍內(nèi)完成。而正是這樣的物理性,才塑造了人類真實(shí)的動(dòng)作方式,也塑造了我們能夠看到的和不能看到的信息。
舉一些例子:
- 你想看到身后的情況,就必須轉(zhuǎn)頭或者轉(zhuǎn)身
- 你想看清桌下的東西,就必須彎腰蹲下
- 你想拿到高處的杯子,就必須抬起手臂并伸展身體
這些都不是憑空的,而是被身體結(jié)構(gòu)和運(yùn)動(dòng)學(xué)約束的行為。所以如果 AI 也要像人一樣預(yù)測(cè)未來(lái),就得學(xué)會(huì):預(yù)測(cè)自己的身體能做到什么動(dòng)作,以及由此產(chǎn)生的視覺后果。
為什么說視覺就是規(guī)劃的一部分?
從心理學(xué)、神經(jīng)科學(xué)到行為學(xué),人們?cè)缇桶l(fā)現(xiàn)一個(gè)規(guī)律:在執(zhí)行動(dòng)作之前,人會(huì)先預(yù)演接下來(lái)會(huì)看到什么。
例如:
- 走向水杯時(shí),腦子里會(huì)提前預(yù)測(cè)水杯什么時(shí)候出現(xiàn)
- 轉(zhuǎn)過一個(gè)拐角前,會(huì)猜測(cè)即將出現(xiàn)的景象
- 伸手的時(shí)候,會(huì)想象手臂何時(shí)進(jìn)入視野
這種「預(yù)演」能力讓人類能及時(shí)修正動(dòng)作并避免失誤。也就是說,我們并不是光靠看到的畫面做出決策,而是一直在用大腦里的「想象」,預(yù)測(cè)動(dòng)作的結(jié)果。
如果未來(lái)的 AI 想在真實(shí)環(huán)境中做到和人一樣自然地計(jì)劃,就需要擁有同樣的預(yù)測(cè)機(jī)制:「我如果這樣動(dòng),接下來(lái)會(huì)看到什么?」
世界模型的老思路和新思路
世界模型并不新鮮,從 1943 年 Craik 提出「小規(guī)模大腦模型」的概念開始,到 Kalman 濾波器、LQR 等控制理論的出現(xiàn),再到近年用深度學(xué)習(xí)做視覺預(yù)測(cè),大家都在試圖回答:「我采取一個(gè)動(dòng)作,未來(lái)會(huì)怎樣?」
但是這些方法往往只考慮了低維度的控制:像「前進(jìn)」、「轉(zhuǎn)向」這類參數(shù)。相比人類的全身動(dòng)作,它們顯得非常簡(jiǎn)陋。因?yàn)槿祟惖膭?dòng)作:
- 有幾十個(gè)自由度的關(guān)節(jié)
- 有清晰的分層控制結(jié)構(gòu)
- 動(dòng)作對(duì)視覺的結(jié)果會(huì)隨著環(huán)境不斷改變
如果一個(gè)世界模型不能考慮身體動(dòng)作如何塑造視覺信息,它很難在現(xiàn)實(shí)世界里生存下來(lái)。
PEVA 的小嘗試
基于這樣的背景,來(lái)自加州大學(xué)伯克利分校、Meta的研究者們提出了一個(gè)看起來(lái)簡(jiǎn)單但非常自然的問題:「如果我真的做了一個(gè)完整的人體動(dòng)作,那接下來(lái)從我的眼睛會(huì)看到什么?」
相比傳統(tǒng)模型只用「速度 + 方向」做預(yù)測(cè),PEVA 把整個(gè)人的 3D 姿態(tài)(包括關(guān)節(jié)位置和旋轉(zhuǎn))一并喂進(jìn)模型,和歷史的視頻幀一起輸入,從而讓 AI 學(xué)會(huì):身體的動(dòng)作,會(huì)如何重新組織我們能看到的世界。
舉一些例子:
- 手臂抬起 → 遮擋部分物體,同時(shí)也可能露出新的區(qū)域
- 蹲下 → 視角高度變化,地面特征出現(xiàn)
- 轉(zhuǎn)頭 → 原本背后的信息重新進(jìn)入可見范圍
這就是 PEVA 的核心:預(yù)測(cè)未來(lái),不只是預(yù)測(cè)像素,而是預(yù)測(cè)身體驅(qū)動(dòng)下的視覺后果。
PEVA 的功能
PEVA 目前能做的事情包括:
- 給定未來(lái)的 3D 全身動(dòng)作,預(yù)測(cè)連續(xù)的第一視角視頻。
- 分解復(fù)雜行為成「原子動(dòng)作」,例如只控制左手或者頭部旋轉(zhuǎn)。
不僅做單次預(yù)測(cè),還能生成最長(zhǎng) 16 秒的視覺流。
支持「反事實(shí)」推斷:如果做另一個(gè)動(dòng)作,會(huì)看到什么?
在多條動(dòng)作序列之間做規(guī)劃,通過視覺相似度挑出更優(yōu)方案。
在多樣化的日常環(huán)境中學(xué)習(xí),避免過擬合在簡(jiǎn)單場(chǎng)景。
一句話總結(jié),PEVA 就像一個(gè)「身體驅(qū)動(dòng)的可視化模擬器」,讓 AI 獲得更接近人類的想象方式。
技術(shù)細(xì)節(jié)
PEVA 的技術(shù)很簡(jiǎn)單直接,主要包括:
- 全身動(dòng)作輸入(48 維度的三維姿態(tài))
- 條件擴(kuò)散模型 + Transformer,兼顧視覺生成和時(shí)間邏輯
- 在真實(shí)同步的視頻 + 動(dòng)作(Nymeria 數(shù)據(jù)集)上訓(xùn)練
- 用時(shí)間跳躍策略預(yù)測(cè)到 16 秒
- 做一個(gè)可行的多方案規(guī)劃:在若干個(gè)動(dòng)作軌跡中,用視覺相似度挑一個(gè)最可能達(dá)成目標(biāo)的方案。
研究者在文章中也用大篇幅討論了局限和展望:例如只做了單臂或部分身體的規(guī)劃,目標(biāo)意圖還比較粗糙,沒法像人那樣用語(yǔ)言描述目標(biāo),這些都值得后續(xù)慢慢補(bǔ)齊。
能力小結(jié)
從評(píng)估看,PEVA 在幾個(gè)方面算是一個(gè)可行的探索:
- 短期視覺預(yù)測(cè),與動(dòng)作對(duì)齊度高。
- 長(zhǎng)期可達(dá) 16 秒的視頻,仍保持較好連貫性。
- 原子動(dòng)作的控制能力,比如只預(yù)測(cè)手部動(dòng)作、只預(yù)測(cè)轉(zhuǎn)身。
- 規(guī)劃:嘗試多動(dòng)作模擬,挑選最接近目標(biāo)的一條。
這些能力至少證明了一個(gè)方向:用身體驅(qū)動(dòng)未來(lái)的視覺預(yù)測(cè),是走向具身智能的一種合理切入點(diǎn)。
展望
后續(xù)還值得探索的方向包括:
- 語(yǔ)言目標(biāo)和多模態(tài)輸入
- 真實(shí)交互中的閉環(huán)控制
- 對(duì)更復(fù)雜任務(wù)的可解釋規(guī)劃
當(dāng) AI 試著像人一樣行動(dòng)時(shí),也許它同樣需要先學(xué)會(huì):如果我這么動(dòng),接下來(lái)會(huì)看到什么。
結(jié)語(yǔ)
或許可以這樣說:「人類之所以能看見未來(lái),是因?yàn)樯眢w在動(dòng),視覺隨之更新。」
PEVA 只是一個(gè)很小的嘗試,但希望為未來(lái)可解釋、可信任的具身智能,提供一點(diǎn)點(diǎn)啟發(fā)。