Efficiency Law,物理精確世界模型,及世界模型引擎驅(qū)動(dòng)的具身智能學(xué)習(xí)新范式
2025 年秋的具身智能賽道正被巨頭動(dòng)態(tài)點(diǎn)燃:特斯拉上海超級(jí)工廠宣布 Optimus 2.0 量產(chǎn)下線,同步開放開發(fā)者平臺(tái)提供運(yùn)動(dòng)控制與環(huán)境感知 SDK,試圖通過(guò)生態(tài)共建破解數(shù)據(jù)孤島難題;英偉達(dá)則在 SIGGRAPH 大會(huì)拋出物理 AI 全棧方案,其 Omniverse 平臺(tái)結(jié)合 Cosmos 世界模型可生成高質(zhì)量合成數(shù)據(jù),直指真機(jī)數(shù)據(jù)短缺痛點(diǎn)。
這些熱點(diǎn)事件共同指向行業(yè)共識(shí):曾被算法創(chuàng)新掩蓋的數(shù)據(jù)問(wèn)題,才是具身智能落地的根本癥結(jié)。
針對(duì)這個(gè)問(wèn)題,近日,我們與跨維智能創(chuàng)始人、香港中文大學(xué)(深圳)教授賈奎,香港中文大學(xué)(深圳)助理教授、具身決策實(shí)驗(yàn)室主任劉桂良進(jìn)行了一場(chǎng)深度對(duì)話與探討,試圖找到突破具身智能學(xué)習(xí)枷鎖的密鑰。

什么是 Efficiency law ?
其與 Scaling law 有何區(qū)別?
1. Scaling law 在具身智能領(lǐng)域碰到了什么挑戰(zhàn)呢?
賈奎:Scaling law 是大語(yǔ)言模型發(fā)展過(guò)程中所觀察到的經(jīng)驗(yàn)定律,即模型的性能與數(shù)據(jù)量、模型容量/參數(shù)量、算力之間分別存在一個(gè)冪函數(shù)關(guān)系【1,2】,此經(jīng)驗(yàn)定律有助于在給定的資源條件下,指導(dǎo)如何以最優(yōu)模型性能為目標(biāo)的數(shù)據(jù)、模型與算力分配。
定律的有效性是建立在訓(xùn)練大語(yǔ)言模型所需要的海量文本數(shù)據(jù)存在的前提,但對(duì)于訓(xùn)練具身智能模型,如上所說(shuō),領(lǐng)域還沒(méi)有建立能夠支撐scaling law的數(shù)據(jù)范式,那么定律本身也無(wú)法發(fā)揮指導(dǎo)作用。
具身智能的發(fā)展需要能夠?qū)ζ洚?dāng)前階段有更好指導(dǎo)意義的新定律,因此在【3】中,我們基于scaling law推導(dǎo)出新的適用當(dāng)前具身智能發(fā)展的新定律,命名為 Efficiency Law。
具體來(lái)說(shuō),我們首先定義一個(gè)叫做“數(shù)據(jù)生成速率”的量 r_D,在最大允許的模型生產(chǎn)時(shí)長(zhǎng)的條件下,模型性能與 r_D 存在一個(gè)冪函數(shù)關(guān)系,并受控于一個(gè)模型容量的冪函數(shù)與一個(gè) r_D 的冪函數(shù)的加和,進(jìn)一步推出,在有限時(shí)間內(nèi),更高的 r_D 能顯著提升學(xué)習(xí)效率,從而通過(guò)訓(xùn)練大容量模型提升實(shí)際性能,而過(guò)低的 r_D 會(huì)導(dǎo)致模型進(jìn)入“數(shù)據(jù)稀缺區(qū)”,使規(guī)律失效。
通俗解釋,Efficiency Law的核心觀點(diǎn)是:在有限的時(shí)間內(nèi),決定具身模型性能上限的,是生成高質(zhì)量數(shù)據(jù)的速率(我們稱之為r_D)。數(shù)據(jù)生成速率越快,就能越快地“喂飽”一個(gè)大模型,從而突破性能瓶頸。如果速率太慢,模型就會(huì)一直處于‘吃不飽’的‘?dāng)?shù)據(jù)稀缺區(qū)’,再大的潛力也發(fā)揮不出來(lái)。所以,具身智能的重點(diǎn)必須從‘堆數(shù)據(jù)’轉(zhuǎn)向‘高效造數(shù)據(jù)’。
因此,具身智能的發(fā)展必須從“采數(shù)據(jù)”和“堆數(shù)據(jù)”轉(zhuǎn)向“高效地造數(shù)據(jù)”;通過(guò)提高高質(zhì)量數(shù)據(jù)的生成與利用效率,建立起支撐具身智能發(fā)展的新學(xué)習(xí)范式。
為什么世界模型需要絕對(duì)的物理精確性?
2. 當(dāng)前基于視頻生成的世界模型,有什么不足之處?
賈奎:當(dāng)前基于視頻生成的世界模型【4,5】雖然能夠生成視覺(jué)上連貫、動(dòng)態(tài)一致的視頻序列,但它們主要在像素層面進(jìn)行統(tǒng)計(jì)學(xué)習(xí),追求的是“視覺(jué)逼真”而非“物理正確”【6】。
這類模型往往缺乏對(duì)真實(shí)物理規(guī)律的理解,無(wú)法準(zhǔn)確模擬如摩擦、質(zhì)量、受力、流體等底層動(dòng)力學(xué)機(jī)制,其生成結(jié)果更多依賴訓(xùn)練數(shù)據(jù)的分布而非因果計(jì)算,因此在面對(duì)分布外情境時(shí)容易產(chǎn)生違反物理常識(shí)的反事實(shí)場(chǎng)景。
對(duì)于具身智能而言,學(xué)習(xí)的核心在于建立真實(shí)世界中的感知、行動(dòng)、反饋循環(huán),智能體必須遵循牛頓力學(xué)等物理法則來(lái)實(shí)現(xiàn)可執(zhí)行的行為。因此,具身智能所依賴的世界模型【7,8】必須具備物理精確性,能夠針對(duì)剛體、軟體、流體等顯式三維表征,根據(jù)動(dòng)力學(xué)、運(yùn)動(dòng)學(xué)原理預(yù)測(cè)世界狀態(tài)變化計(jì)算系統(tǒng)的內(nèi)部狀態(tài),推理被遮擋或未觀測(cè)到的元素變化,保持運(yùn)行過(guò)程中的時(shí)序一致性,并支持世界狀態(tài)的存儲(chǔ)與恢復(fù),以實(shí)現(xiàn)精確的仿真與規(guī)劃。唯有如此,世界模型才能為具身智能提供符合真實(shí)物理約束的環(huán)境基礎(chǔ),支撐其在現(xiàn)實(shí)世界中的可執(zhí)行學(xué)習(xí)與決策。

3. 您能展開闡述一下“基于生成式仿真的世界模型”的內(nèi)涵,原理,和基本屬性么,它能如何解決視頻世界模型的不足之處?

劉桂良:我們?cè)?/span>【3】提出了基于生成式仿真的世界模型,即 World Models of Generative Simulation (GS-World)。它是一種將生成模型與物理仿真引擎深度融合的新型世界模型,它從根本上改變了“世界生成”的機(jī)制。
傳統(tǒng)基于視頻生成的世界模型主要在像素層學(xué)習(xí)數(shù)據(jù)分布,追求視覺(jué)上的逼真,卻無(wú)法保證物理規(guī)律的正確性;而 GS-World 則在生成過(guò)程中顯式或隱式地引入物理仿真,將生成模型與可微分的物理仿真結(jié)合,使世界的動(dòng)態(tài)演化遵循真實(shí)的力學(xué)等方程。
它不僅生成場(chǎng)景的視覺(jué)外觀,還同時(shí)生成三維資產(chǎn)、物體材質(zhì)、物理參數(shù)與交互規(guī)則,從源頭上保證運(yùn)動(dòng)、碰撞、受力等現(xiàn)象的因果合理性。由于內(nèi)部狀態(tài)可被顯式計(jì)算與反向傳播,GS-World 能支持智能體在仿真環(huán)境中真實(shí)地行動(dòng)、學(xué)習(xí)與驗(yàn)證,既具備可控性又具備物理精度,從而擺脫了視頻模型依賴數(shù)據(jù)分布記憶、無(wú)法泛化和反事實(shí)失真的局限。
簡(jiǎn)而言之,GS-World 把“看起來(lái)像真的世界”真正變成了“遵循物理規(guī)律可計(jì)算的世界”,為具身智能提供了可信賴的學(xué)習(xí)與推理基礎(chǔ)。

4. “基于生成式仿真的世界模型”,有什么潛在的用途?
賈奎:我們所提出的GS-World具有極高的潛在應(yīng)用價(jià)值,它不僅是一種新的技術(shù)形態(tài),更代表著“世界模型”的終極方向。
首先,GS-World 能夠在物理上精確建模和預(yù)測(cè)世界動(dòng)態(tài),真實(shí)地生成三維環(huán)境、物體屬性及其物理交互規(guī)律,從而解決了 Sora2 等視頻生成模型僅具視覺(jué)擬真、缺乏物理一致性的問(wèn)題。在這種框架下,視頻生成僅是一個(gè)“自然副產(chǎn)物”,系統(tǒng)可通過(guò)任意視角的可微渲染輸出視頻,而其本質(zhì)是一個(gè)能夠內(nèi)蘊(yùn)計(jì)算完整物理因果過(guò)程的引擎。
其次,GS-World 也是強(qiáng)化學(xué)習(xí)領(lǐng)域中長(zhǎng)期追求的“model-based RL 的終極模型”,它能夠在仿真空間內(nèi)構(gòu)建世界動(dòng)力學(xué)并進(jìn)行高保真策略驗(yàn)證,實(shí)現(xiàn)虛擬試錯(cuò)與策略優(yōu)化的閉環(huán)學(xué)習(xí)。
與此同時(shí),有了 GS-World,VLA模型的學(xué)習(xí)將變得極為便利:系統(tǒng)無(wú)需依賴昂貴的真實(shí)機(jī)器人數(shù)據(jù)采集即可通過(guò)仿真世界自動(dòng)生成多模態(tài)訓(xùn)練數(shù)據(jù),并在物理精確的環(huán)境中實(shí)現(xiàn)策略驗(yàn)證與微調(diào)。
最根本地,GS-World 能作為一個(gè)通用智能引擎(Engine),驅(qū)動(dòng)持續(xù)、流式的具身智能學(xué)習(xí),使得它能自動(dòng)生成、仿真、評(píng)估和反向優(yōu)化整個(gè)學(xué)習(xí)過(guò)程,使智能體在不斷變化的虛擬物理世界中自主學(xué)習(xí)與進(jìn)化,從而開辟“引擎驅(qū)動(dòng)的具身智能”這一全新的學(xué)習(xí)范式。
世界模型作為引擎,具身智能學(xué)習(xí)新范式
5. 您能介紹一下“基于生成式仿真的世界模型”作為引擎,如何形成新的具身智能學(xué)習(xí)范式?
賈奎:GS-World推動(dòng)了一個(gè)全新的“引擎驅(qū)動(dòng)的具身智能學(xué)習(xí)范式”。
相比當(dāng)前基于任務(wù)開發(fā)的Sim2Real路徑或Real2Sim2Real等變種,GS-World 能主動(dòng)生成并仿真物理精確的三維世界,使智能體在其中感知、行動(dòng)、試錯(cuò)與學(xué)習(xí),形成“生成—交互—反饋—優(yōu)化”的閉環(huán)。
它不僅讓世界具備因果可計(jì)算性與自演化能力,還使智能體的策略學(xué)習(xí)、任務(wù)構(gòu)建與環(huán)境生成融為一體,從而實(shí)現(xiàn)流式、自我進(jìn)化的具身智能訓(xùn)練體系。
這種引擎驅(qū)動(dòng)(engine-driven)的 Sim2Real VLA 范式,使智能體真正能在生成并物理自洽的世界中持續(xù)成長(zhǎng),為通用具身智能的自主學(xué)習(xí)奠定了核心引擎基礎(chǔ)。

6. 這種范式如何實(shí)現(xiàn)efficiency law, 它還有什么其他好的屬性?
劉桂良:GS-World是實(shí)現(xiàn)efficiency law的核心機(jī)制。
首先,GS-World 將“世界生成、物理仿真、任務(wù)構(gòu)建、反饋優(yōu)化”整合為一個(gè)可微分、可自進(jìn)化的統(tǒng)一引擎,使智能體的訓(xùn)練過(guò)程由被動(dòng)的數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)向主動(dòng)的任務(wù)生成與環(huán)境演化。這樣,世界與智能體共同構(gòu)成一個(gè)自激勵(lì)、自循環(huán)的學(xué)習(xí)系統(tǒng),智能增長(zhǎng)速度將與生成仿真能力成正比,體現(xiàn)出學(xué)習(xí)效率隨數(shù)據(jù)生成速率(r_D)的 efficiency law。
其次,GS-World 通過(guò)可控生成能力構(gòu)建無(wú)限多樣的物理環(huán)境與任務(wù)空間,使智能體能夠在統(tǒng)一的世界模型框架下同時(shí)學(xué)習(xí)多任務(wù)、多模態(tài)、多物理規(guī)律的行為,從而實(shí)現(xiàn)“通才化(generalist)”的認(rèn)知擴(kuò)展。同時(shí),引擎還具備精細(xì)化的分布調(diào)節(jié)能力,可針對(duì)特定任務(wù)、技能或物理機(jī)制自動(dòng)收縮學(xué)習(xí)空間、聚焦優(yōu)化,形成“專才化(specialist)”的高效學(xué)習(xí)結(jié)構(gòu)【9】。
也就是說(shuō),GS-World 提供了一個(gè)既能橫向擴(kuò)展智能廣度、又能縱向精化智能深度的動(dòng)態(tài)引擎,使具身智能得以在高效率、強(qiáng)自適應(yīng)和持續(xù)演化的閉環(huán)中不斷生長(zhǎng)。
這種具備自動(dòng)化、可擴(kuò)展與彈性特征的引擎機(jī)制,為未來(lái)的具身智能建立了一種真正可自組織、自演化的學(xué)習(xí)生態(tài)。

7. 您能展開描述一下“數(shù)據(jù)驅(qū)動(dòng)”與“引擎驅(qū)動(dòng)”的具身智能學(xué)習(xí),范式上有什么本質(zhì)不同?
劉桂良:數(shù)據(jù)驅(qū)動(dòng)的具身智能學(xué)習(xí)以外部數(shù)據(jù)為中心,智能體被動(dòng)地從過(guò)去的經(jīng)驗(yàn)分布中提取規(guī)律,缺乏對(duì)物理世界的顯式建模,因此學(xué)習(xí)受限、擴(kuò)展性差、缺乏因果一致性。
而引擎驅(qū)動(dòng)的具身智能學(xué)習(xí)則以生成式仿真引擎(GS-World)為核心,讓智能體在一個(gè)可生成、可演化、可驗(yàn)證的世界中自主學(xué)習(xí),通過(guò)閉環(huán)交互持續(xù)生成數(shù)據(jù)、構(gòu)建因果模型并優(yōu)化策略。它不依賴外部數(shù)據(jù)供給,而依靠自身生成能力驅(qū)動(dòng)智能持續(xù)增長(zhǎng),實(shí)現(xiàn)學(xué)習(xí)效率、泛化能力與可解釋性的全面躍升。
簡(jiǎn)而言之,從數(shù)據(jù)驅(qū)動(dòng)到引擎驅(qū)動(dòng),是具身智能從“模仿現(xiàn)實(shí)”走向“生成現(xiàn)實(shí)”的根本范式轉(zhuǎn)變。

8. 為什么要實(shí)現(xiàn)產(chǎn)品級(jí)成功率和魯棒抗干擾性的具身智能,世界模型引擎驅(qū)動(dòng)的學(xué)習(xí)范式是必然選項(xiàng)?
賈奎:在家庭、商業(yè)和工業(yè)等復(fù)雜真實(shí)場(chǎng)景中,機(jī)器人只有在具備物理精確性、抗環(huán)境擾動(dòng)能力及泛化安全性的前提下,才能實(shí)現(xiàn)產(chǎn)品級(jí)的穩(wěn)定性與成功率。
傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)方法只能從表象數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)相關(guān)性,缺乏與現(xiàn)實(shí)物理一致的因果約束,因而在遇到擾動(dòng)或未見場(chǎng)景時(shí)性能崩潰。
而基于 GS-World 的引擎驅(qū)動(dòng)學(xué)習(xí)范式,能夠從根本上構(gòu)建物理一致的可生成世界,讓智能體在仿真中經(jīng)歷無(wú)限真實(shí)的交互與試錯(cuò)過(guò)程,自主習(xí)得對(duì)復(fù)雜力學(xué)、噪聲和變化的補(bǔ)償策略,從而自然獲得魯棒性、泛化力與安全性。
這意味著:要實(shí)現(xiàn)真正可部署、可靠且可信賴的具身智能產(chǎn)品,引擎驅(qū)動(dòng)的世界模型學(xué)習(xí)已不是一個(gè)可選方向,而是必然的技術(shù)路徑。
世界模型引擎:具身智能機(jī)器人的終極訓(xùn)練場(chǎng)和演化場(chǎng)
9. 機(jī)器人的技能是如何在“基于生成式仿真的世界模型”中產(chǎn)生和訓(xùn)練的?
劉桂良:在 GS-World 中,機(jī)器人技能不再是人類手工設(shè)計(jì)的任務(wù)腳本,而是通過(guò)引擎生成的物理世界中自然“挖掘”出來(lái)的。
該模型通過(guò)生成真實(shí)物理交互的世界,使技能在仿真中經(jīng)由交互、優(yōu)化與驗(yàn)證逐步形成;通過(guò)多模態(tài)表示與動(dòng)作語(yǔ)法機(jī)制,這些技能又能抽象、組合與遷移,形成具可擴(kuò)展性的技能生態(tài)。最終,憑借世界模型的物理準(zhǔn)確性與仿真魯棒性,以及引擎的連續(xù)域隨機(jī)和域適應(yīng)能力,這些在虛擬世界中學(xué)習(xí)的技能能夠安全而高保真地遷移至現(xiàn)實(shí)環(huán)境,實(shí)現(xiàn)從生成世界到學(xué)習(xí)行為再到遷移現(xiàn)實(shí)的閉環(huán)。
這意味著,在 GS-World 引擎中,技能成為具身智能內(nèi)生的、可解釋、可擴(kuò)展、可復(fù)用的智能基元,是未來(lái)通用機(jī)器人能力的核心生成機(jī)制。

10. 如何理解“基于生成式仿真的世界模型”是具身智能機(jī)器人的演化場(chǎng)?
賈奎:GS-World 之所以是具身智能機(jī)器人的演化場(chǎng),在于它讓智能體的身體結(jié)構(gòu)、控制策略與環(huán)境動(dòng)力學(xué)在同一物理生成機(jī)制下共同演化【10】。
GS?World?通過(guò)可微分的物理仿真、圖結(jié)構(gòu)的形態(tài)表示及仿生搜索機(jī)制,使機(jī)器人能夠在虛擬但物理一致的世界中不斷重塑自身形態(tài)、優(yōu)化行為并積累演化經(jīng)驗(yàn)。
它提供的不只是訓(xùn)練環(huán)境,而是一個(gè)能促使機(jī)器人實(shí)現(xiàn)身體與智能協(xié)同生長(zhǎng)、自組織、自適應(yīng)的物理?認(rèn)知生態(tài)場(chǎng);在這個(gè)意義上,GS?World?成為具身智能機(jī)器人從“人工設(shè)計(jì)產(chǎn)物”走向“自演化生命體”的關(guān)鍵躍遷平臺(tái),從而實(shí)現(xiàn)讓人工智能定義機(jī)器人本體。
結(jié)語(yǔ)
AGI、Physical AGI 與具身智能正處在高速發(fā)展的階段,行業(yè)迫切期待一種基于第一性原理、能與具體任務(wù)場(chǎng)景深度匹配且具備高性價(jià)比的新技術(shù)范式。
而跨維智能聯(lián)合香港中文大學(xué)(深圳)提出的GS-World 世界模型引擎,以及基于該引擎的具身智能學(xué)習(xí)新范式,正是這一范式的典型代表。
據(jù)悉,GS-World 引擎原型以及基于其自動(dòng)訓(xùn)練的VLA 模型也將于近期開源。期待更多產(chǎn)業(yè)及學(xué)術(shù)研究人員投入到這一極具潛力的新方向,共同推進(jìn)具身智能產(chǎn)業(yè)的快速發(fā)展與廣泛落地。



































