關(guān)于機(jī)器人數(shù)據(jù),強(qiáng)化學(xué)習(xí)大佬Sergey Levine剛剛寫了篇好文章
我們知道,訓(xùn)練大模型本就極具挑戰(zhàn),而隨著模型規(guī)模的擴(kuò)大與應(yīng)用領(lǐng)域的拓展,難度也在不斷增加,所需的數(shù)據(jù)更是海量。
大型語言模型(LLM)主要依賴大量文本數(shù)據(jù),視覺語言模型(VLM)則需要同時包含文本與圖像的數(shù)據(jù),而在機(jī)器人領(lǐng)域,視覺 - 語言 - 行動模型(VLA)則要求大量真實世界中機(jī)器人執(zhí)行任務(wù)的數(shù)據(jù)。
目前而言,Agent 是我們走向通用人工智能(AGI)的重要過渡。訓(xùn)練 Agent 則需要帶有行動標(biāo)簽的真實交互數(shù)據(jù),而獲取這類數(shù)據(jù)的成本遠(yuǎn)比從網(wǎng)頁上獲取文本與圖像的成本高昂得多。
因此,研究者一直在嘗試尋找一種替代方案,來實現(xiàn)魚和熊掌兼得的效果:既能夠降低數(shù)據(jù)獲取成本,又能夠保證大模型訓(xùn)練成果,保持基礎(chǔ)模型訓(xùn)練中常見的大規(guī)模數(shù)據(jù)帶來的優(yōu)勢。
加州大學(xué)伯克利分校副教授,Physical Intelligence 的聯(lián)合創(chuàng)始人,強(qiáng)化學(xué)習(xí)領(lǐng)域大牛 Sergey Levine 為此撰寫了一篇文章,分析了訓(xùn)練大模型的數(shù)據(jù)組合,但他卻認(rèn)為,魚和熊掌不可兼得,叉子和勺子組合成的「叉勺」確實很難在通用場景稱得上好用。


- 博客標(biāo)題:Sporks of AGI
- 博客鏈接:https://sergeylevine.substack.com/p/sporks-of-agi
替代數(shù)據(jù)
盡管在視覺感知和自然語言處理任務(wù)中,真實世界數(shù)據(jù)一直被視為首選,但在智能體領(lǐng)域,尤其是機(jī)器人智能體(如視覺 - 語言 - 動作模型,VLA)中,研究者們始終在嘗試尋找「替代方案」—— 即能以較低成本獲取的代理數(shù)據(jù),來代替昂貴的真實交互數(shù)據(jù),同時仍具備訓(xùn)練基礎(chǔ)模型所需的泛化能力。本文聚焦于機(jī)器人領(lǐng)域,但其他任務(wù)也基本遵循類似思路,只是采用了不同形式的替代數(shù)據(jù)。
仿真是一種經(jīng)典策略。設(shè)想我們可以在《黑客帝國》般的虛擬環(huán)境,或高保真的電子游戲中訓(xùn)練機(jī)器人,就有可能避免對真實世界數(shù)據(jù)的依賴。
雖然這些方案產(chǎn)生了大量令人興奮且富有創(chuàng)意的研究成果,但若從結(jié)構(gòu)上可以將它們統(tǒng)一描述為:人為構(gòu)建一個廉價代理域與真實機(jī)器人系統(tǒng)之間的映射關(guān)系,并基于這一映射,用廉價數(shù)據(jù)替代真實任務(wù)域中的昂貴數(shù)據(jù)。主流的幾種方法如下:
仿真(Simulation):
「仿真到現(xiàn)實」(sim-to-real)的方法依賴人類設(shè)計者指定機(jī)器人的訓(xùn)練環(huán)境,并提供相應(yīng)資源(如物理建模、視覺資產(chǎn)等)。機(jī)器人在仿真中學(xué)習(xí)到的行為很大程度上取決于這些人為設(shè)定。實際上,最有效的仿真往往并不追求對現(xiàn)實的高度還原(這本身極具挑戰(zhàn)),而是故意引入各種環(huán)境變化,如隨機(jī)的石板路或不同高度地形,以提高機(jī)器人魯棒性。這種設(shè)計方式不僅定義了任務(wù)「是什么」,也間接規(guī)定了任務(wù)應(yīng)「如何完成」。
人類視頻(Human Videos):
基于人類視頻訓(xùn)練機(jī)器人技能的方法,通常需要在人體與機(jī)器人之間建立某種對應(yīng)關(guān)系,例如手的位置或手指的抓取動作。這種映射方式預(yù)設(shè)了一種具體的任務(wù)完成策略(例如通過「握持 - 搬運」的方式),同時也必須跨越人類與機(jī)器人在動力學(xué)和外觀上的差異鴻溝。
手持式夾爪設(shè)備(Hand-held Gripper Devices):
這種方法并非在訓(xùn)練時構(gòu)建映射關(guān)系,而是通過物理手段直接建立人機(jī)之間的映射。具體做法是讓人類使用手持設(shè)備來模仿機(jī)器人夾爪完成任務(wù)。這種方式頗具吸引力,因為參與者必須以類似機(jī)器人的方式執(zhí)行任務(wù)。但這同樣隱含著一套「動作設(shè)定」前提:例如,設(shè)備默認(rèn)機(jī)器人能在具有 6 自由度的操作空間中,僅使用手指完成任務(wù),且不暴露機(jī)器人與人類在運動學(xué)結(jié)構(gòu)或外觀上的差異。
以上方法都產(chǎn)生了大量有意義的研究成果,并在實踐中取得了諸多成功案例。然而,從長遠(yuǎn)看,我認(rèn)為這些方法在本質(zhì)上都代表了一種妥協(xié) —— 這種妥協(xié)可能會削弱大規(guī)模學(xué)習(xí)模型原本所具備的強(qiáng)大能力與泛化潛力。
交叉點
在數(shù)據(jù)采集過程中,人類的判斷顯然無法回避:即便是最真實、最純粹的「白板式」學(xué)習(xí)方法,也必須由我們來設(shè)定模型應(yīng)完成的任務(wù)目標(biāo)。然而,當(dāng)我們試圖規(guī)避對真實數(shù)據(jù)的依賴而做出的一些設(shè)計決策,往往會帶來更大的問題,因為這些決策本身就限制了解決問題的方式。
每存在一個領(lǐng)域差異(如模擬環(huán)境、視頻等),我們所能采用的解決方案就被限定在一個交集之中:

隨著模型能力的不斷增強(qiáng),其區(qū)分替代數(shù)據(jù)域與真實世界目標(biāo)域的能力也在提升(即圖中黃色圓圈收縮),這就導(dǎo)致行為策略的交集區(qū)域不斷縮小。
我們可以嘗試通過隱藏信息來對抗這一問題,例如減少觀察空間、引入領(lǐng)域不變性損失、限制機(jī)器人可用的攝像頭視角等等。幾乎所有用于緩解領(lǐng)域差異的方法歸根結(jié)底都是某種形式的信息隱藏。
但這種做法再次削弱了基礎(chǔ)模型的最大優(yōu)勢 —— 即整合復(fù)雜信息來源、提取人類難以察覺的細(xì)微模式的能力。
換句話說,隨著模型變強(qiáng),黃色圓圈變小,而任何試圖阻止這一趨勢的做法,最終都等同于削弱模型能力。我們只能通過「讓模型變傻」,來「欺騙」它不去意識到自己身處「矩陣」之中。
這個交集區(qū)域的大小,還嚴(yán)重依賴于我們在構(gòu)建替代數(shù)據(jù)時所做的設(shè)計決策 —— 設(shè)計得越糟糕,綠色圓圈(真實世界中成功策略的空間)與紅色圓圈(可用于訓(xùn)練的替代策略空間)之間的交集就越小。
實際操作中,我們往往圍繞某幾個特定應(yīng)用場景,精心設(shè)計替代數(shù)據(jù)的獲取方式,以盡可能縮小在這些場景下與真實機(jī)器人的差異,使得「良好行為」在這兩個系統(tǒng)中盡量一致。
但這種一致性在這些應(yīng)用場景之外并無任何保障。
本質(zhì)上,當(dāng)我們用人類的數(shù)據(jù)來訓(xùn)練機(jī)器人基礎(chǔ)模型,再讓它面對新的任務(wù)時,它會試圖預(yù)測「人類會如何解決這個問題」,而不是預(yù)測一個「機(jī)器人能如何高效完成這個任務(wù)」的策略。
這再次背離了基礎(chǔ)模型的核心優(yōu)勢 —— 即具備廣泛通用性和強(qiáng)泛化能力,能夠?qū)⒂?xùn)練模式推廣到全新領(lǐng)域。
而如今,每進(jìn)入一個新領(lǐng)域,我們就需要投入更多的人工工作來改善替代數(shù)據(jù)與真實世界之間的對應(yīng)關(guān)系;模型原本的泛化能力,反而成了我們的負(fù)擔(dān) —— 它會放大替代數(shù)據(jù)與真實機(jī)器人之間的差距,使得我們在應(yīng)對新場景時更為艱難。

當(dāng)我們真正希望優(yōu)化機(jī)器人的最優(yōu)行為(例如通過強(qiáng)化學(xué)習(xí))時,以上所有問題都會進(jìn)一步加劇。
真實世界數(shù)據(jù)
當(dāng)我們試圖回避使用真實世界數(shù)據(jù)的需求時,實際上是在追求一種「魚與熊掌兼得」的方案:既希望像模擬或網(wǎng)絡(luò)視頻那樣成本低廉,又希望像在大規(guī)模真實數(shù)據(jù)上訓(xùn)練出的基礎(chǔ)模型那樣高效。
但最終得到的,往往只是一個「叉勺」—— 在極少數(shù)符合我們假設(shè)的場景中,它既能當(dāng)叉子用,也能當(dāng)勺子用,但大多數(shù)時候,它只是一個布滿孔洞的蹩腳勺子,或一個遲鈍無力的叉子。
在機(jī)器學(xué)習(xí)中,一貫最有效的方法是讓訓(xùn)練數(shù)據(jù)盡可能貼近測試環(huán)境。這才是「真實的」—— 能夠教會模型世界真實運行機(jī)制的數(shù)據(jù),從而讓模型能勝任任務(wù),提取出其中的潛在規(guī)律;這些規(guī)律往往復(fù)雜而微妙,連人類都難以察覺,而模型卻能從中進(jìn)行歸納推理,解決復(fù)雜的新問題。
當(dāng)我們用替代數(shù)據(jù)代替真實數(shù)據(jù)時,其實是在做「次優(yōu)之選」:只有在某些特定條件下,它才能勉強(qiáng)模擬真實情況。
就像你不可能通過單靠對著墻打球,或者看費德勒打網(wǎng)球的錄像,就成為一名真正的網(wǎng)球高手 —— 盡管這兩者確實復(fù)制了部分專業(yè)體驗;同樣的,機(jī)器人如果從未在真實世界中「親自下場」,也無法真正掌握如何在真實世界中行動。
那么,我們應(yīng)從中得到什么啟示?
最關(guān)鍵的一點是:如果我們希望構(gòu)建能夠在真實物理世界中具備廣泛泛化能力的機(jī)器人基礎(chǔ)模型,真實世界的數(shù)據(jù)是不可或缺的,正如 LLM 和 VLM 在虛擬世界中所展示的強(qiáng)大泛化能力一樣。
在構(gòu)建訓(xùn)練集時,如果我們在廣泛而具代表性的真實機(jī)器人經(jīng)驗之外,加入包括人類演示、甚至仿真在內(nèi)的多樣化數(shù)據(jù)源,往往會帶來幫助。事實上,可以坦然地將替代數(shù)據(jù)視為補(bǔ)充知識的來源 —— 它的意義在于輔助,而非替代真實的實踐經(jīng)驗。
在這種視角下,我們對替代數(shù)據(jù)的要求也將發(fā)生根本性的轉(zhuǎn)變:我們不再追求它在形態(tài)上盡可能接近真實機(jī)器人(比如使用手持夾爪,或讓人模仿機(jī)器人動作錄視頻),而是將其視為類似于 LLM 預(yù)訓(xùn)練數(shù)據(jù)的存在 —— 不是直接告訴智能體該做什么,而是提供關(guān)于「真實世界可能發(fā)生什么」的知識來源。
叉勺(Sporks)
在本文中,我探討了「替代數(shù)據(jù)」這一「叉勺」 —— 它試圖在避免大規(guī)模真實數(shù)據(jù)采集成本的前提下,獲得大規(guī)模訓(xùn)練的收益。但在人工智能研究中,替代數(shù)據(jù)并不是唯一的一把「叉勺」。
其他「叉勺」還包括:結(jié)合手工設(shè)計與學(xué)習(xí)組件的混合系統(tǒng),利用人為設(shè)定的約束來限制自主學(xué)習(xí)系統(tǒng)不良行為的方法,以及將我們對問題求解方式的直覺,直接嵌入神經(jīng)網(wǎng)絡(luò)架構(gòu)中的模型設(shè)計。
這些方法都試圖「兼得」:既要享受大規(guī)模機(jī)器學(xué)習(xí)帶來的優(yōu)勢,又要規(guī)避其高數(shù)據(jù)需求或繁瑣目標(biāo)設(shè)計的代價。這些方法有著相似的核心:它們都是通過某種手工設(shè)計的歸納偏置,來應(yīng)對訓(xùn)練數(shù)據(jù)不完全的問題。
因此,它們也都面臨同樣的根本性缺陷:
需要我們?nèi)藶榈貙ⅰ肝覀円詾槲覀兪窃趺此伎嫉姆绞健咕幋a進(jìn)系統(tǒng)中。
在任何可學(xué)習(xí)系統(tǒng)中,任何不是通過學(xué)習(xí)獲得的、而是人工設(shè)計的部分,最終都將成為系統(tǒng)性能的瓶頸。
「叉勺」之所以吸引人,是因為它們讓我們覺得:只要讓模型按我們設(shè)定的方式解決問題,就能克服人工智能中的重大挑戰(zhàn)。但事實是,這樣做反而讓我們的學(xué)習(xí)系統(tǒng)更難以擴(kuò)展 —— 盡管我們最初的意圖正是為了提升其擴(kuò)展性。
更多信息,請參閱原博客。

































