機器人的「物理圖靈測試」,英偉達Jim Fan 17分鐘演講揭秘具身Scaling Law
Jim Fan,英偉達機器人部門主管和杰出科學(xué)家、GEAR 實驗室聯(lián)合領(lǐng)導(dǎo)人、OpenAI 的首位實習(xí)生,最近在紅杉資本主辦的 AI Ascent 上做了一場 17 分鐘的演講,介紹了「解決通用機器人問題的第一性原理」,包括訓(xùn)練機器人 AI 的數(shù)據(jù)策略、Scaling Law 以及基于物理 API 的美好未來。

其中尤其提到了「物理圖靈測試」,大意是說對于一個真實的物理場景和一個指令,會有人類或機器人根據(jù)該指令對這個場景進行相應(yīng)的處理,然后看其他人能否分辨這個場景是人類處理的還是機器人處理的。
很顯然,Jim Fan 以及英偉達正在朝著讓機器人和 AI 通過這個物理圖靈測試而努力。在文本中,我們梳理了 Jim Fan 的主要演講內(nèi)容,另外還在文末發(fā)起了一個投票,看你覺得物理圖靈測試會在什么時候被攻克?

以下為經(jīng)過梳理的演講內(nèi)容。
幾天前,一篇博客文章引起了我的注意。它說:「我們通過了圖靈測試,卻沒人注意到?!箞D靈測試曾經(jīng)是神圣的,堪稱計算機科學(xué)的圣杯,結(jié)果我們就這么通過了。

Jim Fan 提到的博客:https://signull.substack.com/p/we-passed-the-turing-test-and-nobody
當(dāng) o3 mini 多花幾秒鐘思考,或者 Claude 無法調(diào)試你那些討厭的代碼時,你會感到不滿,對吧?然后我們把每一個大語言模型的突破都當(dāng)作只是又一個普通的星期二。在座的各位是最難打動的人。
所以我想提出一個非常簡單的東西,叫做「物理圖靈測試(Physical Turing Test)」。
物理圖靈測試
想象一下,你在周日晚上舉辦了一個黑客馬拉松派對,最后你的房子變成了這樣:

你的伴侶對你大喊大叫,你想:「哎呀,周一早上,我想告訴某人清理這個爛攤子,然后為我準(zhǔn)備一頓很好的燭光晚餐,這樣我的伴侶就能開心了?!?/span>
然后你回到家,看到這一切(實現(xiàn)了),但你無法分辨是人還是機器幫你弄的。物理圖靈測試就是這么簡單。

那我們現(xiàn)在進展到什么程度了?接近了嗎?看看這個準(zhǔn)備開始工作的機器人:


再看看機器狗遇到香蕉皮:

機器人為你準(zhǔn)備燕麥早餐:

這就是我們的現(xiàn)狀。
那么,為什么解決物理圖靈測試如此困難呢?
你們知道大語言模型研究人員經(jīng)常抱怨,對吧?最近有個叫 Ilya 的人抱怨說:大語言模型預(yù)訓(xùn)練的數(shù)據(jù)快用完了。他甚至稱互聯(lián)網(wǎng)為「AI 的化石燃料」。他說我們快沒有數(shù)據(jù)來訓(xùn)練大語言模型了。但是,如果你了解機器人模型,你就會知道大語言模型研究人員被寵壞了。我們甚至連化石燃料都沒有。

下圖是英偉達總部的一個數(shù)據(jù)收集環(huán)節(jié)。英偉達有一個咖啡廳,我們設(shè)置了這些人形機器人,我們操作它們并收集數(shù)據(jù)。

收集到的數(shù)據(jù)如下圖所示。這是機器人關(guān)節(jié)控制信號,是隨時間變化的連續(xù)值。你在維基百科、YouTube、Reddit 或任何地方都找不到這種數(shù)據(jù),所以你必須自己收集。

那我們是怎么收集的呢?
我們有一種非常復(fù)雜但也非常昂貴的方法,叫做遙操作(teleoperation)。你可以讓人佩戴某種 VR 頭顯,它能識別你的手勢并將其傳輸給機器人。這樣你就可以教機器人技能,比如從烤面包機中取出面包,然后倒上蜂蜜。但可以想象,這是一個非常緩慢且痛苦的過程。

如果你把這個方法放到 scaling 圖上,你會發(fā)現(xiàn)它根本不能 scale。真實機器人數(shù)據(jù)的獲取是在拿人力當(dāng)燃料,這比用化石燃料更糟糕。而且,一個機器人每天只有 24 小時的時間可以用。實際可利用的時間更少,因為人會疲勞,機器人比人類更容易疲勞。

那我們該怎么辦呢?機器人的核能在哪里?我們必須有清潔能源。不能永遠依靠化石燃料。
模擬很重要
接下來進入「模擬」。我們必須離開物理世界,進入模擬的世界。
我們訓(xùn)練了一個機器手,能在模擬中完成超人般的靈巧任務(wù),如轉(zhuǎn)筆。對我來說這是超人的,因為我不能轉(zhuǎn)筆,我很高興我的機器人至少在模擬中能做得比我好。

那么如何訓(xùn)練機器手來完成這樣復(fù)雜的任務(wù)呢?我們有兩個想法。一是你必須以比實時快 10000 倍的速度進行模擬。這意味著你應(yīng)該在單個 GPU 上并行運行 10000 個環(huán)境進行物理模擬。

第二點,10000 個環(huán)境副本不能都相同。你必須改變一些參數(shù),如重力、摩擦力和重量。我們稱之為域隨機化。
這給了我們模擬原則。
為什么這種做法能 work?想象一下,如果一個神經(jīng)網(wǎng)絡(luò)能夠控制機器人掌握一百萬個不同的世界,那么它很可能也能掌握第一百萬零一個世界 —— 即我們的物理現(xiàn)實。換句話說,我們的物理世界處于這種訓(xùn)練的分布之中。

接下來,我們?nèi)绾螒?yīng)用這些模擬結(jié)果呢?你可以建立一個數(shù)字孿生(digital twin),即機器人和世界的一對一副本,然后你在模擬中訓(xùn)練,直接在真實世界中測試,零樣本遷移。

機器手也是如此:

我們能做的最令人印象深刻的任務(wù)是讓狗站在瑜伽球上走,我們把它從虛擬遷移到現(xiàn)實世界。

我們的研究人員看起來超級奇怪,就像《黑鏡》的一集。

接下來,我們還可以將其應(yīng)用于更復(fù)雜的機器人,如人形機器人。在短短兩小時的模擬時間內(nèi),這些人形機器人就經(jīng)歷了 10 年的訓(xùn)練,學(xué)習(xí)行走,然后你可以把它們遷移到現(xiàn)實世界。無論實體是什么,只要你有機器人模型,你就可以模擬它,并且可以實現(xiàn)行走。

我們能做的不僅僅是行走。當(dāng)你控制自己的身體時,你可以跟蹤任何你想要的姿勢,跟蹤任何關(guān)鍵點,遵循任何你想要的速度向量,這被稱為人形機器人的全身控制問題,是個非常困難的問題。

但我們可以訓(xùn)練它,在 10000 個并行運行的模擬上,我們可以將其零樣本遷移到真實機器人上,無需任何微調(diào)。
這是在英偉達實驗室進行的一個演示。你可以看到它所做的動作的復(fù)雜性。它模仿人類所有這些敏捷的動作,同時保持平衡。

做這個需要多大的神經(jīng)網(wǎng)絡(luò)?它只需要 150 萬參數(shù),不是 15 億。150 萬參數(shù)足以捕捉人體的潛意識處理。
所以,如果我們將其放在這個圖表上,縱軸是速度,橫軸是模擬的多樣性,我們稱之為模擬 1.0,數(shù)字孿生范式,它是一個經(jīng)典的向量化物理引擎,你可以運行到每秒 10000 幀甚至一百萬幀。但問題是你必須建立一個數(shù)字孿生。你需要有人建造機器人,建造環(huán)境和一切。這非常繁瑣,且需要手動完成。

用生成式 AI 生成模擬數(shù)據(jù)
那么,我們能否用生成的方式獲得模擬環(huán)境的一部分?下圖這些 3D 資產(chǎn)都是由 3D 生成模型生成的:

這些紋理來自 Stable Diffusion 或任何你喜歡的擴散模型:

這些布局也是可以用工具生成的:

將所有這些放在一起,我們構(gòu)建了一個名為 RoboCasa 的框架,它是日常任務(wù)的一個組合模擬。這里的一切,除了機器人,都是生成的。你可以組合不同的場景,但它仍然依賴于這個經(jīng)典引擎來運行,但你已經(jīng)可以從中獲得很多任務(wù)。
接下來,同樣讓人類來操作。但這一次,人類是在模擬中進行操作。

基于這一個放杯子的演示,我們可以得到人類操作的軌跡,然后便可以在模擬中重放這一軌跡。
而在模擬中,我們可以通過各種技術(shù)修改場景,甚至還可以修改運動,比如可以通過 GR00T Mimic 等技術(shù)模擬出相似的動作。

也就是說,只需一個人類演示,就能通過環(huán)境生成得到 N 個演示,如果在執(zhí)行動作生成,則能得到 N×M 個不同的模擬樣本。如此一樣,便實現(xiàn)了數(shù)據(jù)的倍增。

如下所示,第一和三列是真實的機器人,第二和四列是生成的模擬??吹贸鰜?,生成的視頻的紋理真實感依然很差,但它們已經(jīng)足夠接近了。

那么,我們?nèi)绾畏Q呼這些足夠接近的生成樣本呢?數(shù)字表親(digital cousin)。這與數(shù)字孿生不一樣,但也在一定程度上捕捉到了真實感。

這些模擬運行速度較慢,但目前存在一種混合生成物理引擎 —— 先生成部分內(nèi)容,然后將剩余部分委托給經(jīng)典圖形管道。
現(xiàn)在,假如我們要模擬這個場景??梢钥吹?,里面有固體、有液體,各種東西。如果讓人類來建模,所需的時間會很長。

但現(xiàn)在,有計算機模擬了。

要知道,從左邊的視覺效果到右邊的視覺效果,可是足足花了 30 多年時間。但視頻生成模型只用了一年時間從實現(xiàn)從左邊到右邊的跨越。

還記得我之前展示的這個視頻嗎?我騙了你們。這個視頻里的像素沒一個是真的。它完全是由一個自定義模型生成的。

我們是怎么做的呢?我們會使用一個開源的通用 SOTA 視頻生成模型,然后在真實收集的數(shù)據(jù)的數(shù)據(jù)域上進行微調(diào)。

然后,使用不同的語言命令,你可以讓模型想象不同的未來 —— 即便這個場景從未在真實世界中發(fā)生過。

這些也都是生成的。

其中有個例子是機器手彈奏尤克里里,但實際上,這個機器手還完全做不到這一點,但 AI 依然可以生成這樣的視頻。
這就是模擬 2.0。視頻生成的多樣性大大增加,但目前執(zhí)行起來速度很慢。我稱之為 Digital Nomad(數(shù)字游民),可以說它已經(jīng)進入了視頻擴散模型的夢境空間。它是將數(shù)億個互聯(lián)網(wǎng)視頻壓縮成這種多元宇宙的模擬,就像奇異博士一樣 —— 在夢境空間中實例化機器人,基本上機器人現(xiàn)在可以與任何地方的所有事物都同時互動。

具身 Scaling Law
下面來看具身 Scaling Law。
在模擬 1.x 時代,大規(guī)模模擬需要大規(guī)模的計算。問題是,隨著規(guī)模的擴大,物理 IQ 會撞墻,因為這個人工構(gòu)建的系統(tǒng)的多樣性有限。

而在神經(jīng)世界模型的模擬 2.0 時代,物理 IQ 會隨計算的擴展而指數(shù)級增長。圖中的交匯點便是神經(jīng)網(wǎng)絡(luò)超越傳統(tǒng)圖形工程的地方。

這兩者加在一起,將成為我們擴展下一代機器人系統(tǒng)的核能。
引用黃仁勛的話就是:「買得越多,省得越多。」
然后,我們把這些數(shù)據(jù)用來訓(xùn)練「視覺-語言-動作模型」。它能接收像素和指令輸入,然后輸出電機控制信號。這就是三月份 GTC 上黃仁勛主題演講中開源的 GR00T N1 模型的訓(xùn)練方式。

這里展示了一個在實際機器人上運行它的案例??雌饋砗芾寺?,但你無法想象我們在訓(xùn)練期間做了多少清潔工作。在這個示例中,它能夠完美地抓起香檳。

不僅如此,它還可以執(zhí)行一些工業(yè)任務(wù),拿取一些工廠物件,還可以進行多機器人協(xié)調(diào)。

GR00T N1 模型是開源的,事實上這個系列的后續(xù)模型都將繼續(xù)開源。
展望未來:物理 API
那么,下一步是什么呢?我認(rèn)為是物理 API(Physical API)。

想一想,5000 年來,雖然人類的生活整體好了很多,但做晚餐的方式可能與古埃及人沒有本質(zhì)差別。

也許人類歷史的 99% 的時間里,我們都保持著這樣的結(jié)構(gòu):用人力方式處理原材料,最終建立起文明。但在最近的 1% 時間里,大概最近 50 年的時間里,人工勞動量正在減少,我們擁有高度專業(yè)化、高度復(fù)雜的機器人系統(tǒng),它們一次只能做一件事。而且它們的編程成本很高。目前,我們處于人類勞力與機器人共存的時代。

未來,物理 API 將無處不在。
類似于 LLM API 移動數(shù)字和比特構(gòu)成的塊,物理 API 能移動原子構(gòu)成的塊,也就是給軟件一個物理執(zhí)行器來改變物理世界。

在這個物理 API 之上,將會有新的經(jīng)濟范式。我們會有新的物理提示技術(shù)(physical prompting)來給機器人下達指令,教它們學(xué)習(xí)新任務(wù)。語言有時候是不夠的。
我們還會有物理應(yīng)用商店和技能經(jīng)濟。舉個例子,米其林大廚不必每天都親自去廚房了 —— 他可以教會機器人,把晚餐作為一項服務(wù)提供。
這里再次引用黃仁勛的一句話:「所有會動的東西都將自動化?!?/span>

未來某天,當(dāng)你回家,你會看到干凈的沙發(fā)和燭光晚餐,你的伴侶會對你微笑,而不是因為你沒有洗臟衣服而對你大喊大叫。

這是因為你上個月買了兩臺人形機器人,可能是 GR00T N7,它們默默工作,與你生活的背景融為一體,就像是環(huán)境智能(ambient intelligence)。你甚至不會注意到它們通過物理圖靈測試那一刻,因為那就是像是另一個平常的星期二一樣。































