偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

機(jī)器人的「物理圖靈測(cè)試」,英偉達(dá)Jim Fan 17分鐘演講揭秘具身Scaling Law

人工智能 新聞
Jim Fan 以及英偉達(dá)正在朝著讓機(jī)器人和 AI 通過(guò)這個(gè)物理圖靈測(cè)試而努力。在文本中,我們梳理了 Jim Fan 的主要演講內(nèi)容,另外還在文末發(fā)起了一個(gè)投票,看你覺得物理圖靈測(cè)試會(huì)在什么時(shí)候被攻克?

Jim Fan,英偉達(dá)機(jī)器人部門主管和杰出科學(xué)家、GEAR 實(shí)驗(yàn)室聯(lián)合領(lǐng)導(dǎo)人、OpenAI 的首位實(shí)習(xí)生,最近在紅杉資本主辦的 AI Ascent 上做了一場(chǎng) 17 分鐘的演講,介紹了「解決通用機(jī)器人問題的第一性原理」,包括訓(xùn)練機(jī)器人 AI 的數(shù)據(jù)策略、Scaling Law 以及基于物理 API 的美好未來(lái)。

圖片

其中尤其提到了「物理圖靈測(cè)試」,大意是說(shuō)對(duì)于一個(gè)真實(shí)的物理場(chǎng)景和一個(gè)指令,會(huì)有人類或機(jī)器人根據(jù)該指令對(duì)這個(gè)場(chǎng)景進(jìn)行相應(yīng)的處理,然后看其他人能否分辨這個(gè)場(chǎng)景是人類處理的還是機(jī)器人處理的。

很顯然,Jim Fan 以及英偉達(dá)正在朝著讓機(jī)器人和 AI 通過(guò)這個(gè)物理圖靈測(cè)試而努力。在文本中,我們梳理了 Jim Fan 的主要演講內(nèi)容,另外還在文末發(fā)起了一個(gè)投票,看你覺得物理圖靈測(cè)試會(huì)在什么時(shí)候被攻克?

以下為經(jīng)過(guò)梳理的演講內(nèi)容。

幾天前,一篇博客文章引起了我的注意。它說(shuō):「我們通過(guò)了圖靈測(cè)試,卻沒人注意到。」圖靈測(cè)試曾經(jīng)是神圣的,堪稱計(jì)算機(jī)科學(xué)的圣杯,結(jié)果我們就這么通過(guò)了。

圖片

Jim Fan 提到的博客:https://signull.substack.com/p/we-passed-the-turing-test-and-nobody

當(dāng) o3 mini 多花幾秒鐘思考,或者 Claude 無(wú)法調(diào)試你那些討厭的代碼時(shí),你會(huì)感到不滿,對(duì)吧?然后我們把每一個(gè)大語(yǔ)言模型的突破都當(dāng)作只是又一個(gè)普通的星期二。在座的各位是最難打動(dòng)的人。 

所以我想提出一個(gè)非常簡(jiǎn)單的東西,叫做「物理圖靈測(cè)試(Physical Turing Test)」。

物理圖靈測(cè)試

想象一下,你在周日晚上舉辦了一個(gè)黑客馬拉松派對(duì),最后你的房子變成了這樣:

圖片

你的伴侶對(duì)你大喊大叫,你想:「哎呀,周一早上,我想告訴某人清理這個(gè)爛攤子,然后為我準(zhǔn)備一頓很好的燭光晚餐,這樣我的伴侶就能開心了?!?/span>

然后你回到家,看到這一切(實(shí)現(xiàn)了),但你無(wú)法分辨是人還是機(jī)器幫你弄的。物理圖靈測(cè)試就是這么簡(jiǎn)單。

圖片

那我們現(xiàn)在進(jìn)展到什么程度了?接近了嗎?看看這個(gè)準(zhǔn)備開始工作的機(jī)器人:

再看看機(jī)器狗遇到香蕉皮:

圖片

機(jī)器人為你準(zhǔn)備燕麥早餐:

圖片

這就是我們的現(xiàn)狀。

那么,為什么解決物理圖靈測(cè)試如此困難呢?

你們知道大語(yǔ)言模型研究人員經(jīng)常抱怨,對(duì)吧?最近有個(gè)叫 Ilya 的人抱怨說(shuō):大語(yǔ)言模型預(yù)訓(xùn)練的數(shù)據(jù)快用完了。他甚至稱互聯(lián)網(wǎng)為「AI 的化石燃料」。他說(shuō)我們快沒有數(shù)據(jù)來(lái)訓(xùn)練大語(yǔ)言模型了。但是,如果你了解機(jī)器人模型,你就會(huì)知道大語(yǔ)言模型研究人員被寵壞了。我們甚至連化石燃料都沒有。 

圖片

下圖是英偉達(dá)總部的一個(gè)數(shù)據(jù)收集環(huán)節(jié)。英偉達(dá)有一個(gè)咖啡廳,我們?cè)O(shè)置了這些人形機(jī)器人,我們操作它們并收集數(shù)據(jù)。

收集到的數(shù)據(jù)如下圖所示。這是機(jī)器人關(guān)節(jié)控制信號(hào),是隨時(shí)間變化的連續(xù)值。你在維基百科、YouTube、Reddit 或任何地方都找不到這種數(shù)據(jù),所以你必須自己收集。 

圖片

那我們是怎么收集的呢?

我們有一種非常復(fù)雜但也非常昂貴的方法,叫做遙操作(teleoperation)。你可以讓人佩戴某種 VR 頭顯,它能識(shí)別你的手勢(shì)并將其傳輸給機(jī)器人。這樣你就可以教機(jī)器人技能,比如從烤面包機(jī)中取出面包,然后倒上蜂蜜。但可以想象,這是一個(gè)非常緩慢且痛苦的過(guò)程。

圖片

如果你把這個(gè)方法放到 scaling 圖上,你會(huì)發(fā)現(xiàn)它根本不能 scale。真實(shí)機(jī)器人數(shù)據(jù)的獲取是在拿人力當(dāng)燃料,這比用化石燃料更糟糕。而且,一個(gè)機(jī)器人每天只有 24 小時(shí)的時(shí)間可以用。實(shí)際可利用的時(shí)間更少,因?yàn)槿藭?huì)疲勞,機(jī)器人比人類更容易疲勞。

圖片

那我們?cè)撛趺崔k呢?機(jī)器人的核能在哪里?我們必須有清潔能源。不能永遠(yuǎn)依靠化石燃料。 

模擬很重要

接下來(lái)進(jìn)入「模擬」。我們必須離開物理世界,進(jìn)入模擬的世界。

我們訓(xùn)練了一個(gè)機(jī)器手,能在模擬中完成超人般的靈巧任務(wù),如轉(zhuǎn)筆。對(duì)我來(lái)說(shuō)這是超人的,因?yàn)槲也荒苻D(zhuǎn)筆,我很高興我的機(jī)器人至少在模擬中能做得比我好。 

圖片

那么如何訓(xùn)練機(jī)器手來(lái)完成這樣復(fù)雜的任務(wù)呢?我們有兩個(gè)想法。一是你必須以比實(shí)時(shí)快 10000 倍的速度進(jìn)行模擬。這意味著你應(yīng)該在單個(gè) GPU 上并行運(yùn)行 10000 個(gè)環(huán)境進(jìn)行物理模擬。

圖片

第二點(diǎn),10000 個(gè)環(huán)境副本不能都相同。你必須改變一些參數(shù),如重力、摩擦力和重量。我們稱之為域隨機(jī)化。

這給了我們模擬原則。

為什么這種做法能 work?想象一下,如果一個(gè)神經(jīng)網(wǎng)絡(luò)能夠控制機(jī)器人掌握一百萬(wàn)個(gè)不同的世界,那么它很可能也能掌握第一百萬(wàn)零一個(gè)世界 —— 即我們的物理現(xiàn)實(shí)。換句話說(shuō),我們的物理世界處于這種訓(xùn)練的分布之中。 

圖片

接下來(lái),我們?nèi)绾螒?yīng)用這些模擬結(jié)果呢?你可以建立一個(gè)數(shù)字孿生(digital twin),即機(jī)器人和世界的一對(duì)一副本,然后你在模擬中訓(xùn)練,直接在真實(shí)世界中測(cè)試,零樣本遷移。

圖片

機(jī)器手也是如此:

圖片

我們能做的最令人印象深刻的任務(wù)是讓狗站在瑜伽球上走,我們把它從虛擬遷移到現(xiàn)實(shí)世界。

我們的研究人員看起來(lái)超級(jí)奇怪,就像《黑鏡》的一集。

接下來(lái),我們還可以將其應(yīng)用于更復(fù)雜的機(jī)器人,如人形機(jī)器人。在短短兩小時(shí)的模擬時(shí)間內(nèi),這些人形機(jī)器人就經(jīng)歷了 10 年的訓(xùn)練,學(xué)習(xí)行走,然后你可以把它們遷移到現(xiàn)實(shí)世界。無(wú)論實(shí)體是什么,只要你有機(jī)器人模型,你就可以模擬它,并且可以實(shí)現(xiàn)行走。

我們能做的不僅僅是行走。當(dāng)你控制自己的身體時(shí),你可以跟蹤任何你想要的姿勢(shì),跟蹤任何關(guān)鍵點(diǎn),遵循任何你想要的速度向量,這被稱為人形機(jī)器人的全身控制問題,是個(gè)非常困難的問題。

圖片

但我們可以訓(xùn)練它,在 10000 個(gè)并行運(yùn)行的模擬上,我們可以將其零樣本遷移到真實(shí)機(jī)器人上,無(wú)需任何微調(diào)。 

這是在英偉達(dá)實(shí)驗(yàn)室進(jìn)行的一個(gè)演示。你可以看到它所做的動(dòng)作的復(fù)雜性。它模仿人類所有這些敏捷的動(dòng)作,同時(shí)保持平衡。 

做這個(gè)需要多大的神經(jīng)網(wǎng)絡(luò)?它只需要 150 萬(wàn)參數(shù),不是 15 億。150 萬(wàn)參數(shù)足以捕捉人體的潛意識(shí)處理。

所以,如果我們將其放在這個(gè)圖表上,縱軸是速度,橫軸是模擬的多樣性,我們稱之為模擬 1.0,數(shù)字孿生范式,它是一個(gè)經(jīng)典的向量化物理引擎,你可以運(yùn)行到每秒 10000 幀甚至一百萬(wàn)幀。但問題是你必須建立一個(gè)數(shù)字孿生。你需要有人建造機(jī)器人,建造環(huán)境和一切。這非常繁瑣,且需要手動(dòng)完成。

圖片

用生成式 AI 生成模擬數(shù)據(jù)

那么,我們能否用生成的方式獲得模擬環(huán)境的一部分?下圖這些 3D 資產(chǎn)都是由 3D 生成模型生成的:

圖片

這些紋理來(lái)自 Stable Diffusion 或任何你喜歡的擴(kuò)散模型:  

圖片

這些布局也是可以用工具生成的:   

將所有這些放在一起,我們構(gòu)建了一個(gè)名為 RoboCasa 的框架,它是日常任務(wù)的一個(gè)組合模擬。這里的一切,除了機(jī)器人,都是生成的。你可以組合不同的場(chǎng)景,但它仍然依賴于這個(gè)經(jīng)典引擎來(lái)運(yùn)行,但你已經(jīng)可以從中獲得很多任務(wù)。 

接下來(lái),同樣讓人類來(lái)操作。但這一次,人類是在模擬中進(jìn)行操作。

基于這一個(gè)放杯子的演示,我們可以得到人類操作的軌跡,然后便可以在模擬中重放這一軌跡。

而在模擬中,我們可以通過(guò)各種技術(shù)修改場(chǎng)景,甚至還可以修改運(yùn)動(dòng),比如可以通過(guò) GR00T Mimic 等技術(shù)模擬出相似的動(dòng)作。

也就是說(shuō),只需一個(gè)人類演示,就能通過(guò)環(huán)境生成得到 N 個(gè)演示,如果在執(zhí)行動(dòng)作生成,則能得到 N×M 個(gè)不同的模擬樣本。如此一樣,便實(shí)現(xiàn)了數(shù)據(jù)的倍增。

如下所示,第一和三列是真實(shí)的機(jī)器人,第二和四列是生成的模擬??吹贸鰜?lái),生成的視頻的紋理真實(shí)感依然很差,但它們已經(jīng)足夠接近了。

那么,我們?nèi)绾畏Q呼這些足夠接近的生成樣本呢?數(shù)字表親(digital cousin)。這與數(shù)字孿生不一樣,但也在一定程度上捕捉到了真實(shí)感。

這些模擬運(yùn)行速度較慢,但目前存在一種混合生成物理引擎 —— 先生成部分內(nèi)容,然后將剩余部分委托給經(jīng)典圖形管道。

現(xiàn)在,假如我們要模擬這個(gè)場(chǎng)景。可以看到,里面有固體、有液體,各種東西。如果讓人類來(lái)建模,所需的時(shí)間會(huì)很長(zhǎng)。

但現(xiàn)在,有計(jì)算機(jī)模擬了。

要知道,從左邊的視覺效果到右邊的視覺效果,可是足足花了 30 多年時(shí)間。但視頻生成模型只用了一年時(shí)間從實(shí)現(xiàn)從左邊到右邊的跨越。

還記得我之前展示的這個(gè)視頻嗎?我騙了你們。這個(gè)視頻里的像素沒一個(gè)是真的。它完全是由一個(gè)自定義模型生成的。

我們是怎么做的呢?我們會(huì)使用一個(gè)開源的通用 SOTA 視頻生成模型,然后在真實(shí)收集的數(shù)據(jù)的數(shù)據(jù)域上進(jìn)行微調(diào)。

然后,使用不同的語(yǔ)言命令,你可以讓模型想象不同的未來(lái) —— 即便這個(gè)場(chǎng)景從未在真實(shí)世界中發(fā)生過(guò)。

這些也都是生成的。

其中有個(gè)例子是機(jī)器手彈奏尤克里里,但實(shí)際上,這個(gè)機(jī)器手還完全做不到這一點(diǎn),但 AI 依然可以生成這樣的視頻。

這就是模擬 2.0。視頻生成的多樣性大大增加,但目前執(zhí)行起來(lái)速度很慢。我稱之為 Digital Nomad(數(shù)字游民),可以說(shuō)它已經(jīng)進(jìn)入了視頻擴(kuò)散模型的夢(mèng)境空間。它是將數(shù)億個(gè)互聯(lián)網(wǎng)視頻壓縮成這種多元宇宙的模擬,就像奇異博士一樣 —— 在夢(mèng)境空間中實(shí)例化機(jī)器人,基本上機(jī)器人現(xiàn)在可以與任何地方的所有事物都同時(shí)互動(dòng)。

具身 Scaling Law

下面來(lái)看具身 Scaling Law。

在模擬 1.x 時(shí)代,大規(guī)模模擬需要大規(guī)模的計(jì)算。問題是,隨著規(guī)模的擴(kuò)大,物理 IQ 會(huì)撞墻,因?yàn)檫@個(gè)人工構(gòu)建的系統(tǒng)的多樣性有限。

而在神經(jīng)世界模型的模擬 2.0 時(shí)代,物理 IQ 會(huì)隨計(jì)算的擴(kuò)展而指數(shù)級(jí)增長(zhǎng)。圖中的交匯點(diǎn)便是神經(jīng)網(wǎng)絡(luò)超越傳統(tǒng)圖形工程的地方。

這兩者加在一起,將成為我們擴(kuò)展下一代機(jī)器人系統(tǒng)的核能。

引用黃仁勛的話就是:「買得越多,省得越多。」

然后,我們把這些數(shù)據(jù)用來(lái)訓(xùn)練「視覺-語(yǔ)言-動(dòng)作模型」。它能接收像素和指令輸入,然后輸出電機(jī)控制信號(hào)。這就是三月份 GTC 上黃仁勛主題演講中開源的 GR00T N1 模型的訓(xùn)練方式。

這里展示了一個(gè)在實(shí)際機(jī)器人上運(yùn)行它的案例。看起來(lái)很浪漫,但你無(wú)法想象我們?cè)谟?xùn)練期間做了多少清潔工作。在這個(gè)示例中,它能夠完美地抓起香檳。

不僅如此,它還可以執(zhí)行一些工業(yè)任務(wù),拿取一些工廠物件,還可以進(jìn)行多機(jī)器人協(xié)調(diào)。

GR00T N1 模型是開源的,事實(shí)上這個(gè)系列的后續(xù)模型都將繼續(xù)開源。

展望未來(lái):物理 API

那么,下一步是什么呢?我認(rèn)為是物理 API(Physical API)。

想一想,5000 年來(lái),雖然人類的生活整體好了很多,但做晚餐的方式可能與古埃及人沒有本質(zhì)差別。

也許人類歷史的 99% 的時(shí)間里,我們都保持著這樣的結(jié)構(gòu):用人力方式處理原材料,最終建立起文明。但在最近的 1% 時(shí)間里,大概最近 50 年的時(shí)間里,人工勞動(dòng)量正在減少,我們擁有高度專業(yè)化、高度復(fù)雜的機(jī)器人系統(tǒng),它們一次只能做一件事。而且它們的編程成本很高。目前,我們處于人類勞力與機(jī)器人共存的時(shí)代。

未來(lái),物理 API 將無(wú)處不在。

類似于 LLM API 移動(dòng)數(shù)字和比特構(gòu)成的塊,物理 API 能移動(dòng)原子構(gòu)成的塊,也就是給軟件一個(gè)物理執(zhí)行器來(lái)改變物理世界。

在這個(gè)物理 API 之上,將會(huì)有新的經(jīng)濟(jì)范式。我們會(huì)有新的物理提示技術(shù)(physical prompting)來(lái)給機(jī)器人下達(dá)指令,教它們學(xué)習(xí)新任務(wù)。語(yǔ)言有時(shí)候是不夠的。

我們還會(huì)有物理應(yīng)用商店和技能經(jīng)濟(jì)。舉個(gè)例子,米其林大廚不必每天都親自去廚房了 —— 他可以教會(huì)機(jī)器人,把晚餐作為一項(xiàng)服務(wù)提供。

這里再次引用黃仁勛的一句話:「所有會(huì)動(dòng)的東西都將自動(dòng)化?!?/span>

未來(lái)某天,當(dāng)你回家,你會(huì)看到干凈的沙發(fā)和燭光晚餐,你的伴侶會(huì)對(duì)你微笑,而不是因?yàn)槟銢]有洗臟衣服而對(duì)你大喊大叫。

這是因?yàn)槟闵蟼€(gè)月買了兩臺(tái)人形機(jī)器人,可能是 GR00T N7,它們默默工作,與你生活的背景融為一體,就像是環(huán)境智能(ambient intelligence)。你甚至不會(huì)注意到它們通過(guò)物理圖靈測(cè)試那一刻,因?yàn)槟蔷褪窍袷橇硪粋€(gè)平常的星期二一樣。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-01 09:45:08

2024-12-19 14:44:22

2024-01-24 12:49:58

模型英偉達(dá)

2024-03-12 13:14:58

模型訓(xùn)練

2017-07-24 09:02:27

2024-12-30 10:20:00

模型數(shù)據(jù)訓(xùn)練

2024-05-16 13:43:36

北大微型機(jī)器人

2024-07-22 08:00:00

機(jī)器人虛擬

2024-12-26 16:30:00

AI設(shè)計(jì)數(shù)據(jù)

2024-11-11 14:00:00

AI模型

2024-11-04 14:35:00

AI機(jī)器人

2024-09-19 09:45:51

2024-11-25 08:20:00

2021-03-30 17:51:25

機(jī)器人系統(tǒng)聊天

2024-03-01 13:20:58

機(jī)器人OpenAIGPT

2023-12-23 23:16:36

機(jī)器人模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)