偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="ykk88"><span id="ykk88"><thead id="ykk88"></thead></span></tr>

<blockquote id="ykk88"><mark id="ykk88"></mark></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

機器人的「物理圖靈測試」，英偉達Jim Fan 17分鐘演講揭秘具身Scaling Law

2025-05-12 09:02:00

人工智能新聞

Jim Fan 以及英偉達正在朝著讓機器人和 AI 通過這個物理圖靈測試而努力。在文本中，我們梳理了 Jim Fan 的主要演講內(nèi)容，另外還在文末發(fā)起了一個投票，看你覺得物理圖靈測試會在什么時候被攻克？

Jim Fan，英偉達機器人部門主管和杰出科學(xué)家、GEAR 實驗室聯(lián)合領(lǐng)導(dǎo)人、OpenAI 的首位實習(xí)生，最近在紅杉資本主辦的 AI Ascent 上做了一場 17 分鐘的演講，介紹了「解決通用機器人問題的第一性原理」，包括訓(xùn)練機器人 AI 的數(shù)據(jù)策略、Scaling Law 以及基于物理 API 的美好未來。

其中尤其提到了「物理圖靈測試」，大意是說對于一個真實的物理場景和一個指令，會有人類或機器人根據(jù)該指令對這個場景進行相應(yīng)的處理，然后看其他人能否分辨這個場景是人類處理的還是機器人處理的。

很顯然，Jim Fan 以及英偉達正在朝著讓機器人和 AI 通過這個物理圖靈測試而努力。在文本中，我們梳理了 Jim Fan 的主要演講內(nèi)容，另外還在文末發(fā)起了一個投票，看你覺得物理圖靈測試會在什么時候被攻克？

以下為經(jīng)過梳理的演講內(nèi)容。

幾天前，一篇博客文章引起了我的注意。它說：「我們通過了圖靈測試，卻沒人注意到?！箞D靈測試曾經(jīng)是神圣的，堪稱計算機科學(xué)的圣杯，結(jié)果我們就這么通過了。

Jim Fan 提到的博客：https://signull.substack.com/p/we-passed-the-turing-test-and-nobody

當(dāng) o3 mini 多花幾秒鐘思考，或者 Claude 無法調(diào)試你那些討厭的代碼時，你會感到不滿，對吧？然后我們把每一個大語言模型的突破都當(dāng)作只是又一個普通的星期二。在座的各位是最難打動的人。

所以我想提出一個非常簡單的東西，叫做「物理圖靈測試（Physical Turing Test）」。

物理圖靈測試

想象一下，你在周日晚上舉辦了一個黑客馬拉松派對，最后你的房子變成了這樣：

你的伴侶對你大喊大叫，你想：「哎呀，周一早上，我想告訴某人清理這個爛攤子，然后為我準(zhǔn)備一頓很好的燭光晚餐，這樣我的伴侶就能開心了?！?/span>

然后你回到家，看到這一切（實現(xiàn)了），但你無法分辨是人還是機器幫你弄的。物理圖靈測試就是這么簡單。

那我們現(xiàn)在進展到什么程度了？接近了嗎？看看這個準(zhǔn)備開始工作的機器人：

再看看機器狗遇到香蕉皮：

機器人為你準(zhǔn)備燕麥早餐：

這就是我們的現(xiàn)狀。

那么，為什么解決物理圖靈測試如此困難呢？

你們知道大語言模型研究人員經(jīng)常抱怨，對吧？最近有個叫 Ilya 的人抱怨說：大語言模型預(yù)訓(xùn)練的數(shù)據(jù)快用完了。他甚至稱互聯(lián)網(wǎng)為「AI 的化石燃料」。他說我們快沒有數(shù)據(jù)來訓(xùn)練大語言模型了。但是，如果你了解機器人模型，你就會知道大語言模型研究人員被寵壞了。我們甚至連化石燃料都沒有。

下圖是英偉達總部的一個數(shù)據(jù)收集環(huán)節(jié)。英偉達有一個咖啡廳，我們設(shè)置了這些人形機器人，我們操作它們并收集數(shù)據(jù)。

收集到的數(shù)據(jù)如下圖所示。這是機器人關(guān)節(jié)控制信號，是隨時間變化的連續(xù)值。你在維基百科、YouTube、Reddit 或任何地方都找不到這種數(shù)據(jù)，所以你必須自己收集。

那我們是怎么收集的呢？

我們有一種非常復(fù)雜但也非常昂貴的方法，叫做遙操作（teleoperation）。你可以讓人佩戴某種 VR 頭顯，它能識別你的手勢并將其傳輸給機器人。這樣你就可以教機器人技能，比如從烤面包機中取出面包，然后倒上蜂蜜。但可以想象，這是一個非常緩慢且痛苦的過程。

如果你把這個方法放到 scaling 圖上，你會發(fā)現(xiàn)它根本不能 scale。真實機器人數(shù)據(jù)的獲取是在拿人力當(dāng)燃料，這比用化石燃料更糟糕。而且，一個機器人每天只有 24 小時的時間可以用。實際可利用的時間更少，因為人會疲勞，機器人比人類更容易疲勞。

那我們該怎么辦呢？機器人的核能在哪里？我們必須有清潔能源。不能永遠依靠化石燃料。

模擬很重要

接下來進入「模擬」。我們必須離開物理世界，進入模擬的世界。

我們訓(xùn)練了一個機器手，能在模擬中完成超人般的靈巧任務(wù)，如轉(zhuǎn)筆。對我來說這是超人的，因為我不能轉(zhuǎn)筆，我很高興我的機器人至少在模擬中能做得比我好。

那么如何訓(xùn)練機器手來完成這樣復(fù)雜的任務(wù)呢？我們有兩個想法。一是你必須以比實時快 10000 倍的速度進行模擬。這意味著你應(yīng)該在單個 GPU 上并行運行 10000 個環(huán)境進行物理模擬。

第二點，10000 個環(huán)境副本不能都相同。你必須改變一些參數(shù)，如重力、摩擦力和重量。我們稱之為域隨機化。

這給了我們模擬原則。

為什么這種做法能 work？想象一下，如果一個神經(jīng)網(wǎng)絡(luò)能夠控制機器人掌握一百萬個不同的世界，那么它很可能也能掌握第一百萬零一個世界 —— 即我們的物理現(xiàn)實。換句話說，我們的物理世界處于這種訓(xùn)練的分布之中。

接下來，我們?nèi)绾螒?yīng)用這些模擬結(jié)果呢？你可以建立一個數(shù)字孿生（digital twin），即機器人和世界的一對一副本，然后你在模擬中訓(xùn)練，直接在真實世界中測試，零樣本遷移。

機器手也是如此：

我們能做的最令人印象深刻的任務(wù)是讓狗站在瑜伽球上走，我們把它從虛擬遷移到現(xiàn)實世界。

我們的研究人員看起來超級奇怪，就像《黑鏡》的一集。

接下來，我們還可以將其應(yīng)用于更復(fù)雜的機器人，如人形機器人。在短短兩小時的模擬時間內(nèi)，這些人形機器人就經(jīng)歷了 10 年的訓(xùn)練，學(xué)習(xí)行走，然后你可以把它們遷移到現(xiàn)實世界。無論實體是什么，只要你有機器人模型，你就可以模擬它，并且可以實現(xiàn)行走。

我們能做的不僅僅是行走。當(dāng)你控制自己的身體時，你可以跟蹤任何你想要的姿勢，跟蹤任何關(guān)鍵點，遵循任何你想要的速度向量，這被稱為人形機器人的全身控制問題，是個非常困難的問題。

但我們可以訓(xùn)練它，在 10000 個并行運行的模擬上，我們可以將其零樣本遷移到真實機器人上，無需任何微調(diào)。

這是在英偉達實驗室進行的一個演示。你可以看到它所做的動作的復(fù)雜性。它模仿人類所有這些敏捷的動作，同時保持平衡。

做這個需要多大的神經(jīng)網(wǎng)絡(luò)？它只需要 150 萬參數(shù)，不是 15 億。150 萬參數(shù)足以捕捉人體的潛意識處理。

所以，如果我們將其放在這個圖表上，縱軸是速度，橫軸是模擬的多樣性，我們稱之為模擬 1.0，數(shù)字孿生范式，它是一個經(jīng)典的向量化物理引擎，你可以運行到每秒 10000 幀甚至一百萬幀。但問題是你必須建立一個數(shù)字孿生。你需要有人建造機器人，建造環(huán)境和一切。這非常繁瑣，且需要手動完成。

用生成式 AI 生成模擬數(shù)據(jù)

那么，我們能否用生成的方式獲得模擬環(huán)境的一部分？下圖這些 3D 資產(chǎn)都是由 3D 生成模型生成的：

這些紋理來自 Stable Diffusion 或任何你喜歡的擴散模型：

這些布局也是可以用工具生成的：

將所有這些放在一起，我們構(gòu)建了一個名為 RoboCasa 的框架，它是日常任務(wù)的一個組合模擬。這里的一切，除了機器人，都是生成的。你可以組合不同的場景，但它仍然依賴于這個經(jīng)典引擎來運行，但你已經(jīng)可以從中獲得很多任務(wù)。

接下來，同樣讓人類來操作。但這一次，人類是在模擬中進行操作。

基于這一個放杯子的演示，我們可以得到人類操作的軌跡，然后便可以在模擬中重放這一軌跡。

而在模擬中，我們可以通過各種技術(shù)修改場景，甚至還可以修改運動，比如可以通過 GR00T Mimic 等技術(shù)模擬出相似的動作。

也就是說，只需一個人類演示，就能通過環(huán)境生成得到 N 個演示，如果在執(zhí)行動作生成，則能得到 N×M 個不同的模擬樣本。如此一樣，便實現(xiàn)了數(shù)據(jù)的倍增。

如下所示，第一和三列是真實的機器人，第二和四列是生成的模擬?？吹贸鰜?，生成的視頻的紋理真實感依然很差，但它們已經(jīng)足夠接近了。

那么，我們?nèi)绾畏Q呼這些足夠接近的生成樣本呢？數(shù)字表親（digital cousin）。這與數(shù)字孿生不一樣，但也在一定程度上捕捉到了真實感。

這些模擬運行速度較慢，但目前存在一種混合生成物理引擎 —— 先生成部分內(nèi)容，然后將剩余部分委托給經(jīng)典圖形管道。

現(xiàn)在，假如我們要模擬這個場景?？梢钥吹?，里面有固體、有液體，各種東西。如果讓人類來建模，所需的時間會很長。

但現(xiàn)在，有計算機模擬了。

要知道，從左邊的視覺效果到右邊的視覺效果，可是足足花了 30 多年時間。但視頻生成模型只用了一年時間從實現(xiàn)從左邊到右邊的跨越。

還記得我之前展示的這個視頻嗎？我騙了你們。這個視頻里的像素沒一個是真的。它完全是由一個自定義模型生成的。

我們是怎么做的呢？我們會使用一個開源的通用 SOTA 視頻生成模型，然后在真實收集的數(shù)據(jù)的數(shù)據(jù)域上進行微調(diào)。

然后，使用不同的語言命令，你可以讓模型想象不同的未來 —— 即便這個場景從未在真實世界中發(fā)生過。

這些也都是生成的。

其中有個例子是機器手彈奏尤克里里，但實際上，這個機器手還完全做不到這一點，但 AI 依然可以生成這樣的視頻。

這就是模擬 2.0。視頻生成的多樣性大大增加，但目前執(zhí)行起來速度很慢。我稱之為 Digital Nomad（數(shù)字游民），可以說它已經(jīng)進入了視頻擴散模型的夢境空間。它是將數(shù)億個互聯(lián)網(wǎng)視頻壓縮成這種多元宇宙的模擬，就像奇異博士一樣 —— 在夢境空間中實例化機器人，基本上機器人現(xiàn)在可以與任何地方的所有事物都同時互動。

具身 Scaling Law

下面來看具身 Scaling Law。

在模擬 1.x 時代，大規(guī)模模擬需要大規(guī)模的計算。問題是，隨著規(guī)模的擴大，物理 IQ 會撞墻，因為這個人工構(gòu)建的系統(tǒng)的多樣性有限。

而在神經(jīng)世界模型的模擬 2.0 時代，物理 IQ 會隨計算的擴展而指數(shù)級增長。圖中的交匯點便是神經(jīng)網(wǎng)絡(luò)超越傳統(tǒng)圖形工程的地方。

這兩者加在一起，將成為我們擴展下一代機器人系統(tǒng)的核能。

引用黃仁勛的話就是：「買得越多，省得越多。」

然后，我們把這些數(shù)據(jù)用來訓(xùn)練「視覺-語言-動作模型」。它能接收像素和指令輸入，然后輸出電機控制信號。這就是三月份 GTC 上黃仁勛主題演講中開源的 GR00T N1 模型的訓(xùn)練方式。

這里展示了一個在實際機器人上運行它的案例?？雌饋砗芾寺?，但你無法想象我們在訓(xùn)練期間做了多少清潔工作。在這個示例中，它能夠完美地抓起香檳。

不僅如此，它還可以執(zhí)行一些工業(yè)任務(wù)，拿取一些工廠物件，還可以進行多機器人協(xié)調(diào)。

GR00T N1 模型是開源的，事實上這個系列的后續(xù)模型都將繼續(xù)開源。

展望未來：物理 API

那么，下一步是什么呢？我認(rèn)為是物理 API（Physical API）。

想一想，5000 年來，雖然人類的生活整體好了很多，但做晚餐的方式可能與古埃及人沒有本質(zhì)差別。

也許人類歷史的 99% 的時間里，我們都保持著這樣的結(jié)構(gòu)：用人力方式處理原材料，最終建立起文明。但在最近的 1% 時間里，大概最近 50 年的時間里，人工勞動量正在減少，我們擁有高度專業(yè)化、高度復(fù)雜的機器人系統(tǒng)，它們一次只能做一件事。而且它們的編程成本很高。目前，我們處于人類勞力與機器人共存的時代。

未來，物理 API 將無處不在。

類似于 LLM API 移動數(shù)字和比特構(gòu)成的塊，物理 API 能移動原子構(gòu)成的塊，也就是給軟件一個物理執(zhí)行器來改變物理世界。

在這個物理 API 之上，將會有新的經(jīng)濟范式。我們會有新的物理提示技術(shù)（physical prompting）來給機器人下達指令，教它們學(xué)習(xí)新任務(wù)。語言有時候是不夠的。

我們還會有物理應(yīng)用商店和技能經(jīng)濟。舉個例子，米其林大廚不必每天都親自去廚房了 —— 他可以教會機器人，把晚餐作為一項服務(wù)提供。

這里再次引用黃仁勛的一句話：「所有會動的東西都將自動化?！?/span>

未來某天，當(dāng)你回家，你會看到干凈的沙發(fā)和燭光晚餐，你的伴侶會對你微笑，而不是因為你沒有洗臟衣服而對你大喊大叫。

這是因為你上個月買了兩臺人形機器人，可能是 GR00T N7，它們默默工作，與你生活的背景融為一體，就像是環(huán)境智能（ambient intelligence）。你甚至不會注意到它們通過物理圖靈測試那一刻，因為那就是像是另一個平常的星期二一樣。

責(zé)任編輯：張燕妮來源：機器之心

機器人 AI 測試

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營