英偉達(dá)Jim Fan最新TED演講上線：AI下一個(gè)前沿是「基礎(chǔ)智能體」！

作者：新智元 2024-01-24 12:49:58

人工智能新聞

英偉達(dá)高級(jí)科學(xué)家Jim Fan在TED AI 2023上的演講視頻上線了——AI的下一個(gè)前沿將是「基礎(chǔ)智能體」。

「AI的下一個(gè)前沿將是『基礎(chǔ)智能體』（Foundation Agent）——一個(gè)掌握廣泛技能，控制許多身體，并能夠泛化到多個(gè)環(huán)境中的單一算法」。

等了三個(gè)月，英偉達(dá)高級(jí)科學(xué)家Jim Fan在TED AI 2023上的演講視頻終于上線了。

視頻中，Jim Fan提出了「Foundation Agent」，一個(gè)可以在虛擬世界和現(xiàn)實(shí)世界里泛化的通用智能體模型。

他具體解釋了，這項(xiàng)技術(shù)將如何從根本上改變我們的生活，進(jìn)入到從視頻游戲和元宇宙，到無人機(jī)、仿人機(jī)器人的方方面面，并探討了單一模型如何掌握跨越這些不同現(xiàn)實(shí)的技能。

Jim Fan認(rèn)為，「基礎(chǔ)智能體」應(yīng)該在3個(gè)維度上進(jìn)行擴(kuò)展：

- 技能：能解決的任務(wù)數(shù)量；

- 具身：能控制的身體形態(tài)的多樣性；

- 現(xiàn)實(shí)：智能體能掌握的虛擬或物理空間的數(shù)量。這包括有不同規(guī)則的游戲、模擬和真實(shí)世界場(chǎng)景。

我們?yōu)槭裁聪胍粋€(gè)單一的「基礎(chǔ)智能體」，而不是許多更小的模型？

在每個(gè)AI領(lǐng)域的發(fā)展歷史中，都能發(fā)現(xiàn)這樣模式：從專家模型 -> 通用模型 -> 專業(yè)化的通用模型。

這里的「專業(yè)化的通用模型」通常遠(yuǎn)比原先的專家模型更強(qiáng)大，就像 LlaMA 的精煉版本遠(yuǎn)超過5年前的定制化NLP系統(tǒng)一樣。

此外，Jim Fan本人還分享了演講時(shí)的心得。

「在TED演講時(shí)，我腳下只有一個(gè)「信心」顯示器，只顯示當(dāng)前的幻燈片和計(jì)時(shí)器。這意味著我需要完全記住整段演講。一開始讓我很擔(dān)心，但事實(shí)證明，這是與聽眾建立聯(lián)系，直接觸及他們心靈的最佳方式」。

值得一提的是，Jim Fan還公開了這次演講的PPT，一起看看這場(chǎng)演講的精彩亮點(diǎn)吧。

TED演講全文

2016年的春天，我坐在哥倫比亞大學(xué)的一間教室里，并沒有專心聽講。相反，我正用電腦觀看一場(chǎng)棋盤游戲錦標(biāo)賽。

這不是一場(chǎng)普通的比賽，而是一場(chǎng)非常、非常特別的比賽——AlphaGo與李世石開啟對(duì)決。

這場(chǎng)比賽，AI在五盤棋中贏了三盤，成為有史以來第一個(gè)在圍棋比賽中擊敗人類冠軍的「棋手」。

到現(xiàn)在，我仍然記得那天自己見證歷史的激動(dòng)心情。AI智能體終于進(jìn)入主流的時(shí)刻。

但當(dāng)興奮褪去后，我意識(shí)到，AlphaGo雖然強(qiáng)大，但它只能做一件事，而且只能做一件事。

它無法玩任何其他游戲，比如《超級(jí)馬里奧》、《我的世界》，當(dāng)然也不能幫你洗臟衣服，或今晚為你做一頓豐盛的晚餐。

我們真正想要的是：像機(jī)器人Wall-E那樣多才多藝的AI智能體，像《星球大戰(zhàn)》中的各種各樣機(jī)器人的載體或化身。

又或是像《頭號(hào)玩家》一樣，可以跨越無限的虛擬或現(xiàn)實(shí)世界。

那么我們?nèi)绾卧诓痪玫膶韺?shí)現(xiàn)這些科幻想法呢?

如下左圖是邁向通用AI智能體的一個(gè)實(shí)踐者指南。當(dāng)前的大多數(shù)研究工作按以下三個(gè)維度展開：

AI智能體可以掌握的技能數(shù)量；可以控制的身體形態(tài)或載體；以及它所能掌握的現(xiàn)實(shí)情況。AlphaGo就在左下角的位置，但右上角才是我們真正要達(dá)到的目標(biāo)。

Voyager玩轉(zhuǎn)「我的世界」

接下來，讓我們一次看一個(gè)維度。

今年早些時(shí)候，我?guī)ьI(lǐng)了「Voyager」項(xiàng)目，這是一個(gè)能在多種技能上大規(guī)模擴(kuò)展的智能體。沒有任何游戲能比《我的世界》更好地支持無限的創(chuàng)造性玩法。

這有一個(gè)有趣的事實(shí)：《我的世界》現(xiàn)在有1.4億活躍玩家。這個(gè)數(shù)字相當(dāng)于英國(guó)人口的2倍多。

這款游戲之所以如此受歡迎，是因?yàn)樗情_放式的：沒有固定的游戲情節(jié)，你可以在游戲中做任何想做的事情。

當(dāng)我們讓Voyager在《我的世界》中自由活動(dòng)時(shí)，會(huì)發(fā)現(xiàn)它可以在沒有任何人干預(yù)的情況下，連續(xù)玩上幾個(gè)小時(shí)的游戲。

這段視頻展示了Voyager在一次游戲中連續(xù)行動(dòng)的片段。

它可以探索地形，開采各種材料，與怪物戰(zhàn)斗，制作數(shù)百種配方，并解鎖一個(gè)不斷擴(kuò)展的技能樹。

那么，其中的奧妙是什么呢？核心要義是「編碼即行動(dòng)」。

首先，我們使用社區(qū)制作的Minecraft JavaScript API將3D世界轉(zhuǎn)換為文本表示。Voyager調(diào)用GPT-4，用JavaScript編寫代碼片段，這些代碼片段將成為游戲中的可執(zhí)行技能。

然而，就像人類工程師一樣，Voyager也會(huì)犯錯(cuò)。它并不總是在第一次嘗試時(shí)，就正確地完成程序。

因此，我們?yōu)樗砑恿艘粋€(gè)「自我反思」機(jī)制，以便改進(jìn)。

「自我反思」有三個(gè)反饋來源：JavaScript代碼執(zhí)行錯(cuò)誤；智能體狀態(tài)，如健康和饑餓；以及世界狀態(tài)，如附近的地形和敵人。

因此，Voyager會(huì)執(zhí)行一個(gè)動(dòng)作，觀察這個(gè)動(dòng)作對(duì)世界和自身的影響，反思如何才能做得更好，并嘗試一些新的行動(dòng)方案，然后不斷重復(fù)。

一旦技能成熟，Voyager就會(huì)把它保存到技能庫(kù)中，作為一種持久的記憶。

你可以把技能庫(kù)看作一個(gè)完全由語言模型編寫的代碼庫(kù)。

通過這種方式，Voyager在《我的世界》中探索和實(shí)驗(yàn)過程中，能夠以遞歸的方式擴(kuò)展自身的能力。

讓我們一起看個(gè)例子。

Voyager發(fā)現(xiàn)自己很餓，需要盡快獲得食物。它檢測(cè)到附近有四個(gè)實(shí)體：一只貓、一個(gè)村民、一頭豬和一些小麥種子。

Voyager開始了內(nèi)心獨(dú)白：「我要?dú)⑺镭?，還是村民來獲取食物？這主意糟透了。小麥種子如何？我可以用種子種植農(nóng)場(chǎng)，但那需要很長(zhǎng)時(shí)間。對(duì)不起，小豬，你被選中了」。

隨后，Voyager在它的物品欄中發(fā)現(xiàn)了一塊鐵。

于是，它從技能庫(kù)中回想起了一個(gè)舊技能來制作鐵劍，并開始學(xué)習(xí)一個(gè)新技能「獵豬」?，F(xiàn)在我們也知道，不幸的是，Voyager不是素食主義者。

還有一個(gè)問題：Voyager如何無限期地探索下去？

我們只給了它一個(gè)高級(jí)指令，那就是盡可能多地獲取獨(dú)一無二的物品。

Voyager自己實(shí)現(xiàn)了一個(gè)curriculum：主動(dòng)找到逐步更難、更新穎的挑戰(zhàn)來解決。

將所有這些整合在一起，Voyager不僅能掌握，還能在過程中發(fā)現(xiàn)新的技能。而我們沒有預(yù)先編程任何內(nèi)容，一切都是Voyager的主意。

當(dāng)一個(gè)智能體永遠(yuǎn)充滿好奇心，永遠(yuǎn)追求新的探險(xiǎn)，這就是我們所說的終身學(xué)習(xí)。與AlphaGo相比，Voyager能做的事情非常多，但仍只能在《我的世界》中控制一個(gè)身體。

MetaMorph讓AI有多個(gè)身體

那么問題來了：我們能否有一個(gè)可以在不同載體上工作的算法？一起來看MetaMorph，這是我在斯坦福共同開發(fā)的一個(gè)項(xiàng)目。

我們創(chuàng)建了一個(gè)基礎(chǔ)模型，它不僅能控制一個(gè)機(jī)器人，還能控制數(shù)千個(gè)手臂和腿部配置各異的機(jī)器人。

Metamorph能夠處理來自不同機(jī)器人身體的各種運(yùn)動(dòng)特征。

如下我們?nèi)绾蝿?chuàng)建MetaMorph的直觀方法。首先，我們?cè)O(shè)計(jì)一個(gè)特殊的詞來描述身體部件，這樣每個(gè)機(jī)器人本質(zhì)上就是用這種詞寫成的一句話。

然后，我們對(duì)其應(yīng)用Transformer，就像ChatGPT一樣，但MetaMorph寫出的不是文本，而是運(yùn)動(dòng)控制。

我們展示了MetaMorph能夠控制成千上萬個(gè)機(jī)器人上下樓梯、穿越復(fù)雜地形，避開障礙物。

放眼未來，如果我們可以大大擴(kuò)展這個(gè)機(jī)器人詞匯量，我設(shè)想MetaMorph 2.0將能夠泛化到機(jī)器手、人形機(jī)器人、狗、無人機(jī)甚至更多領(lǐng)域。

與Voyager相比，MetaMorph在多體控制方面邁出了一大步。

不同虛擬環(huán)境模擬

現(xiàn)在，讓我們將一切再提升一個(gè)層次，在不同的環(huán)境之間轉(zhuǎn)移技能和載體。來看IsaacSim，這是英偉達(dá)的模擬平臺(tái)。

IsaacSim最大的優(yōu)勢(shì)是，將物理模擬加速到比實(shí)時(shí)快1000倍。

例如，這個(gè)小人只用了3天的模擬時(shí)間，就通過10年的高強(qiáng)度訓(xùn)練，學(xué)會(huì)了令人印象深刻的武術(shù)。

而這個(gè)賽車場(chǎng)景則是，仿真技術(shù)跨過「恐怖谷」的地方。

多虧了硬件加速光線追蹤技術(shù)，我們才能渲染出極其復(fù)雜的場(chǎng)景，并呈現(xiàn)出令人嘆為觀止的細(xì)節(jié)。

你在這里看到的逼真效果將幫助我們訓(xùn)練計(jì)算機(jī)視覺模型，這些模型將成為每個(gè)人工智能智能體的眼睛。

更重要的是，IsaacSim可以程序化地生成具有無限變化的世界，因此沒有兩個(gè)世界看起來是一樣的。

這里有一個(gè)有趣的想法。

如果一個(gè)智能體能夠掌握10000個(gè)模擬，那么它很有可能會(huì)泛化到真實(shí)物理世界，因?yàn)槲覀兊氖澜缫仓皇堑?0001個(gè)「實(shí)境」。讓我們沉浸其中吧。

隨著我們?cè)谶@張圖上的進(jìn)展，我們最終會(huì)到達(dá)右上角，那是一個(gè)能在所有三個(gè)軸上進(jìn)行泛化的單一智能體，那就是「基礎(chǔ)智能體」。

我相信，基礎(chǔ)智能體的訓(xùn)練將與ChatGPT非常相似。

所有語言任務(wù)都可以表達(dá)為文本輸入和文本輸出。無論是寫詩(shī)、將英語翻譯成西班牙語還是編寫Python代碼，都是一樣的。

而ChatGPT只需在大量數(shù)據(jù)中進(jìn)行大規(guī)模擴(kuò)展即可。

原理一樣?；A(chǔ)智能體將任務(wù)提示作為輸入，并輸出操作。

我們只需在大量現(xiàn)實(shí)數(shù)據(jù)中對(duì)其進(jìn)行大規(guī)模擴(kuò)展，即可對(duì)其進(jìn)行訓(xùn)練。

我相信在未來，一切能夠移動(dòng)的東西最終都將是自主的。

有一天我們會(huì)發(fā)現(xiàn)，所有的AI智能體，無論是《Wall-E》、《星球大戰(zhàn)》，還是《頭號(hào)玩家》。

無論是在物理空間還是虛擬空間，對(duì)于同一個(gè)基礎(chǔ)智能體來說都只是不同的提示。

朋友們，這將是我們探索人工智能的下一個(gè)巨大挑戰(zhàn)。

責(zé)任編輯：張燕妮來源：新智元

模型英偉達(dá)

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達(dá)Jim Fan最新TED演講上線：AI下一個(gè)前沿是「基礎(chǔ)智能體」！

TED演講全文

MetaMorph讓AI有多個(gè)身體

不同虛擬環(huán)境模擬