偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

何愷明新作出爐！異構(gòu)預(yù)訓(xùn)練Transformer顛覆本體視覺學(xué)習(xí)范式，AI性能暴漲超20%

作者：新智元 2024-10-06 12:32:42

通用機(jī)器人模型，如何解決異構(gòu)性難題？來自MIT、Meta FAIR團(tuán)隊全新提出異構(gòu)預(yù)訓(xùn)練Transformer（HPT），不用從頭訓(xùn)練，即可破解。

通用機(jī)器人模型，目前最大的障礙便是「異構(gòu)性」。

也就是說，必須收集全方位——每個機(jī)器人、任務(wù)和環(huán)境的特定數(shù)據(jù)，而且學(xué)習(xí)后的策略還不能泛化到這些特定設(shè)置之外。

由此，AI大神何愷明帶隊的MIT、Meta FAIR團(tuán)隊，提出了異構(gòu)預(yù)訓(xùn)練Transformer（HPT）模型。

即預(yù)訓(xùn)練一個大型、可共享的神經(jīng)網(wǎng)絡(luò)主干，就能學(xué)習(xí)與任務(wù)和機(jī)器人形態(tài)無關(guān)的共享表示。

簡單講，就是在你的策略模型中間放置一個可擴(kuò)展的Transformer，不用從頭開始訓(xùn)練！

圖片

論文地址：https://arxiv.org/pdf/2409.20537

研究人員將不同本體視覺輸入對齊到統(tǒng)一的token序列，再處理這些token以控制不同任務(wù)的機(jī)器人。

最后發(fā)現(xiàn)，HPT優(yōu)于多個基準(zhǔn)模型，并在模擬器基準(zhǔn)和真實世界環(huán)境中，將未見任務(wù)微調(diào)策略性能，提升20%。

值得一提的是，這項研究被NeurIPS 2024接收為Spotlight。

在真實環(huán)境中，HPT加持下的機(jī)器人本體，能夠自主向柴犬投食。

圖片

而且，即便是灑了一地狗糧，機(jī)器人也能用抹布，將其收到一起。

圖片

而在模擬環(huán)境中，HPT架構(gòu)讓機(jī)器人任務(wù)操作，更加精準(zhǔn)。

圖片

接下來，一起深度了解下異構(gòu)預(yù)訓(xùn)練Transformer（HPT）模型的核心要素吧。

搭建「異構(gòu)性」橋梁

如今，構(gòu)建特定的機(jī)器人策略很困難，其中最大的難題就是數(shù)據(jù)收集和缺少泛化性。

不同硬件的機(jī)器人在物理上具有不同的本體（embodiment），每種實例可以有不同的「本體感覺」（proprioception），包括不同的自由度、末端執(zhí)行器、運動控制器和為特定應(yīng)用構(gòu)建的工作空間配置。

此外，另一種常見的異構(gòu)性就是視覺異構(gòu)性。

不同機(jī)器人搭載了不同的視覺傳感器，而且通常配備在不同位置（比如手腕/第三視角）；每個機(jī)器人的外觀也會因環(huán)境和任務(wù)而有很大差異。

正是由于這些難以跨越的異構(gòu)性障礙，因此通常需要收集每個機(jī)器人、任務(wù)和環(huán)境的特定數(shù)據(jù)，并且學(xué)習(xí)到的策略不能泛化到這些特定設(shè)置之外。

雖然機(jī)器人領(lǐng)域已經(jīng)積累了海量的開源數(shù)據(jù)，但異構(gòu)性讓數(shù)據(jù)集很難被共同利用。

從圖4中就可以看出，僅僅是按環(huán)境分類，機(jī)器人領(lǐng)域的數(shù)據(jù)就能被「瓜分」為遠(yuǎn)程遙控、模擬、野外、人類視頻等接近4等份。

機(jī)器人領(lǐng)域數(shù)據(jù)集的異質(zhì)性

近些年來NLP和CV領(lǐng)域的突飛猛進(jìn)，讓我們看到了徹底改變機(jī)器學(xué)習(xí)領(lǐng)域的一個歷史教訓(xùn)：對大規(guī)模、高質(zhì)量和多樣化數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，可以帶來通常優(yōu)于特定模型的通用模型。

話至此處，當(dāng)今機(jī)器人領(lǐng)域的一個中心問題浮出水面：如何利用異構(gòu)數(shù)據(jù)來預(yù)訓(xùn)練機(jī)器人基礎(chǔ)模型？

除了更多數(shù)據(jù)帶來的好處之外，不同任務(wù)的訓(xùn)練還可以增強(qiáng)表示（representation）的通用性。

這類基礎(chǔ)模型將會在各種任務(wù)上實現(xiàn)高成功率、對異常值更加穩(wěn)健，并且能夠靈活地適應(yīng)新任務(wù)。

那么，到底應(yīng)該如何充分利用異構(gòu)化的數(shù)據(jù)集？

如圖1所示，一個基本的思路是，將來自不同領(lǐng)域和任務(wù)的輸入信號映射到高維表示空間，并讓它們表現(xiàn)出一致的縮放行為。

之后，只需要最少的微調(diào)，就可以將得到的高維表示遷移到特定的下游任務(wù)，同時獲得良好的性能。

HPT概念示意圖

HPT所要做的，就是找到一種共享的策略「語言」，能夠?qū)R來自不同預(yù)訓(xùn)練的異質(zhì)的本體感覺和視覺信息，將自己的信號映射到共享的潛在空間。

HPT模型架構(gòu)

HPT全稱為Heterogeneous Pre-trained Transformers，是一個架構(gòu)系列，采用了模塊化的設(shè)計思路，從異構(gòu)本體的數(shù)據(jù)中進(jìn)行可擴(kuò)展學(xué)習(xí)。

受到多模態(tài)數(shù)據(jù)學(xué)習(xí)的啟發(fā)，HPT使用了特定于本體的分詞器（stem）來對齊各種傳感器輸入，映射為固定數(shù)量的token，之后送入Transformer結(jié)構(gòu)的共享主干（trunk），將token映射為共享表示并進(jìn)行預(yù)訓(xùn)練。

在對每種本體的輸入進(jìn)行標(biāo)記化（tokenize）之后，HPT就運行在一個包含潛在token短序列的共享空間上運行。

論文提到，這種層次結(jié)構(gòu)的動機(jī)，也是來源于人類身體的脊髓神經(jīng)回路層面中，特定運動反應(yīng)和感知刺激之間的反饋循環(huán)。

預(yù)訓(xùn)練完成后，使用特定于任務(wù)的動作解碼器（head）來產(chǎn)生下游動作輸出，但所用的實例和任務(wù)在預(yù)訓(xùn)練期間都是未知的。

預(yù)訓(xùn)練包含了超過50個單獨的數(shù)據(jù)源，模型參數(shù)超過1B，模型的代碼和權(quán)重都已公開發(fā)布。

HPT架構(gòu)

stem結(jié)構(gòu)

從上面的描述來看，要解決異構(gòu)性問題，最直接和最關(guān)鍵的就是如何訓(xùn)練stem，將來自異構(gòu)的本體和模態(tài)的傳感器輸入對齊到共享表示空間中。

如圖3所示，stem包含兩個主要部分，即本體感受分詞器和視覺分詞器，將來自不同本體的異構(gòu)輸入映射為固定維度、固定數(shù)量的token，讓trunk能夠以相同的方式處理。

其中的關(guān)鍵思想，是利用cross-attention機(jī)制，讓固定數(shù)量的可學(xué)習(xí)token關(guān)注到各種特征。

雖然這篇論文主要處理本體感覺和視覺，但處理觸覺、3D和動作輸入等其他類型的異構(gòu)傳感器信號也可以在stem中靈活擴(kuò)展。

HPT中的stem架構(gòu)

按照時間順序單獨處理每個模態(tài)后，將所有token拼接在一起并添加額外的模態(tài)嵌入和正弦位置嵌入，就得到了trunk的輸入序列。

為了避免過擬合，stem被設(shè)計為僅有少量參數(shù)，只包含一個MLP和一個注意力層。

trunk結(jié)構(gòu)

作為預(yù)訓(xùn)練的核心組件，trunk是一個有潛在d維空間的Transormer結(jié)構(gòu)，參數(shù)量固定，在不同的本體和任務(wù)之間共享，以捕獲復(fù)雜的輸入-輸出關(guān)系。

預(yù)訓(xùn)練

給定從不同分布中采樣的異構(gòu)本體的數(shù)據(jù)集??_1,…,??_k,…,??_K ，令??_k={τ^(i)}_{1≤i≤M_k} 表示??_k中一組軌跡M_k，τ^(i)={o_t^(i), a_t^(i)}_{1≤t≤T}表示第i個最大長度為T的軌跡，每個元組包含observation變量和action變量。

訓(xùn)練目標(biāo)如公式（1）所示，需要最小化數(shù)據(jù)集中的以下?lián)p失：

其中?是行為克隆損失，計算為預(yù)測結(jié)果和真實標(biāo)簽之間的Huber 損失。

該訓(xùn)練過程有兩個數(shù)據(jù)縮放軸：單個數(shù)據(jù)集D_k的體量M_k，以及數(shù)據(jù)集總數(shù)K。

在預(yù)訓(xùn)練階段，每次迭代時僅更新trunk部分參數(shù)，并且基于訓(xùn)練批次采樣更新特定于每個異構(gòu)本體和任務(wù)的stem和head部分。

論文進(jìn)行了一系列預(yù)訓(xùn)練實驗，包括不同規(guī)模的網(wǎng)絡(luò)參數(shù)和數(shù)據(jù)集大小，旨在回答一個問題：HPT預(yù)訓(xùn)練在跨域異構(gòu)數(shù)據(jù)中是否展現(xiàn)出了擴(kuò)展能力？

總體而言，某種程度上，HPT隨著數(shù)據(jù)集數(shù)量、數(shù)據(jù)多樣性、模型體量和訓(xùn)練計算量呈現(xiàn)出縮放行為。

HPT網(wǎng)絡(luò)詳細(xì)信息，寬度表述turnk transformer的潛在維度，深度表示block數(shù)量，默認(rèn)設(shè)置為HPT-Small型號

預(yù)訓(xùn)練數(shù)據(jù)集詳細(xì)信息，默認(rèn)使用來自RT-X的27個數(shù)據(jù)集的16k個軌跡進(jìn)行訓(xùn)練

數(shù)據(jù)縮放

數(shù)據(jù)方面，如圖5所示，即使在異構(gòu)程度逐漸增大的本體中也具有穩(wěn)定且可擴(kuò)展的驗證損失。

此外，作者還發(fā)現(xiàn)，計算量（相當(dāng)于每次訓(xùn)練運行看到的樣本量）和數(shù)據(jù)量需要共同擴(kuò)展，才能在訓(xùn)練過程中更接近收斂。

epoch縮放

如圖6所示，增加批大小（左）相當(dāng)于有效地擴(kuò)展訓(xùn)練token數(shù)（右），通常可以提高模型性能，直至最后收斂。

另一個觀察結(jié)果是，使用分布式方法，在每個訓(xùn)練批中聚合盡可能更多的數(shù)據(jù)集，用更大的批大小來彌補(bǔ)異構(gòu)訓(xùn)練中的較大方差。

模型縮放

如圖7所示，固定數(shù)據(jù)集和軌跡數(shù)量，沿著模型大?。◤?M到1B）進(jìn)行縮放，并逐漸將批大小從256增加到 2048（模型大小每增加一倍），并使用具有170k軌跡的更大數(shù)據(jù)集。

可以觀察到，當(dāng)我們擴(kuò)展到具有更大計算量（紅線）的更大模型時，預(yù)訓(xùn)練可以實現(xiàn)較低的驗證損失，直到達(dá)到穩(wěn)定水平，但沒有發(fā)現(xiàn)縮放模型深度和模型寬度之間存在顯著差異。

圖8中的實驗結(jié)果表明，HPT可以相當(dāng)有效地處理異構(gòu)數(shù)據(jù)。盡管與真實機(jī)器人存在很大的差距，但對其他本體的數(shù)據(jù)集（例如模擬環(huán)境和人類視頻數(shù)據(jù)集）進(jìn)行預(yù)訓(xùn)練是可能的。

遷移學(xué)習(xí)

如上，作者使用了最后一次迭代中驗證集上的損失來評估預(yù)訓(xùn)練。

接下來，他們將通過實驗，去驗證機(jī)器人在遷移學(xué)習(xí)中，任務(wù)成功率的問題：

預(yù)訓(xùn)練的HPT模型，是否可以遷移到模擬和現(xiàn)實世界中的全新本體、任務(wù)、以及環(huán)境中？

模擬環(huán)境

如下圖10（a）中，研究人員在閉環(huán)模擬中測試了下游任務(wù)的模型，并觀察到使用HPT-B到HPTXL預(yù)訓(xùn)練模型，提到的任務(wù)成功率。

在圖10（b）中，他們在最近發(fā)布的Simpler基準(zhǔn)上運行HPT，它允許在高保真模擬上與Octo、RT1-X、RT2-X進(jìn)行比較。

在Google EDR機(jī)器人中，研究人員重點關(guān)注三個不同的任務(wù)「關(guān)閉抽屜」、「選可樂罐」。

對于每個任務(wù)，他們測試了幾種不同的初始化，所有任務(wù)總共有300+ episode。

現(xiàn)實世界

這里，作者采用了與前一節(jié)類似的遷移學(xué)習(xí)方法，并在真實世界的評估協(xié)議下，評估預(yù)訓(xùn)練的HPT表示。

他們以256批大小和訓(xùn)練率訓(xùn)練策略20000次迭代。

圖12顯示的定量結(jié)果，研究人員觀察到，預(yù)訓(xùn)練策略相比No-Trunk和From-Scratch基準(zhǔn)獲得了更好的成功率。

特別是在倒水的任務(wù)中，F(xiàn)rom-Scratch基準(zhǔn)使用了最先進(jìn)的擴(kuò)散策略架構(gòu)，以展示預(yù)訓(xùn)練表示的靈活性。

圖11定性結(jié)果顯示，作者觀察到預(yù)訓(xùn)練的HPT在面對不同姿勢、物體數(shù)量、相機(jī)配置、光照條件時，表現(xiàn)出更好的泛化能力和魯棒性。

在表3中，作者對Sweep Leftover任務(wù)進(jìn)行了消融研究。

盡管最近數(shù)據(jù)規(guī)模激增，但由于異構(gòu)性的存在，機(jī)器人學(xué)習(xí)的通用性仍然受到限制。

研究人員提出的HPT——一種模塊化架構(gòu)和框架，通過預(yù)訓(xùn)練來應(yīng)對這種異構(gòu)性。

他希望這一觀點能夠啟發(fā)未來的工作，以處理機(jī)器人數(shù)據(jù)的異構(gòu)性本質(zhì)，從而為機(jī)器人基礎(chǔ)模型鋪平道路。

作者介紹

Lirui Wang

Lirui Wang是MIT CSAIL的博士生，導(dǎo)師是Russ Tedrake教授。

在此之前，他曾在華盛頓大學(xué)獲得學(xué)士和碩士學(xué)位，導(dǎo)師是Dieter Fox教授。

他的研究興趣在于機(jī)器學(xué)習(xí)和機(jī)器人學(xué)。尤其是，他對開發(fā)能夠在復(fù)雜和非結(jié)構(gòu)化的真實世界環(huán)境中，泛化的算法和系統(tǒng)感興趣。

為了實現(xiàn)這一點，他一直致力于研究能夠隨著異類數(shù)據(jù)進(jìn)行擴(kuò)展的「艦隊學(xué)習(xí)」（fleet learning）。

Xinlei Chen

Xinlei Chen是舊金山Meta Fair實驗室的研究科學(xué)家。目前的研究興趣是預(yù)訓(xùn)練，特別是自監(jiān)督、多模態(tài)視覺表征的預(yù)訓(xùn)練。

他曾在CMU語言技術(shù)研究所獲得博士學(xué)位，就讀期間也在機(jī)器人研究所工作。此前，他獲得了浙大的學(xué)士學(xué)位。

Jialiang Zhao

Jialiang Zhao目前是 MIT CSAIL感知科學(xué)小組的博士生，導(dǎo)師是Edward H. Adelson教授，并與Russ Tedrake 、何愷明合作。

Kaiming He

何愷明目前是麻省理工學(xué)院電子工程與計算機(jī)科學(xué)系副教授。

他提出的最為著名的研究是深度殘差網(wǎng)絡(luò)（ResNets），并被廣泛應(yīng)用到現(xiàn)代深度學(xué)習(xí)模型當(dāng)中，比如Transformer（GPT、ChatGPT）、AlphaGo Zero、AlphaFold、擴(kuò)散模型等。

在加入MIT之前，何愷明于2016年至2024年擔(dān)任Facebook AI Research的研究科學(xué)家，并于2011年-2016年擔(dān)任微軟亞洲研究院（MSRA）的研究員。

他曾在2011年在香港中文大學(xué)獲得博士學(xué)位，并于2007年在清華大學(xué)獲得學(xué)士學(xué)位。

參考資料：

https://liruiw.github.io/hpt/

https://x.com/LiruiWang1/status/1841098699436351742

責(zé)任編輯：武曉燕來源：新智元

機(jī)器人模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<acronym id="nu65o"><nav id="nu65o"></nav></acronym>