偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

UC伯克利等提出具身智能「動作Tokenizer」，效率飆升5倍！

作者：新智元 2025-01-22 15:21:00

人工智能新聞

研究者提出了FAST，一種高效的動作Tokenizer。通過結(jié)合離散余弦變換（DCT）和字節(jié)對編碼（BPE），F(xiàn)AST顯著縮短了訓(xùn)練時間，并且能高效地學(xué)習(xí)和執(zhí)行復(fù)雜任務(wù)，標(biāo)志著機(jī)器人自回歸Transformer訓(xùn)練的一個重要突破。

來自π，伯克利和斯坦福的研究者近期提出了FAST，一種為VLA模型設(shè)計的高效動作Tokenizer。

FAST旨在解決傳統(tǒng)動作Tokenization方法在處理精細(xì)任務(wù)時面臨的挑戰(zhàn)，為VLA模型在更復(fù)雜、高頻的機(jī)器人控制任務(wù)帶來了顯著改進(jìn)。

將FAST與π0 VLA結(jié)合，在1萬小時的機(jī)器人數(shù)據(jù)上對π0-FAST進(jìn)行訓(xùn)練，效果與最先進(jìn)的擴(kuò)散VLA相當(dāng)，訓(xùn)練時間最多縮短5倍。

論文鏈接：https://arxiv.org/abs/2501.09747

想訓(xùn)練Transformer來控制機(jī)器人，具體該怎么做？

Transformer輸出的動作塊是一小段機(jī)器人動作序列，例如手臂關(guān)節(jié)角度。對于不太精細(xì)的系統(tǒng)，其動作序列可能包含3-5個動作；而對于高頻靈巧機(jī)器人，動作序列可能會有20-50個動作。

用合適的方法表示這些動作，對于高效學(xué)習(xí)非常重要。

現(xiàn)有的VLA模型常用簡單的離散劃分方法，這種方法對于簡單的任務(wù)是可行的，但對于需要高精度和高頻控制的復(fù)雜精細(xì)技能，就不太管用了。

擴(kuò)散方法或流匹配通常展現(xiàn)出更好的性能，如π0模型。然而，擴(kuò)散方法的訓(xùn)練時間會更長。

那么，如何表示這些動作，才能在保持靈活性和精確性的同時，快速地訓(xùn)練Transformer呢？

為解決這個問題，Physical Intelligence提出一款專為機(jī)器人動作設(shè)計的新型Tokenizer「FAST」。

借助FAST，研究者開發(fā)出了一種高效的機(jī)器人動作Tokenization方法，讓機(jī)器人技術(shù)能夠與自回歸Transformer訓(xùn)練流程無縫銜接。

FAST能把動作像語言一樣，用離散Token表示。FAST提升了從大規(guī)?；ヂ?lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的遷移能力，增強(qiáng)了機(jī)器人執(zhí)行語言指令的能力。

借助FAST，首次實現(xiàn)在DROID數(shù)據(jù)集上訓(xùn)練出只需通過簡單的自然語言命令，機(jī)器人就能在新環(huán)境中零樣本執(zhí)行多種操作任務(wù)。

FAST Tokenizer

用離散余弦變換（DCT）壓縮

FAST通過在訓(xùn)練前壓縮原始動作塊，能顯著提升基于靈巧機(jī)器人數(shù)據(jù)的策略訓(xùn)練和推理效率。

FAST使用了一種基于離散余弦變換（DCT）的壓縮算法，來提高VLA模型的訓(xùn)練速度。DCT是一種頻域變換，因簡潔和計算高效，常用于壓縮算法，如JPEG圖像壓縮、MP3音頻的編解碼。

FAST Tokenization算法

研究者利用離散余弦變換（DCT）設(shè)計了FAST，它是一種快速且高效的機(jī)器人動作Tokenization方法。下圖展示了從原始機(jī)器人動作到動作token的步驟。

首先，對輸入的動作進(jìn)行歸一化。完成歸一化后，每個動作維度分別應(yīng)用離散余弦變換（DCT）。

研究者用字節(jié)對編碼（BPE）壓縮DCT矩陣，BPE是訓(xùn)練LLM常用的壓縮算法。將DCT和字節(jié)對編碼（BPE）結(jié)合，就能把原始動作塊壓縮成數(shù)量少但更密集的動作Token。

通常每個動作塊包含30-60個Token，和以前的動作Tokenization方法相比，壓縮率提高了10倍。

通用機(jī)器人動作Tokenizer

基于FAST，研究者發(fā)布了FAST+，這是通用的機(jī)器人動作Tokenizer，用100萬個真實機(jī)器人動作序列上訓(xùn)練而成。

FAST+ Tokenizer能高效地標(biāo)記各種機(jī)器人動作序列，包括單臂、雙臂和移動機(jī)器人。FAST+能當(dāng)黑盒Tokenizer，對各種機(jī)器人的動作序列編碼，涵蓋多樣的動作空間和控制頻率。

借助這個Tokenizer訓(xùn)練自己的策略，只需三行代碼即可實現(xiàn)：

π0-FAST：開箱即用

研究者將FAST和π0模型結(jié)合進(jìn)行測試。

以往的離散化VLA模型只能處理簡單操作任務(wù)。但有了FAST，就能借助它訓(xùn)練自回歸Transformer策略，完成像折疊衣物、收拾餐桌、打包購物袋這類高難度的精細(xì)任務(wù)。同時，模型的訓(xùn)練速度快了5倍。

下面是一些能用FAST策略解決的任務(wù)。

借助FAST，研究者首次在DROID數(shù)據(jù)集上訓(xùn)練出通用策略，能在新環(huán)境中對多種指令實現(xiàn)泛化執(zhí)行。

DROID數(shù)據(jù)集是一個由全球大型機(jī)器人研究聯(lián)盟歷經(jīng)兩年收集的開源數(shù)據(jù)集，包含多樣化的場景和機(jī)器人操作任務(wù)，涵蓋從大學(xué)建筑到真實家庭等多種場景。

到目前為止，尚未有一種方法能在DROID數(shù)據(jù)集上訓(xùn)練出通用策略，在新環(huán)境中零樣本執(zhí)行語言指令。

但借助FAST，研究者實現(xiàn)了這一目標(biāo)?？靵砜纯此膶嶋H表現(xiàn)！

在美國三所大學(xué)（加州大學(xué)伯克利分校、斯坦福大學(xué)、華盛頓大學(xué)）的測試環(huán)境中，都能直接完成簡單的操作任務(wù)。

即便在執(zhí)行任務(wù)失敗，它也會基于常識去嘗試解決問題。

雖然這一策略尚不完善，卻為我們描繪了未來的圖景：未來能直接下載并使用通用機(jī)器人模型，就像今天使用語言模型一樣。

實驗結(jié)果

表中展示了FAST Tokenizer與先前方案在壓縮率方面的比較。

FAST對所有數(shù)據(jù)集的輸入動作序列都實現(xiàn)了顯著壓縮，對高頻動作數(shù)據(jù)的數(shù)據(jù)集壓縮效果更明顯。

基于100萬條真實機(jī)器人動作序列訓(xùn)練的通用動作Tokenizer FAST+與之前的VLA相比顯著提高了訓(xùn)練效率。

FAST+ Tokenizer在各類機(jī)器人數(shù)據(jù)集上有良好的壓縮性能，且在各種機(jī)器人形態(tài)、動作空間和控制頻率范圍中都展現(xiàn)出有效性。

研究者借助FAST Tokenizer成功訓(xùn)練出首個自回歸通用策略π0-FAST。它基于之前的π0模型，沿用相同的模型架構(gòu)和訓(xùn)練數(shù)據(jù)集。

研究者把π0-FAST與最先進(jìn)的擴(kuò)散π0 VLA進(jìn)行對比。

總體而言，自回歸π0-FAST模型的表現(xiàn)與擴(kuò)散π0模型相當(dāng)，即便在最具挑戰(zhàn)性的洗衣折疊任務(wù)上也是如此，且所需計算量顯著更少。

因其采用簡單的自回歸離散化方法，π0-FAST的收斂速度比擴(kuò)散π0模型快得多，所需的訓(xùn)練GPU小時數(shù)減少5倍。

對于最先進(jìn)的VLA訓(xùn)練，通常需數(shù)千個GPU小時，計算資源減少5倍至關(guān)重要。

基于FAST的方法可在復(fù)雜的機(jī)器人任務(wù)上訓(xùn)練自回歸VLA，而先前的方法在這些任務(wù)上效果不佳。

研究者對于自回歸VLA訓(xùn)練的前景感到十分興奮。然而，當(dāng)前的模型存在一個較為顯著的缺點，即推理速度較慢。π0-FAST采用自回歸解碼的方式，其速度明顯比不上π0所使用的流匹配解碼。

未來，LLM中廣泛應(yīng)用的加速離散自回歸Transformer模型推理的技術(shù)，或許能為提高VLA推理速度帶來啟發(fā)。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)集 AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<samp id="uupfg"><option id="uupfg"></option></samp>

<samp id="uupfg"></samp>