偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

3D版Sora來了?UMass、MIT等提出3D世界模型,具身智能機(jī)器人實(shí)現(xiàn)新里程碑

人工智能 新聞
具身基礎(chǔ)模型突破2D,全新生成式視覺-語言-行動(dòng)模型3D-VLA,在多項(xiàng)任務(wù)中顯著提高了推理、多模態(tài)生成和規(guī)劃的能力。

在最近的研究中,視覺-語言-動(dòng)作(VLA,vision-language-action)模型的輸入基本都是2D數(shù)據(jù),沒有集成更通用的3D物理世界。

此外,現(xiàn)有的模型通過學(xué)習(xí)「感知到動(dòng)作的直接映射」來進(jìn)行動(dòng)作預(yù)測(cè),忽略了世界的動(dòng)態(tài)性,以及動(dòng)作和動(dòng)態(tài)之間的關(guān)系。

相比之下,人類在思考時(shí)會(huì)引入世界模型,可以描繪除對(duì)未來情景的想象,從而對(duì)下一步的行動(dòng)進(jìn)行規(guī)劃。

為此,來自馬薩諸塞州大學(xué)阿默斯特分校、MIT等機(jī)構(gòu)的研究人員提出了3D-VLA模型,通過引入一類全新的具身基礎(chǔ)模型(embodied foundation models),可以根據(jù)生成的世界模型無縫連接3D感知、推理和行動(dòng)。
圖片

項(xiàng)目主頁(yè):https://vis-www.cs.umass.edu/3dvla/

論文地址:https://arxiv.org/abs/2403.09631

具體而言,3D-VLA構(gòu)建在基于3D的大型語言模型(LLM)之上,并引入一組交互token來參與具身環(huán)境中。

為了將生成能力注入模型,淦創(chuàng)團(tuán)隊(duì)訓(xùn)練了一系列具身擴(kuò)散模型,并將其對(duì)齊到LLM中以預(yù)測(cè)目標(biāo)圖像和點(diǎn)云。

為了對(duì)3D-VLA模型進(jìn)行訓(xùn)練,通過從現(xiàn)有的機(jī)器人數(shù)據(jù)集中提取大量的3D相關(guān)信息來構(gòu)建出一個(gè)大規(guī)模的3D具身指令數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果表明,3D-VLA顯著提高了在具身環(huán)境中推理、多模態(tài)生成和規(guī)劃的能力,展示出其在現(xiàn)實(shí)世界中的應(yīng)用潛力。

三維具身指令調(diào)整數(shù)據(jù)集(3D Embodied Instruction Tuning Dataset)

得益于互聯(lián)網(wǎng)上數(shù)十億規(guī)模的數(shù)據(jù)集,VLM在各種任務(wù)中表現(xiàn)出了非凡的性能,百萬級(jí)的視頻動(dòng)作數(shù)據(jù)集也為機(jī)器人控制的具身VLM奠定了基礎(chǔ)。

但當(dāng)前的數(shù)據(jù)集大多不能在機(jī)器人操作中提供深度或3D標(biāo)注和精確控制,需要包含3D空間推理和交互:如果沒有3D信息,機(jī)器人很難理解和執(zhí)行需要3D空間推理的命令,比如「把最遠(yuǎn)的杯子放在中間的抽屜里」。

為了彌補(bǔ)這一差距,研究人員構(gòu)建了一個(gè)大規(guī)模的3D指令調(diào)優(yōu)數(shù)據(jù)集,該數(shù)據(jù)集提供了足夠的「3D相關(guān)信息」以及「相應(yīng)的文本指令」以訓(xùn)練模型。

研究人員設(shè)計(jì)了一個(gè)pipeline從現(xiàn)有的具身數(shù)據(jù)集中提取3D語言動(dòng)作對(duì),獲得點(diǎn)云、深度圖、3D邊界框、機(jī)器人的7D動(dòng)作和文本描述的標(biāo)注。

3D-VLA基礎(chǔ)模型

3D-VLA是一個(gè)用于在具身環(huán)境(embodied environment)中進(jìn)行三維推理、目標(biāo)生成和決策的世界模型。

首先在3D-LLM之上構(gòu)建主干網(wǎng)絡(luò),并通過添加一系列交互token來進(jìn)一步增強(qiáng)模型與3D世界交互的能力;再通過預(yù)訓(xùn)練擴(kuò)散模型并使用投影來對(duì)齊LLM和擴(kuò)散模型,將目標(biāo)生成能力注入3D-VLA

骨干網(wǎng)絡(luò)

在第一階段,研究人員按照3D-LLM的方法開發(fā)3D-VLA基礎(chǔ)模型:由于收集到的數(shù)據(jù)集沒有達(dá)到從頭開始訓(xùn)練多模態(tài)LLM所需的十億級(jí)規(guī)模,因此需要利用多視圖特征生成3D場(chǎng)景特征,使得視覺特征能夠無縫集成到預(yù)訓(xùn)練VLM中,不需要自適應(yīng)。

同時(shí),3D-LLM的訓(xùn)練數(shù)據(jù)集主要包括對(duì)象(objects)和室內(nèi)場(chǎng)景,與具體設(shè)置不直接一致,所以研究人員選擇使用BLIP2-PlanT5XL作為預(yù)訓(xùn)練模型。

在訓(xùn)練過程中,解凍token的輸入和輸出嵌入,以及Q-Former的權(quán)重。

交互tokens

為了增強(qiáng)模型對(duì)3D場(chǎng)景的理解與環(huán)境中的交互,研究人員引入了一組全新的交互tokens

首先,輸入中加入了object tokens,包含解析句子中的對(duì)象名詞(如<obj> a chocolate bar </obj> [loc tokens] on the table),這樣模型就能更好地捕捉到被操作或提及的對(duì)象。

其次,為了更好地用語言表達(dá)空間信息,研究人員設(shè)計(jì)了一組位置token <loc0-255>,用 AABB 形式的六個(gè)標(biāo)記來表示三維邊界框。

第三,為了更好地進(jìn)行動(dòng)態(tài)編碼,框架中引入了<scene></scene>來包含靜態(tài)場(chǎng)景的嵌入:通過對(duì)場(chǎng)景token進(jìn)行組合,3D-VLA 可以理解動(dòng)態(tài)場(chǎng)景,并管理交錯(cuò)三維場(chǎng)景和文本的輸入。

通過擴(kuò)展代表機(jī)器人動(dòng)作的專用標(biāo)記集,進(jìn)一步增強(qiáng)了該架構(gòu)。機(jī)器人的動(dòng)作有 7 個(gè)自由度,用 <aloc0-255>、<arot0-255> 和 <gripper0/1> 等離散token來表示手臂的預(yù)定絕對(duì)位置、旋轉(zhuǎn)和抓手張開度,每個(gè)action由 <ACT SEP> token進(jìn)行分隔。

注入目標(biāo)生成能力

人類能夠?qū)?chǎng)景的最終狀態(tài)進(jìn)行預(yù)先可視化(pre-visualize),以提升動(dòng)作預(yù)測(cè)或決策的準(zhǔn)確性,也是構(gòu)建世界模型的關(guān)鍵方面;在初步實(shí)驗(yàn)中,研究人員還發(fā)現(xiàn)提供真實(shí)的最終狀態(tài)可以增強(qiáng)模型的推理和規(guī)劃能力。

但訓(xùn)練MLLM來生成圖像、深度和點(diǎn)云并不簡(jiǎn)單:

首先,視頻擴(kuò)散模型并不是為具身場(chǎng)景量身定制的,比如Runway在生成「打開抽屜」的未來幀時(shí),場(chǎng)景中會(huì)發(fā)生視圖變化、對(duì)象變形、怪異的紋理替換以及布局失真等問題。

并且,如何將各種模態(tài)的擴(kuò)散模型整合到一個(gè)單一的基礎(chǔ)模型中仍然是一個(gè)難題。

所以研究人員提出的新框架,首先根據(jù)圖像、深度和點(diǎn)云等不同形式對(duì)具體的擴(kuò)散模型進(jìn)行預(yù)訓(xùn)練,然后在對(duì)齊階段將擴(kuò)散模型的解碼器對(duì)齊到3D-VLA的嵌入空間。

實(shí)驗(yàn)結(jié)果

3D-VLA是一個(gè)多功能的、基于3D的生成式世界模型,可以在3D世界中執(zhí)行推理和定位、想象多模態(tài)目標(biāo)內(nèi)容,并為機(jī)器人操作生成動(dòng)作,研究人員主要從三個(gè)方面對(duì)3D-VLA進(jìn)行了評(píng)估:3D推理和定位、多模態(tài)目標(biāo)生成和具身行動(dòng)規(guī)劃。

3D推理和定位

3D-VLA在語言推理任務(wù)上優(yōu)于所有2D VLM方法,研究人員將其歸因于3D信息的杠桿作用,3D信息為推理提供了更準(zhǔn)確的空間信息。

此外,由于數(shù)據(jù)集中包含一組3D定位標(biāo)注,3D-VLA學(xué)習(xí)定位相關(guān)對(duì)象,有助于模型更專注于關(guān)鍵對(duì)象進(jìn)行推理。

研究人員發(fā)現(xiàn)3D-LLM在這些機(jī)器人推理任務(wù)中表現(xiàn)不佳,證明了在機(jī)器人相關(guān)的3D數(shù)據(jù)集上收集和訓(xùn)練的必要性。

并且3D-VLA在定位性能方面表現(xiàn)出明顯優(yōu)于2D基線方法,這一發(fā)現(xiàn)也為標(biāo)注過程的有效性提供了令人信服的證據(jù),有助于模型獲得強(qiáng)大的3D定位能力。

多模態(tài)目標(biāo)生成

與現(xiàn)有的零樣本遷移到機(jī)器人領(lǐng)域的生成方法相比,3D-VLA在大多數(shù)指標(biāo)方面實(shí)現(xiàn)了更好的性能,證實(shí)了使用「專門為機(jī)器人應(yīng)用設(shè)計(jì)的數(shù)據(jù)集」來訓(xùn)練世界模型的重要性。

即使在與Instruct-P2P*的直接比較中,3D-VLA也始終性能更優(yōu),結(jié)果表明,將大型語言模型集成到3D-VLA中可以更全面、更深刻地理解機(jī)器人操作指令,從而提高目標(biāo)圖像生成性能。

此外,當(dāng)從輸入提示符中排除預(yù)測(cè)的邊界框時(shí),可以觀察到性能略有下降,證實(shí)了使用中間預(yù)測(cè)邊界框的有效性,可以幫助模型理解整個(gè)場(chǎng)景,允許模型將更多的注意力分配到給定指令中提到的特定對(duì)象,最終增強(qiáng)其想象最終目標(biāo)圖像的能力。

點(diǎn)云生成的結(jié)果對(duì)比中,具有中間預(yù)測(cè)邊界框的3D-VLA性能最好,證實(shí)了在理解指令和場(chǎng)景的背景下結(jié)合大型語言模型和精確對(duì)象定位的重要性。

具身行動(dòng)規(guī)劃

3D-VLA在RLBench動(dòng)作預(yù)測(cè)中的大多數(shù)任務(wù)中超過了基線模型的性能,顯示了其具有規(guī)劃能力。

值得注意的是,基線模型需要用到歷史觀察、對(duì)象狀態(tài)和當(dāng)前狀態(tài)信息,而3D-VLA模型只通過開環(huán)控制執(zhí)行。

此外,模型的泛化能力在撿杯(pick-up-cup)任務(wù)中得到了證明,3D-VLA在CALVIN中也取得了較好的結(jié)果,研究人員將這種優(yōu)勢(shì)歸因于定位感興趣的對(duì)象和想象目標(biāo)狀態(tài)的能力,為推斷動(dòng)作提供了豐富的信息。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-10 09:40:00

AI3D模型

2023-08-03 16:12:00

AI模型

2024-06-17 12:33:34

2012-11-26 12:51:44

木材3D打

2012-12-10 11:32:12

打印機(jī)

2011-08-26 14:50:23

2024-01-22 13:17:00

AI模型

2012-12-12 14:01:58

惠普打印

2025-01-09 12:39:27

2025-01-14 09:24:46

2021-03-11 12:33:20

Windows 10Windows操作系統(tǒng)

2014-01-21 15:05:22

3D打印智能機(jī)器人供應(yīng)鏈

2025-01-14 10:30:00

3D生成AI

2021-12-24 10:00:19

自動(dòng)駕駛數(shù)據(jù)汽車

2011-10-06 13:30:45

宏碁投影儀

2022-08-17 15:07:48

2020-08-26 10:37:21

阿里3D

2021-10-18 12:09:29

AI 數(shù)據(jù)人工智能

2012-06-16 16:57:52

WebGL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)