偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="b4jgf"><delect id="b4jgf"></delect></thead>

<tt id="b4jgf"><b id="b4jgf"></b></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機性能提升32%

2025-06-27 09:10:17

人工智能新聞

中科院自動化所提出BridgeVLA模型，通過將3D輸入投影為2D圖像并利用2D熱圖進(jìn)行動作預(yù)測，實現(xiàn)了高效且泛化的3D機器人操作學(xué)習(xí)。實驗表明，BridgeVLA在仿真和真實場景中均展現(xiàn)出卓越的性能和數(shù)據(jù)效率，僅需3條軌跡即可在基礎(chǔ)任務(wù)中達(dá)到96.8%的成功率。

近年來，視覺-語言-動作（VLA）模型在機器人操作任務(wù)中大放異彩，成為推動通用機器人操作的重要引擎。

但現(xiàn)有的VLA模型，大多只以2D信息作為輸入，且需要大量的機器人數(shù)據(jù)進(jìn)行微調(diào)；

反觀以PerAct，RVT-2為代表的3D操作策略，通常僅需要10條軌跡就能夠取得不錯的效果，因此，一個很自然的想法是，是否能將現(xiàn)有的2D VLA升級為3D VLA，使其同時兼具2D VLA的效果以及3D操作策略的效率？

中科院自動化所的研究人員提出的BridgeVLA給出了肯定的回答！

論文鏈接：https://www.arxiv.org/abs/2506.07961

項目主頁：https://bridgevla.github.io/home_page.html

實驗表明，BridgeVLA僅需采集3條軌跡就能在基礎(chǔ)設(shè)置中實現(xiàn)96.8%的任務(wù)成功率。

在多種泛化性設(shè)置中，比如未見過的干擾物、高度、光照、物體種類以及未見過的物體技能組合等，BridgeVLA展現(xiàn)出碾壓式的性能，相較于基線模型取得了32%的性能提升。

在仿真中，BridgeVLA屠榜了主流3D機器人操作基準(zhǔn)，在RLBench、COLOSSEUM、GemBench等三個仿真基準(zhǔn)中均取得了最先進(jìn)的性能。

2D VLA的泛化，3D Policy的效率，這下全部打包帶走！

縮小VLM和VLA之間的遷移差距

圖1. BridgeVLA統(tǒng)一輸入與輸出的方案，兼顧泛化性與高效性

近來，OpenVLA、pi0等2D VLA架構(gòu)在機器人領(lǐng)域取得了廣泛關(guān)注，它們借助預(yù)訓(xùn)練多模態(tài)大模型強大的表征能力，將自然語言指令、圖像觀測與動作預(yù)測串聯(lián)在一起，展現(xiàn)出很強的泛化能力。

然而，這類型2D VLA所帶來的代價同樣很大：為了讓模型真正學(xué)會每個任務(wù)，往往需要上百條專家演示。這其中的數(shù)據(jù)收集、清洗與標(biāo)注需要高昂的人力成本，很難在更大規(guī)模的工業(yè)場景下落地。

與此同時，研究者們發(fā)現(xiàn)，如果直接在3D空間中學(xué)習(xí)動作策略，憑借3D輸入蘊含的顯式空間結(jié)構(gòu)信息，模型只需極少的軌跡就能掌握操作技能，具有很高的數(shù)據(jù)效率。

因此，理論上來講，將3D信息和VLA相結(jié)合是有可能構(gòu)造出一個高性能且高效率的3D VLA模型的。然而，當(dāng)前已有的3D VLA模型卻并未實現(xiàn)上述期待。

BridgeVLA的研究團隊發(fā)現(xiàn)，這背后有兩個方面的原因：

1）這些方案輸出形式割裂。大多數(shù)3D VLA方法把動作輸出建模為 token 序列，這樣的做法割裂了動作輸出與觀測輸入之間的空間對應(yīng)關(guān)系，難以充分利用三維幾何信息。

2）這些方案的輸入和預(yù)訓(xùn)練多模態(tài)大模型的輸入分布不匹配。預(yù)訓(xùn)練VLM是以2D 圖像作為輸入的，而這與微調(diào)階段的3D 輸入分布差異巨大，導(dǎo)致直接遷移效果不佳。

基于這些觀察，BridgeVLA的研究團隊提出：如果將3D輸入與動作輸出都統(tǒng)一到2D空間，同時將預(yù)訓(xùn)練階段的輸入和輸出也統(tǒng)一到2D空間的話，將可以同時繼承2D VLA的泛化能力與3D操作策略的數(shù)據(jù)效率。

BridgeVLA是如何設(shè)計的？

圖2. BridgeVLA 2D熱度圖預(yù)訓(xùn)練與3D動作微調(diào)結(jié)構(gòu)圖

BridgeVLA的訓(xùn)練流程主要分為兩個階段：首先是2D 熱度圖預(yù)訓(xùn)練，然后是3D動作微調(diào)。預(yù)訓(xùn)練階段主要用于提升模型的空間感知能力，使其具備從圖像和語言描述中精準(zhǔn)定位目標(biāo)區(qū)域的能力；而微調(diào)階段則通過三視角圖像進(jìn)行動作預(yù)測，完成具體的 3D 操作策略學(xué)習(xí)。

傳統(tǒng)的預(yù)訓(xùn)練多模態(tài)大模型在預(yù)訓(xùn)練階段主要通過預(yù)測token 序列來完成分類或生成任務(wù)，而這樣的token序列并不具備任何的空間結(jié)構(gòu)。

為了使模型具備空間定位能力，BridgeVLA 設(shè)計了一種熱度圖預(yù)訓(xùn)練方式，訓(xùn)練模型根據(jù)文本指令預(yù)測關(guān)于目標(biāo)對象位置的概率熱度圖，并使用了 RoboPoint 中的目標(biāo)檢測數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。

在模型結(jié)構(gòu)上，BridgeVLA使用了由SigLIP視覺編碼器和Gemma Transformer構(gòu)成的PaliGemma作為VLM主干。

預(yù)訓(xùn)練時，模型的輸入為圖像與其對應(yīng)的文本描述（如圖中紅色的杯子在哪），然后通過PaliGemma提取特征，最后使用一個可學(xué)習(xí)的上采樣模塊生成與原圖同分辨率的熱度圖。

整個過程采用交叉熵?fù)p失進(jìn)行監(jiān)督訓(xùn)練。這種預(yù)訓(xùn)練策略使VLM獲得了空間感知能力，能夠根據(jù)語言描述在圖像中精準(zhǔn)定位目標(biāo)區(qū)域，為后續(xù)下游3D操作策略學(xué)習(xí)提供幫助。

在微調(diào)階段，模型的目標(biāo)是根據(jù)3D點云和語言指令輸出合理的機器人動作。

具體來說，BridgeVLA首先從頂部、正面和右側(cè)三個方向?qū)Ⅻc云渲染為三幅2D圖像，并將其作為輸入送入經(jīng)過重新預(yù)訓(xùn)練的 VLM 主干網(wǎng)絡(luò)。模型隨后會為每個視角生成一張2D 熱度圖。

為了保持微調(diào)與預(yù)訓(xùn)練的一致性，VLM 的輸入中不包含機器人狀態(tài)或其他非視覺信息，從而避免輸入分布偏移。通過結(jié)合深度圖和相機參數(shù)，三個熱度圖可以被反投影，從而得到末端執(zhí)行器的位置估計。

末端執(zhí)行器的旋轉(zhuǎn)姿態(tài)和夾爪開閉狀態(tài)則通過額外引入的MLP進(jìn)行預(yù)測。

泛化性能與采樣效率的兼得

BridgeVLA在多個主流3D操作榜單上都取得了最先進(jìn)的性能。在RLBench中成功率達(dá)88.2%，相較于基準(zhǔn)模型提升了6.8%

而在環(huán)境出現(xiàn)顏色、材質(zhì)、物體大小等12種干擾的COLOSSEUM環(huán)境中相較于之前SoTA方法提升了7.3%，在同樣極具挑戰(zhàn)的GemBench環(huán)境中，即使面對全新位置、全新物體的考驗，BridgeVLA也取得了最佳的50%的成功率。

這些實驗都證明了BridgeVLA具備很強的泛化能力，充分利用了預(yù)訓(xùn)練多模態(tài)模型中蘊含的豐富視覺與語言先驗知識。

圖3. BridgeVLA 在RLBench上的實驗結(jié)果

圖4. BridgeVLA 在COLOSSEUM上的實驗結(jié)果

圖5. BridgeVLA 在GemBench上的實驗結(jié)果

BridgeVLA同時在真機實驗中進(jìn)行了大規(guī)模實驗，BridgeVLA可以很好的克服干擾物、不同高度、不同光照條件、不同背景的影響，同時也具有一定的組合泛化能力、和全新物體的泛化能力，這都得益于預(yù)訓(xùn)練骨干網(wǎng)絡(luò)中蘊含的先驗特征。

同時BridgeVLA也證明了其極高的數(shù)據(jù)效率，僅僅使用3條軌跡就可以達(dá)到96.8%的基礎(chǔ)任務(wù)成功率，幾乎與使用10條軌跡訓(xùn)練的版本持平，結(jié)果表明BridgeVLA不僅泛化能力強，而且對數(shù)據(jù)要求極低，非常適合在真實機器人系統(tǒng)中部署與擴展。

圖6. BridgeVLA 在真機實驗上的實驗結(jié)果

BridgeVLA通過統(tǒng)一預(yù)訓(xùn)練的輸入輸出到二維圖像空間，建立起了一個高性能且高數(shù)據(jù)效率的3D VLA新范式。

可以預(yù)見，未來將有更多類似的探索推動 VLA 模型持續(xù)演進(jìn)，邁向新的高度。

責(zé)任編輯：張燕妮來源：新智元

模型 AI 機器人

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<code id="y1g1d"></code>

<code id="y1g1d"></code>