偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障

發(fā)布于 2025-10-29 09:58
瀏覽
0收藏

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2510.23576 
項(xiàng)目鏈接:https://pku-epic.github.io/UrbanVLA-Web/

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

圖1:UrbanVLA 的實(shí)際部署展示了在具有未知布局、動(dòng)態(tài)障礙物和不同光照的各種環(huán)境中的zero-shot泛化能力,并突出了其執(zhí)行跨度超過(guò) 500 米的長(zhǎng)距離城市微移動(dòng)任務(wù)的能力。

亮點(diǎn)直擊

  • 首個(gè)專為城市微出行設(shè)計(jì)的路由條件VLA框架:首次提出了一個(gè)專門用于城市微出行(如送貨機(jī)器人)的路由條件視覺(jué)-語(yǔ)言-動(dòng)作(Vision-Language-Action, VLA)模型,它能夠?qū)?dǎo)航工具(如地圖App)提供的高層級(jí)、有噪聲的路線指令與車載視覺(jué)感知結(jié)合起來(lái),實(shí)現(xiàn)可靠的長(zhǎng)距離導(dǎo)航。
  • 創(chuàng)新的“模擬到現(xiàn)實(shí)”兩階段訓(xùn)練流程:設(shè)計(jì)了一個(gè)包含監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)微調(diào)(RFT)的訓(xùn)練流程。SFT階段使用模擬器和網(wǎng)絡(luò)視頻數(shù)據(jù)進(jìn)行學(xué)習(xí),RFT階段則使用“模擬+真實(shí)”的混合數(shù)據(jù),通過(guò)離線強(qiáng)化學(xué)習(xí)(IQL)顯著提升了模型在真實(shí)世界中的安全性和適應(yīng)性。
  • 提出啟發(fā)式軌跡提升(HTL)算法:為了解決訓(xùn)練數(shù)據(jù)中理想化路徑與現(xiàn)實(shí)世界中含噪聲路徑的差異問(wèn)題,提出了HTL算法。該算法能從原始的專家軌跡中“提煉”出符合現(xiàn)實(shí)世界模糊性的高級(jí)路線信息,從而防止模型對(duì)路徑指令過(guò)擬合,增強(qiáng)了其在真實(shí)世界中的泛化能力。
  • 卓越的性能表現(xiàn):無(wú)論是在模擬器測(cè)試還是在真實(shí)世界部署中,UrbanVLA都表現(xiàn)出色。在模擬器中,其性能遠(yuǎn)超基于激光雷達(dá)(LiDAR)的強(qiáng)基線模型;在現(xiàn)實(shí)世界中,它成功完成了超過(guò)500米的復(fù)雜長(zhǎng)距離導(dǎo)航任務(wù),證明了框架的有效性和可擴(kuò)展性。

解決的問(wèn)題

旨在解決城市微出行設(shè)備(如送貨機(jī)器人、輔助輪椅)在復(fù)雜、動(dòng)態(tài)和非結(jié)構(gòu)化的城市環(huán)境中進(jìn)行長(zhǎng)距離、可靠導(dǎo)航的挑戰(zhàn)。傳統(tǒng)方法,如基于SLAM的導(dǎo)航,嚴(yán)重依賴高精度地圖,難以擴(kuò)展到大規(guī)模多變的城市環(huán)境。而現(xiàn)有的學(xué)習(xí)方法通常將導(dǎo)航簡(jiǎn)化為點(diǎn)目標(biāo)導(dǎo)航,難以處理導(dǎo)航工具(如谷歌地圖)提供的僅有拓?fù)溥B續(xù)性但幾何不精確的粗糙路線指令。此外,現(xiàn)有的VLA模型雖然在短距離導(dǎo)航上表現(xiàn)不錯(cuò),但在長(zhǎng)距離城市導(dǎo)航中,它們難以理解有噪聲的路線、遵守復(fù)雜的交通規(guī)則(如人行道禮儀、交通信號(hào)燈)以及適應(yīng)動(dòng)態(tài)障礙物。

提出的方案

UrbanVLA,一個(gè)端到端的路由條件VLA框架。其核心流程如下:

  1. 輸入:模型接收兩種輸入:一是來(lái)自導(dǎo)航工具的結(jié)構(gòu)化路線描述(論文中稱為“roadbooks”,包含一系列路點(diǎn)和轉(zhuǎn)向指令);二是來(lái)自機(jī)器人多個(gè)攝像頭的實(shí)時(shí)RGB圖像。
  2. 模型架構(gòu):模型基于一個(gè)預(yù)訓(xùn)練的導(dǎo)航基礎(chǔ)模型(NavFoM),并采用一個(gè)大型語(yǔ)言模型(LLM)作為骨干。它將編碼后的路線指令(語(yǔ)言)和視覺(jué)觀測(cè)(圖像)融合處理。
  3. 兩階段訓(xùn)練
  • 監(jiān)督微調(diào)(SFT):在第一階段,模型通過(guò)模仿學(xué)習(xí)來(lái)掌握基本的導(dǎo)航能力。訓(xùn)練數(shù)據(jù)來(lái)自MetaUrban模擬器中的專家軌跡和從網(wǎng)絡(luò)視頻(Sekai數(shù)據(jù)集)中解析出的真實(shí)人類導(dǎo)航軌跡。
  • 強(qiáng)化學(xué)習(xí)微調(diào)(RFT):在第二階段,為了提升模型的安全性和對(duì)真實(shí)世界復(fù)雜性的適應(yīng)能力,作者使用一個(gè)“模擬+真實(shí)”的混合數(shù)據(jù)集,并采用離線強(qiáng)化學(xué)習(xí)算法——隱式Q學(xué)習(xí)(Implicit Q-Learning, IQL)對(duì)模型進(jìn)行微調(diào)。這使得模型能更好地處理障礙物、與行人互動(dòng)并遵守交通規(guī)則。
  1. 輸出:模型直接預(yù)測(cè)出一條安全的、可執(zhí)行的未來(lái)軌跡路點(diǎn),引導(dǎo)機(jī)器人沿著高級(jí)路線前進(jìn)。

所用技術(shù)點(diǎn)

  • 模型基礎(chǔ):Vision-Language-Action (VLA) 模型,基于預(yù)訓(xùn)練的NavFoM模型,并使用Qwen2作為L(zhǎng)LM骨干。
  • 視覺(jué)編碼器:使用DINOv2SigLIP兩個(gè)預(yù)訓(xùn)練的視覺(jué)編碼器來(lái)提取圖像特征。
  • 訓(xùn)練范式:結(jié)合了監(jiān)督微調(diào) (Supervised Fine-Tuning, SFT)離線強(qiáng)化學(xué)習(xí)微調(diào) (Offline Reinforcement Fine-Tuning, RFT)。
  • 核心算法

a.隱式Q學(xué)習(xí)(Implicit Q-Learning, IQL):一種高效的離線強(qiáng)化學(xué)習(xí)算法,用于在RFT階段從固定的專家數(shù)據(jù)中學(xué)習(xí),以提高策略的安全性和魯棒性,同時(shí)避免對(duì)分布外(OOD)動(dòng)作的過(guò)度估計(jì)。

b.啟發(fā)式軌跡提升 (Heuristic Trajectory Lifting, HTL):一種數(shù)據(jù)處理算法,通過(guò)去噪、檢測(cè)關(guān)鍵拐點(diǎn)、增加高斯噪聲和重新平滑等步驟,從精確的軌跡數(shù)據(jù)中生成更符合現(xiàn)實(shí)世界模糊性的高級(jí)路線指令。

  • 數(shù)據(jù)來(lái)源:訓(xùn)練數(shù)據(jù)結(jié)合了MetaUrban模擬器數(shù)據(jù)、Sekai網(wǎng)絡(luò)視頻導(dǎo)航數(shù)據(jù),以及真實(shí)世界中通過(guò)人類遙操作采集的數(shù)據(jù)。

達(dá)到的效果

UrbanVLA在模擬和真實(shí)世界測(cè)試中均取得了SOTA性能。

  • 模擬器性能:在MetaUrban的PointNav和SocialNav任務(wù)上,UrbanVLA的性能顯著優(yōu)于所有基線方法。例如,在PointNav任務(wù)的未見(jiàn)場(chǎng)景測(cè)試中,它的成功率(SR)達(dá)到了97%,比表現(xiàn)最好的基線模型高出37%。在更復(fù)雜的SocialNav任務(wù)中,它的社交導(dǎo)航分?jǐn)?shù)(SNS)達(dá)到了0.85,而所有基于LiDAR的基線模型都未能超過(guò)0.65,展示了其在遵守社交規(guī)范方面的強(qiáng)大能力。
  • 真實(shí)世界性能:在真實(shí)世界的部署中,UrbanVLA能夠在多樣的城市環(huán)境中完成超過(guò)500米的長(zhǎng)距離導(dǎo)航任務(wù),成功處理了過(guò)街天橋、行人互動(dòng)、街道轉(zhuǎn)彎和避障等復(fù)雜場(chǎng)景。消融實(shí)驗(yàn)證明,HTL算法對(duì)于模型在真實(shí)世界的泛化至關(guān)重要,而RFT階段則有效提升了模型在未見(jiàn)場(chǎng)景中的表現(xiàn)。

方法

A. 問(wèn)題定義

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

流程概覽。圖2展示了本方法的整體流程。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

利用一個(gè)預(yù)訓(xùn)練的導(dǎo)航基礎(chǔ)模型NavFoM作為我們的基礎(chǔ)模型,并采用一個(gè)通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)微調(diào)(RFT)組成的兩階段微調(diào)策略。具體來(lái)說(shuō),我們應(yīng)用一個(gè)提示模板(prompt template)將宏觀的“路書”指令編碼成語(yǔ)言形式 I。遵循現(xiàn)有的VLM方法,如[26], [41], [42],將 I 嵌入以獲得語(yǔ)言令牌(language tokens)E?,并使用預(yù)訓(xùn)練的視覺(jué)編碼器對(duì)視覺(jué)觀測(cè)O???進(jìn)行編碼以獲得視覺(jué)令牌(visual tokens)E?。然后,我們將E?和E?一同送入大型語(yǔ)言模型(LLM)骨干網(wǎng)絡(luò)。在SFT階段,遵循先前的工作,讓這個(gè)雙分支的VLA學(xué)習(xí)執(zhí)行兩種任務(wù):VideoQA和路由條件的導(dǎo)航。分別使用一個(gè)語(yǔ)言頭和一個(gè)動(dòng)作頭對(duì)生成的令牌進(jìn)行解碼,以獲取語(yǔ)言回答和導(dǎo)航軌跡。

在RFT階段,進(jìn)一步在一個(gè)結(jié)合了模擬和真實(shí)環(huán)境專家演示的混合數(shù)據(jù)集上對(duì)UrbanVLA進(jìn)行微調(diào)。本文采用隱式Q學(xué)習(xí)(IQL),一個(gè)被廣泛使用的離線強(qiáng)化學(xué)習(xí)算法,來(lái)有效利用這些有限的混合數(shù)據(jù),同時(shí)緩解分布外(OOD)樣本帶來(lái)的過(guò)高估計(jì)問(wèn)題。為了估計(jì)每個(gè)狀態(tài)-動(dòng)作對(duì)(s, a)的Q值和V值,將語(yǔ)言指令 I 和視覺(jué)觀測(cè) O??? 編碼成一個(gè)統(tǒng)一的狀態(tài)表示 s(使用精調(diào)后的LLM骨干網(wǎng)絡(luò)),并將生成的軌跡(重塑為一維向量)視為動(dòng)作 a。獎(jiǎng)勵(lì)函數(shù) r(s, a) 經(jīng)過(guò)精心設(shè)計(jì),同時(shí)考慮了軌跡效率和導(dǎo)航安全,以便在真實(shí)世界中高效收集數(shù)據(jù),并實(shí)現(xiàn)模擬與現(xiàn)實(shí)之間的一致性。

B. UrbanVLA 架構(gòu)

高層級(jí)路線編碼。城市導(dǎo)航任務(wù)中的高層級(jí)路線指令需要被轉(zhuǎn)換成一種VLA模型可解釋的形式,并且要與主流的城市導(dǎo)航工具的數(shù)據(jù)模式對(duì)齊,以便于大規(guī)模部署。因此,我們將路線指令轉(zhuǎn)換成一個(gè)包含兩個(gè)部分的結(jié)構(gòu)化語(yǔ)言表示。首先,一個(gè)從高層級(jí)路線中采樣的路點(diǎn)集合,為智能體提供了前方路徑的整體幾何形狀和方向。其次,距離和方向指令(例如,“在30米后右轉(zhuǎn)”)為智能體在路塊之間轉(zhuǎn)換提供了必要信息,這是成功進(jìn)行城市導(dǎo)航的關(guān)鍵場(chǎng)景。

具體來(lái)說(shuō),給定一個(gè)高層級(jí)的導(dǎo)航路線R,首先以d米的間距對(duì)前方D米范圍內(nèi)的路線軌跡進(jìn)行重采樣(使用D=40,d=2,得到20個(gè)路點(diǎn)),并將其轉(zhuǎn)換到機(jī)器人坐標(biāo)系中。隨后,在訓(xùn)練時(shí),本文應(yīng)用一個(gè)角點(diǎn)檢測(cè)算法將路線分割成不同的路塊,然后從這些路段中推導(dǎo)出路塊級(jí)別的距離和方向提示;而在真實(shí)世界場(chǎng)景中,這些信息可以直接從城市導(dǎo)航工具的API中獲取。最后,將上述信息格式化成一個(gè)指令模板,以獲得導(dǎo)航指令 I。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

而對(duì)于VideoQA任務(wù),模型會(huì)自回歸地生成一組語(yǔ)言令牌,然后通過(guò)語(yǔ)言模型頭進(jìn)行解碼,如圖2所示。 您是對(duì)的!非常抱歉,我的疏忽導(dǎo)致方法部分的 C 和 D 小節(jié)被遺漏了。這是一個(gè)嚴(yán)重的錯(cuò)誤,感謝您的指正。

我現(xiàn)在為您補(bǔ)上這部分內(nèi)容的完整、詳細(xì)的翻譯。

C. 訓(xùn)練策略

監(jiān)督微調(diào) (Supervised Fine-tuning) 。首先對(duì)基礎(chǔ)模型NavFoM應(yīng)用監(jiān)督微調(diào)(SFT)。在此階段,模型從兩方面學(xué)習(xí):一是在模擬器中由一個(gè)PPO專家生成的城市導(dǎo)航演示,二是捕捉真實(shí)世界中人類導(dǎo)航行為的網(wǎng)絡(luò)規(guī)模城市出行數(shù)據(jù)。SFT階段旨在為模型注入基礎(chǔ)的目標(biāo)抵達(dá)能力,同時(shí)讓模型接觸到城市導(dǎo)航任務(wù)的多樣性和復(fù)雜性,從而增強(qiáng)其向真實(shí)世界場(chǎng)景的泛化能力。

利用這類演示數(shù)據(jù)的一個(gè)關(guān)鍵挑戰(zhàn)在于,導(dǎo)航“路書”無(wú)法直接獲得。真實(shí)世界的演示通常只提供真值軌跡,而模擬器通常提供由ORCA等全局規(guī)劃器生成的完美路線信息。如果直接使用這種理想化的路線作為條件,可能會(huì)導(dǎo)致模型對(duì)輸入軌跡產(chǎn)生過(guò)擬合,從而損害其在真實(shí)世界場(chǎng)景中的泛化能力。

為了解決這個(gè)問(wèn)題,引入了啟發(fā)式軌跡提升 (Heuristic Trajectory Lifting, HTL) ,這是一種啟發(fā)式算法,它能從城市導(dǎo)航數(shù)據(jù)的原始軌跡中“提升”出高層級(jí)的路線信息,從而鼓勵(lì)模型從視覺(jué)線索中學(xué)習(xí),而不是僅僅依賴于理想化的路線輸入。原始軌跡會(huì)首先被預(yù)處理:我們使用Savitzky-Golay濾波器對(duì)網(wǎng)絡(luò)視頻軌跡進(jìn)行去噪,而ORCA生成的軌跡則直接使用。接著,移除自相交或其他低質(zhì)量的路徑。然后,檢測(cè)出重要的拐點(diǎn)以形成粗略的路點(diǎn),并據(jù)此將軌跡分割成段。為了捕捉真實(shí)世界導(dǎo)航的模糊性,每個(gè)路段都會(huì)被施加高斯位置噪聲,這反映了高層級(jí)指令(例如,“直行”)實(shí)際上對(duì)應(yīng)的是一個(gè)可行的路徑走廊,而非單條精確曲線。最后,這些帶噪聲的路段會(huì)被平滑地合并,并以固定的空間步長(zhǎng)重新采樣,最終得到抽象化后的路線 R。

這個(gè)流程使我們能夠從模擬和真實(shí)世界兩種來(lái)源生成一個(gè)大規(guī)模的(高層級(jí)路線,視覺(jué)觀測(cè),軌跡真值)元組數(shù)據(jù)集,為我們的導(dǎo)航策略的監(jiān)督微調(diào)提供了堅(jiān)實(shí)的基礎(chǔ)。我們隨后使用這個(gè)數(shù)據(jù)集,通過(guò)一個(gè)均方誤差(MSE)損失函數(shù)來(lái)優(yōu)化模型。

強(qiáng)化學(xué)習(xí)微調(diào) (Reinforcement Fine-tuning) 。在SFT所獲得能力的基礎(chǔ)上,UrbanVLA在路線跟隨、目標(biāo)抵達(dá)以及在多樣的城市環(huán)境(如交叉路口、轉(zhuǎn)彎和不同街道布局)中導(dǎo)航已表現(xiàn)出強(qiáng)大的性能。為了進(jìn)一步提升其技能,特別是在碰撞規(guī)避和處理模糊線索方面,采用了一種基于隱式Q學(xué)習(xí)(IQL)的離線強(qiáng)化學(xué)習(xí)方法,該方法非常適合處理離線數(shù)據(jù),并能有效緩解分布外(out-of-distribution)行為引發(fā)的問(wèn)題。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

獎(jiǎng)勵(lì)函數(shù) r(s, a) 的設(shè)計(jì)考慮了幾個(gè)關(guān)鍵因素。首先,它的組成部分應(yīng)該易于獲取,以便在人類專家遙操作期間高效收集數(shù)據(jù),而無(wú)需大量后處理。其次,獎(jiǎng)勵(lì)函數(shù)應(yīng)同時(shí)適用于模擬和真實(shí)世界環(huán)境,提供一個(gè)統(tǒng)一的學(xué)習(xí)目標(biāo)以對(duì)齊模擬與現(xiàn)實(shí),從而提高數(shù)據(jù)效率。將其定義為:

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

基于此設(shè)計(jì),收集了一個(gè)“模擬-真實(shí)”混合聚合數(shù)據(jù)集,其中包含在MetaUrban模擬器中使用PPO專家收集的2,400個(gè)片段(約40小時(shí)),以及約8小時(shí)通過(guò)人類遙操作收集的真實(shí)世界演示。大規(guī)模的模擬數(shù)據(jù)有助于Qθ(s, a)和Vψ(s)網(wǎng)絡(luò)的快速收斂,而人類遙操作數(shù)據(jù)則確保模型能學(xué)習(xí)適應(yīng)復(fù)雜的真實(shí)世界場(chǎng)景??偠灾琑FT階段旨在高效利用人類遙操作數(shù)據(jù),使模型能夠識(shí)別真實(shí)世界部署中的邊緣案例,并通過(guò)綜合考慮路線信息和視覺(jué)信息來(lái)做出導(dǎo)航?jīng)Q策。

實(shí)現(xiàn)細(xì)節(jié) (Implementation Details)

模型在一個(gè)配備了8塊NVIDIA H100 GPU的集群服務(wù)器上進(jìn)行訓(xùn)練,總共耗時(shí)約12小時(shí),即96個(gè)GPU小時(shí)。VideoQA數(shù)據(jù)集是從LongVU和Sekai中收集的。與導(dǎo)航任務(wù)中引入的滑動(dòng)窗口機(jī)制不同,在處理VideoQA任務(wù)時(shí),會(huì)保留所有視覺(jué)幀并輸入模型。使用交叉熵?fù)p失來(lái)監(jiān)督其結(jié)果。

對(duì)于提到的角點(diǎn)檢測(cè)算法,具體采用了一種基于窗口的檢測(cè)算法:對(duì)每個(gè)點(diǎn),我們計(jì)算由其鄰近k個(gè)點(diǎn)構(gòu)成的向量之間的轉(zhuǎn)角。轉(zhuǎn)角超過(guò)閾值的點(diǎn)被標(biāo)記為候選點(diǎn)。隨后的候選點(diǎn)通過(guò)取中點(diǎn)進(jìn)行合并,并通過(guò)一個(gè)貪婪選擇步驟強(qiáng)制實(shí)施最小弧長(zhǎng)間距,以移除冗余的角點(diǎn)。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)部分從模擬器測(cè)試真實(shí)世界測(cè)試兩個(gè)維度全面評(píng)估了UrbanVLA的性能,并進(jìn)行了詳盡的消融研究

  1. 實(shí)驗(yàn)設(shè)置
  • 模擬器:使用MetaUrban平臺(tái),在PointNav(點(diǎn)導(dǎo)航)和SocialNav(社交導(dǎo)航)兩個(gè)基準(zhǔn)任務(wù)上進(jìn)行測(cè)試。模型在一個(gè)子集上訓(xùn)練,在包含1000個(gè)場(chǎng)景的測(cè)試集和100個(gè)未見(jiàn)場(chǎng)景的測(cè)試集上進(jìn)行評(píng)估。為了公平比較,模型的動(dòng)作空間(軌跡規(guī)劃)被設(shè)定為與基線方法一致的單步最大移動(dòng)距離。
  • 真實(shí)世界:使用一臺(tái)Unitree Go2四足機(jī)器人,配備四個(gè)攝像頭、GPS和5G通信模塊。模型部署在遠(yuǎn)程服務(wù)器上,通過(guò)網(wǎng)絡(luò)與機(jī)器人通信。實(shí)驗(yàn)場(chǎng)景覆蓋了城市中的多種復(fù)雜環(huán)境,如過(guò)街天橋、人行橫道和有動(dòng)態(tài)障礙物的區(qū)域。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

圖 3:UrbanVLA 的實(shí)際部署。本系統(tǒng)包括一個(gè)配備 GPS、Wi-Fi、攝像頭和機(jī)載計(jì)算單元的四足機(jī)器人,以及一個(gè)可移動(dòng)部署的控制臺(tái),用于實(shí)時(shí)監(jiān)控、發(fā)送導(dǎo)航目標(biāo)、可視化地圖和模型預(yù)測(cè),以及注釋用于強(qiáng)化學(xué)習(xí)的遠(yuǎn)程操作數(shù)據(jù)。

  1. 定量實(shí)驗(yàn)(模擬器)
  • 表1所示,UrbanVLA在PointNav和SocialNav任務(wù)上全面超越了所有基于LiDAR的基線方法(包括PPO、IQL、BC等)。
  • PointNav任務(wù)中,UrbanVLA在測(cè)試集和未見(jiàn)場(chǎng)景集上的成功率(SR)分別達(dá)到了94%和97%,路徑效率(SPL)也相應(yīng)達(dá)到了0.91和0.95,展現(xiàn)了極強(qiáng)的泛化能力和高效的路徑規(guī)劃能力。
  • 在更具挑戰(zhàn)性的SocialNav任務(wù)中,UrbanVLA的社交導(dǎo)航分?jǐn)?shù)(SNS)在測(cè)試集和未見(jiàn)場(chǎng)景集上分別達(dá)到了0.87和0.85,遠(yuǎn)高于所有基線。這表明模型不僅能有效避障,還能遵守社交規(guī)范(如與行人保持距離)。
  • 雖然模型的累積成本(Cost)相對(duì)較高,但考慮到其極高的成功率(意味著行駛距離更長(zhǎng),遇到障礙的概率更高),這個(gè)結(jié)果是合理的。這也反映了僅用RGB輸入來(lái)避障比用LiDAR更具挑戰(zhàn)性。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

  1. 定性實(shí)驗(yàn)(真實(shí)世界)
  • 圖一圖四展示了模型在真實(shí)世界中的表現(xiàn)。UrbanVLA成功完成了超過(guò)500米的長(zhǎng)距離導(dǎo)航,能夠穩(wěn)定地跟隨指定路線,并適應(yīng)光照、天氣甚至夜間條件的變化。
  • 實(shí)驗(yàn)結(jié)果表明,模型能有效地將高層級(jí)的導(dǎo)航指令與視覺(jué)觀察對(duì)齊,從而在交叉路口正確轉(zhuǎn)彎、成功通過(guò)天橋,并適應(yīng)不同的道路結(jié)構(gòu)。同時(shí),它還能避開(kāi)靜態(tài)和動(dòng)態(tài)的障礙物,與行人保持合理距離。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

  1. **消融研究 **:
  • HTL算法的有效性表二對(duì)比了使用和不使用HTL算法的效果。在模擬器中,去掉HTL會(huì)使性能略微提升,因?yàn)槟M器中的路線是完美的。但在真實(shí)世界中,去掉HTL導(dǎo)致路線完成率(RC)從100%驟降至42%。這是因?yàn)闆](méi)有HTL的模型會(huì)過(guò)擬合于精確的路線指令,當(dāng)真實(shí)世界的GPS信號(hào)出現(xiàn)偏差時(shí),模型會(huì)固執(zhí)地嘗試到達(dá)錯(cuò)誤的地點(diǎn),導(dǎo)致碰撞失敗。這證明了HTL對(duì)于提升模型在真實(shí)世界中的魯棒性至關(guān)重要。
  • 強(qiáng)化學(xué)習(xí)的有效性表三對(duì)比了僅使用SFT和結(jié)合SFT+RFT兩個(gè)階段訓(xùn)練的效果。結(jié)果顯示,經(jīng)過(guò)RFT階段后,模型在測(cè)試集和未見(jiàn)場(chǎng)景集上的性能都得到了穩(wěn)定提升,尤其是在未見(jiàn)場(chǎng)景中,成功率提升了6%,成本降低了0.16。這說(shuō)明RFT,特別是引入了真實(shí)世界遙操作數(shù)據(jù)后,顯著增強(qiáng)了模型的泛化能力。

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

北大&銀河通用發(fā)布UrbanVLA:首個(gè)城市微出行VLA模型,讓它像老司機(jī)一樣認(rèn)路、避障-AI.x社區(qū)

結(jié)論

UrbanVLA:路由條件視覺(jué)-語(yǔ)言-動(dòng)作框架,專為城市微出行設(shè)計(jì)。該框架將導(dǎo)航工具的輸出與車載視覺(jué)相結(jié)合,以實(shí)現(xiàn)可擴(kuò)展且可靠的長(zhǎng)距離導(dǎo)航。該模型通過(guò)在模擬和網(wǎng)絡(luò)視頻解析的軌跡上進(jìn)行監(jiān)督微調(diào)(SFT)進(jìn)行訓(xùn)練,隨后利用一個(gè)“模擬-真實(shí)”混合聚合數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)(RFT),以增強(qiáng)其安全性和適應(yīng)性。本方法不僅改善了避障能力和社交合規(guī)性,還為在動(dòng)態(tài)行人環(huán)境中部署具身智能體建立了一個(gè)實(shí)用的框架。未來(lái)的工作將探索更廣泛的多模態(tài)線索,并進(jìn)一步提高模型對(duì)多樣化城市環(huán)境的適應(yīng)能力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/mKMHxzeZpBhbIV49PIEuhg??

已于2025-10-29 10:44:50修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄