用于城市空間的具身人工智能仿真平臺(tái)：MetaUrban

作者：具身智能之心 2024-08-09 09:10:33

今天為大家分享UCLA出品的用于城市空間的具身智能仿真平臺(tái)MetaUrban！

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

公共城市空間的街道和廣場(chǎng)可以為居住在城市中的市民提供各種各樣的便捷服務(wù)從而適應(yīng)如今豐富多彩的社會(huì)生活。各大城市中的公共空間具有非常不同且廣泛的類型、形式和空間大小，包括街道、廣場(chǎng)以及公園等各個(gè)區(qū)域。此外，它們也是日常交通和運(yùn)輸離不開的重要空間。這些重要的城市空間不僅為我們?nèi)祟惾粘Ｅe辦各種社會(huì)活動(dòng)提供了機(jī)會(huì)，同時(shí)也為市民其提供各式各樣的休閑娛樂活動(dòng)。

近年來(lái)，隨著機(jī)器人技術(shù)和具身人工智能技術(shù)的快速發(fā)展使得城市當(dāng)中的公共區(qū)域空間不再是我們?nèi)祟愃?dú)有的區(qū)域。比如：移動(dòng)送餐機(jī)器人和電動(dòng)輪椅已經(jīng)開始與行人共享人行道、各種各樣的機(jī)器狗和人形機(jī)器人最近也開始在街道上陸續(xù)出現(xiàn)，如下圖所示。此外各種移動(dòng)腿式機(jī)器人，如波士頓動(dòng)力公司的機(jī)器狗和特斯拉的人形機(jī)器人也即將問世。所以在不久的將來(lái)極大概率將會(huì)出現(xiàn)未來(lái)的城市公共空間將由人類和具身人工智能的移動(dòng)機(jī)器共享和共同居住的場(chǎng)景。所以，如果想要在城市空間的繁華街道上進(jìn)行導(dǎo)航，一個(gè)至關(guān)重要的問題就是需要確保這些即將到來(lái)的移動(dòng)機(jī)器的通用性和安全性。

仿真平臺(tái)在實(shí)現(xiàn)具身人工智能的系統(tǒng)性和可擴(kuò)展性訓(xùn)練以及在實(shí)際部署之前的安全評(píng)估方面發(fā)揮了至關(guān)重要的作用。然而，現(xiàn)有的大多數(shù)仿真模擬器主要聚焦于室內(nèi)家庭環(huán)境或者室外的駕駛環(huán)境。然而，對(duì)于具有多樣化布局和物體、行人變化動(dòng)態(tài)復(fù)雜的城市空間的模擬探索較少。

基于上述提到的相關(guān)問題，本文提出了一個(gè)可以用于城市中的空間具身人工智能研究的組合模擬平臺(tái)，稱之為MetaUrban。此外，我們基于設(shè)計(jì)的MetaUrban仿真平臺(tái)構(gòu)建了一個(gè)大型的數(shù)據(jù)集MetaUrban-12K，該數(shù)據(jù)集包含了12800個(gè)訓(xùn)練場(chǎng)景以及1000個(gè)測(cè)試場(chǎng)景。同時(shí)，我們進(jìn)一步創(chuàng)建了一個(gè)包含100個(gè)手工設(shè)計(jì)的從未見過的場(chǎng)景作為測(cè)試集來(lái)評(píng)估我們算法模型的泛化性。相關(guān)的實(shí)驗(yàn)結(jié)果表明，通過模擬環(huán)境的組合特性可以顯著提高訓(xùn)練好的移動(dòng)具身人工智能的通用性和安全性。

論文鏈接：https://arxiv.org/abs/2407.08725

網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理

MetaUrban作為一個(gè)可以為具身人工智能在城市空間中生成無(wú)限訓(xùn)練和評(píng)估環(huán)境的模擬平臺(tái)，在詳細(xì)介紹其內(nèi)部的各個(gè)技術(shù)實(shí)現(xiàn)細(xì)節(jié)之前，下圖展示了MetaUrban模擬平臺(tái)整體的生成流程。

MetaUrban模擬平臺(tái)整體的生成流程

通過上圖可以看出，MetaUrban可以根據(jù)提供的街區(qū)、道路以及人行道，從街區(qū)地圖開始，通過劃分不同的功能區(qū)規(guī)劃地面布局，然后放置靜態(tài)物體，最后填充動(dòng)態(tài)智能體。此外，MetaUrban模擬器通過提出的三個(gè)關(guān)鍵核心設(shè)計(jì)來(lái)支持展示三種獨(dú)特的都市空間特性。

Hierarchical Layout Generation：層級(jí)布局生成設(shè)計(jì)可以無(wú)限的生成具有不同功能區(qū)劃分和物體位置的多樣性布局，這對(duì)于智能體的泛化性至關(guān)重要
Scalable Object Retrieval：可擴(kuò)展的目標(biāo)檢索利用全球城市場(chǎng)景數(shù)據(jù)來(lái)獲取不同地方的真實(shí)世界對(duì)象分布，然后使用支持VLM的開放詞匯搜索構(gòu)建大規(guī)模、高質(zhì)量的靜態(tài)對(duì)象集。這對(duì)于專門針對(duì)城市場(chǎng)景的訓(xùn)練智能體有很大的幫助
Cohabitant Populating：通過采用數(shù)字人來(lái)豐富行人和弱勢(shì)道路使用者的外觀、運(yùn)動(dòng)和軌跡，并整合其他智能體以形成生動(dòng)的共存環(huán)境。這對(duì)于提高移動(dòng)智能體的社會(huì)一致性和安全性至關(guān)重要

Hierarchical Layout Generation

由于考慮到場(chǎng)景布局的多樣性，比如街區(qū)的連接和類別、人行道和人行橫道的規(guī)格以及物體的放置，對(duì)于增強(qiáng)經(jīng)過訓(xùn)練的智能體在公共空間中機(jī)動(dòng)的泛化性至關(guān)重要。因此，我們?cè)趯蛹?jí)布局生成的設(shè)計(jì)當(dāng)中，首先對(duì)街區(qū)類別進(jìn)行采樣并劃分人行道和人行橫道，然后分配各種物體，這樣我們就可以得到具有任意大小和地圖規(guī)格的無(wú)限城市場(chǎng)景布局。

如下圖所示，我們一共設(shè)計(jì)了5種街區(qū)種類，分別是直路、交叉路口、環(huán)形交叉路口、環(huán)形交叉路口和T型路口。

如上圖中的左圖所示，我們將人行道劃分為四個(gè)功能區(qū)建筑，分別是建筑區(qū)、臨街區(qū)、空地區(qū)和裝飾區(qū)。根據(jù)不同的功能區(qū)組合，我們進(jìn)一步構(gòu)建了7個(gè)典型的人行道模板（如上圖的右側(cè)所示）。如果想要形成一條人行道，我們可以先從模板中采樣布局，然后為不同的功能區(qū)分配比例。對(duì)于人行橫道而言，我們可以在每條道路的起止處提供候選，支持指定所需的人行橫道或通過密度參數(shù)對(duì)其進(jìn)行采樣。最后，道路、人行道和人行橫道可以以地形圖為基底，形成不同的地面情況。

在確定好地面上的整體布局之后，我們可以在地面上放置不同的物體。在本文中，我們將物體分為三種類別

標(biāo)準(zhǔn)基礎(chǔ)設(shè)施：標(biāo)準(zhǔn)的基礎(chǔ)設(shè)施可以包括電線桿、樹木和標(biāo)志和定期沿道路放置的物品
非標(biāo)準(zhǔn)基礎(chǔ)設(shè)施：非標(biāo)準(zhǔn)的基礎(chǔ)設(shè)施可以包括建筑物、盆景和垃圾箱，隨機(jī)放置在指定的功能區(qū)
雜物：雜物可以包括飲料罐、袋子和自行車，隨機(jī)放置在所有功能區(qū)

根據(jù)上述的相關(guān)劃分，我們可以通過指定對(duì)象池來(lái)獲得不同的街道風(fēng)格，同時(shí)通過指定密度參數(shù)來(lái)獲得不同的緊湊度。下圖展示了使用采樣的地面平面圖和對(duì)象位置放置的不同物體。

Scalable Object Retrieval

雖然層級(jí)布局生成的設(shè)計(jì)決定了場(chǎng)景的布局以及放置物體的擺放位置。但是，為了使訓(xùn)練后的智能體能夠在由各種物體組成的現(xiàn)實(shí)世界中導(dǎo)航時(shí)具有通用性，放置什么物體同樣至關(guān)重要。因此，我們首先從網(wǎng)絡(luò)數(shù)據(jù)中獲取真實(shí)世界的對(duì)象分布，然后通過基于VLM的開放詞匯搜索模式從3D存儲(chǔ)庫(kù)中檢索目標(biāo)。整個(gè)流程靈活且可擴(kuò)展：隨著我們繼續(xù)利用更多網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行場(chǎng)景描述并將更多3D資產(chǎn)作為候選對(duì)象，檢索到的對(duì)象可以縮放到任意大小。

由于城市空間具有獨(dú)特的結(jié)構(gòu)和物體分布，因此，我們?cè)O(shè)計(jì)了一種真實(shí)世界分布提取方法來(lái)獲得一個(gè)描述城市空間中頻繁出現(xiàn)的物體的描述池，如下圖所示。

圖片

具體而言，我們首先利用現(xiàn)成的學(xué)術(shù)數(shù)據(jù)集CityScape以及Mapillary Vistas進(jìn)行場(chǎng)景理解，以獲得90個(gè)在城市空間中出現(xiàn)頻率較高的物體列表。然而，由于上述數(shù)據(jù)集都是閉集，目標(biāo)的種類數(shù)量是有限的。我們引入了兩個(gè)開集數(shù)據(jù)集Google Street以及Urban planning description，用于實(shí)現(xiàn)從現(xiàn)實(shí)世界中獲得更廣泛的物體分布。最后，通過結(jié)合上述提到的數(shù)據(jù)集，我們可以構(gòu)建現(xiàn)實(shí)世界的目標(biāo)類別分布。

為了解決當(dāng)前的大型3D存儲(chǔ)庫(kù)中存在的數(shù)據(jù)質(zhì)量參差不齊、缺少可靠的屬性注釋以及大部分?jǐn)?shù)據(jù)與城市場(chǎng)景無(wú)關(guān)的問題，我們引入了一種開放詞匯搜索方法來(lái)解決這些問題，如上圖中的右側(cè)子圖所示。具體而言，我們首先從Objaverse以及Objaverse-XL中得到目標(biāo)投影后的多視圖圖像，然后，我們利用視覺語(yǔ)言模型的編碼器分別從投影圖像和對(duì)象描述池中的采樣描述中提取特征，以計(jì)算相關(guān)分?jǐn)?shù)。然后，我們可以獲得相關(guān)分?jǐn)?shù)達(dá)到閾值的目標(biāo)對(duì)象。這種方法讓我們獲得了一個(gè)城市特定的數(shù)據(jù)集，其中包含10000個(gè)現(xiàn)實(shí)世界類別分布中的高質(zhì)量對(duì)象。

Cohabitant Populating

接下來(lái)，我們將要介紹如何通過具有不同外觀、運(yùn)動(dòng)和軌跡的智能體填充這些靜態(tài)城市場(chǎng)景。我們?cè)谔岢龅腗etaUrban模擬器中提供了兩種人體動(dòng)作，分別是日常動(dòng)作和獨(dú)特動(dòng)作。其中，日常動(dòng)作提供了日常生活中的基本人體動(dòng)態(tài)，即直立、行走和跑步。獨(dú)特動(dòng)作是在公共空間中隨機(jī)出現(xiàn)的復(fù)雜動(dòng)態(tài)，例如跳舞和鍛煉。對(duì)于人類和其他有日?；顒?dòng)的智能體，我們利用ORCA模型以及PR算法來(lái)仿真他們的軌跡。

MetaUrban-12K數(shù)據(jù)集

基于我們提出的MetaUrban模擬器我們構(gòu)建了MetaUrban-12K的數(shù)據(jù)集，其中包括了12800個(gè)用于訓(xùn)練的交互式城市場(chǎng)景MetaUrban-train以及1000個(gè)用于測(cè)試的場(chǎng)景MetaUrban-test，下圖展示了我們提出的MetaUrban-12K數(shù)據(jù)集中的一些信息統(tǒng)計(jì)。具體關(guān)于該數(shù)據(jù)集的相關(guān)詳細(xì)信息可以參考論文原文。

實(shí)驗(yàn)部分

定量實(shí)驗(yàn)部分

在實(shí)驗(yàn)環(huán)節(jié)中，我們?cè)O(shè)計(jì)了城市場(chǎng)景中的兩個(gè)常見任務(wù)來(lái)驗(yàn)證我們提出的MetaUrban模擬器，分別是點(diǎn)導(dǎo)航以及交互式導(dǎo)航任務(wù)。具體而言，在點(diǎn)導(dǎo)航任務(wù)當(dāng)中，智能體的目標(biāo)是在靜態(tài)環(huán)境中導(dǎo)航到目標(biāo)坐標(biāo)，而無(wú)需訪問預(yù)構(gòu)建的環(huán)境地圖。在社交導(dǎo)航任務(wù)中，智能體需要在包含移動(dòng)智能體的動(dòng)態(tài)環(huán)境中到達(dá)點(diǎn)目標(biāo)。

在所有任務(wù)當(dāng)中，智能體應(yīng)該避免與其它環(huán)境中的智能體發(fā)生碰撞或者超出一定的閾值，實(shí)驗(yàn)中的智能體行動(dòng)包括加速、減速以及轉(zhuǎn)向。下表展示了點(diǎn)導(dǎo)航以及交互式導(dǎo)航的Benchmark。

通過上表的相關(guān)實(shí)驗(yàn)結(jié)果可以得出一些結(jié)論

PointNav以及SocialNav任務(wù)還未得到很好的解決，基線實(shí)現(xiàn)的PointNav和SocialNav任務(wù)的最高成功率僅為66%和36%，這表明在MetaUrban組成的城市環(huán)境中完成這些任務(wù)非常困難。
在MetaUrban-12K數(shù)據(jù)集上訓(xùn)練的模型在未見過的環(huán)境中具有很強(qiáng)的泛化能力。在零樣本測(cè)試的情況下，模型在PointNav和 SocialNav任務(wù)中仍可實(shí)現(xiàn)平均41%和26%的成功率。由于訓(xùn)練好的模型不僅可以泛化到未見過的物體和布局，還可以泛化到未見過的智能體，因此具有很好的表現(xiàn)性能。同時(shí)相關(guān)的實(shí)驗(yàn)結(jié)果也進(jìn)一步的證明了，MetaUrban的組合特性支持覆蓋大量復(fù)雜的城市場(chǎng)景，可以成功地增強(qiáng)訓(xùn)練模型的泛化能力
由于移動(dòng)環(huán)境智能體的動(dòng)態(tài)特性，SocialNav任務(wù)比PointNav任務(wù)更有難度。平均而言，從PointNav任務(wù)到SocialNav任務(wù)，成功率下降了15%，這表明動(dòng)態(tài)智能體對(duì)訓(xùn)練好的智能體提出了重大挑戰(zhàn)
在所有任務(wù)和設(shè)置當(dāng)中，Safe RL模型取得了最佳表現(xiàn)，表明這些模型能夠成功避免與行人和物體發(fā)生碰撞。然而，成功率會(huì)相應(yīng)降低，這表明需要平衡復(fù)雜城市場(chǎng)景中智能體的安全性和有效性。

此外，為了評(píng)估使用MetaUrban生成的數(shù)據(jù)訓(xùn)練的智能體的泛化能力，我們比較了四種設(shè)置的成功率，相關(guān)結(jié)果匯總在下圖的子圖(a)中。設(shè)置1和設(shè)置2分別是在MetaUrban-train數(shù)據(jù)集上進(jìn)行訓(xùn)練，在MetaUrban-test測(cè)試集和MetaUrban-unseen數(shù)據(jù)集上進(jìn)行測(cè)試的結(jié)果。設(shè)置3和設(shè)置4是在MetaUrban-finetune上直接訓(xùn)練的結(jié)果，并在MetaUrban-finetune上對(duì)MetaUrban-train上的預(yù)訓(xùn)練模型進(jìn)行微調(diào)的實(shí)驗(yàn)結(jié)果。

我們?yōu)榱嗽u(píng)估MetaUrban組合架構(gòu)的擴(kuò)展能力，我們?cè)诓煌瑪?shù)量的生成場(chǎng)景上訓(xùn)練模型，如下圖的子圖(b)所示，隨著我們加入更多場(chǎng)景進(jìn)行訓(xùn)練，性能從12%顯著提高到46%，證明了MetaUrban強(qiáng)大的擴(kuò)展能力。

下圖中的子圖(c)和(d)展示了我們?yōu)榱嗽u(píng)估靜態(tài)物體密度和動(dòng)態(tài)環(huán)境智能體的影響，我們分別評(píng)估了它們?cè)赑ointNav和 SocialNav任務(wù)中的不同比例，通過實(shí)驗(yàn)結(jié)果可以看出，隨著靜態(tài)物體和動(dòng)態(tài)智能體的密度增加，訓(xùn)練和測(cè)試的成功率都會(huì)急劇下降，這表明智能體在面對(duì)城市場(chǎng)景中擁擠的街道時(shí)面臨挑戰(zhàn)。

定性實(shí)驗(yàn)部分

下圖展示了我們提出的MetaUrban模擬器一些生成結(jié)果的可視化，詳細(xì)的介紹請(qǐng)參考我們論文中的附錄部分。

我們?cè)O(shè)計(jì)了五種典型的街道街區(qū)類別，分別是直路、彎道、交叉路口、T 型路口和環(huán)形交叉路口，可視化結(jié)果如下圖所示

生成的靜態(tài)場(chǎng)景下的可視化樣例，對(duì)于每一行我們選擇了四個(gè)視角來(lái)進(jìn)行可視化

生成的動(dòng)態(tài)場(chǎng)景下的可視化樣例

結(jié)論

在本文中，我們提出了一種新穎的組合模擬器MetaUrban用于促進(jìn)城市場(chǎng)景中的具身人工智能和機(jī)器人研究相關(guān)方向的研究。提出的MetaUrban模擬器可以生成具有復(fù)雜場(chǎng)景結(jié)構(gòu)和行人及其他移動(dòng)智能體多樣化運(yùn)動(dòng)的無(wú)限城市環(huán)環(huán)境，希望本文提出的方法可以促進(jìn)開源模擬器社區(qū)的進(jìn)一步發(fā)展。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心