具身智能的視覺-語言-動作模型:綜述
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
24年5月論文“A Survey on Vision-Language-Action Models for Embodied AI”。
深度學(xué)習(xí)已在計(jì)算機(jī)視覺、自然語言處理和強(qiáng)化學(xué)習(xí)等許多領(lǐng)域取得了顯著的成功。這些領(lǐng)域的代表性人工神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)、Transformers 和深度 Q-網(wǎng)絡(luò)。在單模態(tài)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了許多多模態(tài)模型來解決一系列任務(wù),例如視覺問答、圖像字幕和語音識別。具身智能中指令跟隨機(jī)器人策略的興起,推動了一種多模態(tài)模型的發(fā)展,即視覺-語言-動作模型 (VLA)。這種多模態(tài)能力已成為機(jī)器人學(xué)習(xí)的基礎(chǔ)要素。人們提出了各種方法來增強(qiáng)多功能性、靈活性和通用性等特性。一些模型專注于通過預(yù)訓(xùn)練來改進(jìn)特定組件。其他模型則旨在開發(fā)善于預(yù)測低級動作的控制策略。某些 VLA 充當(dāng)高級任務(wù)規(guī)劃器,能夠?qū)㈤L期任務(wù)分解為可執(zhí)行的子任務(wù)。過去幾年,大量 VLA 應(yīng)運(yùn)而生,體現(xiàn)了具身智能的快速發(fā)展。
視覺-語言-動作模型(VLA)代表一類旨在處理多模態(tài)輸入的模型,結(jié)合視覺、語言和動作模態(tài)的信息。該術(shù)語最近由RT-2 [36]提出。VLA模型被開發(fā)用于解決具身智能中的指令跟隨任務(wù)。與以ChatGPT [62]為代表的聊天AI不同,具身智能需要控制物理實(shí)體并與環(huán)境交互。機(jī)器人是具身智能最突出的領(lǐng)域。在語言為條件的機(jī)器人任務(wù)中,策略必須具備理解語言指令、視覺感知環(huán)境并生成適當(dāng)動作的能力,這就需要VLA的多模態(tài)能力。相比于早期的深度強(qiáng)化學(xué)習(xí)方法,基于VLA的策略在復(fù)雜環(huán)境中表現(xiàn)出更優(yōu)越的多樣性、靈活性和泛化性。這使得VLA不僅適用于像工廠這樣的受控環(huán)境,還適用于日常生活任務(wù) [33]。
基于預(yù)訓(xùn)練的視覺基礎(chǔ)模型、大語言模型(LLMs)和視覺-語言模型(VLMs)的成功,視覺-語言-動作模型已經(jīng)證明其在應(yīng)對這些挑戰(zhàn)方面的能力。來自最新視覺編碼器的預(yù)訓(xùn)練視覺表征,幫助VLA在感知復(fù)雜環(huán)境時(shí)提供更精確的估計(jì),如目標(biāo)類別、姿態(tài)和幾何形狀。隨著語言模型 [36], [69]能力的增強(qiáng),基于語言指令的任務(wù)規(guī)范成為可能?;A(chǔ)VLMs探索了將視覺模型和語言模型整合的多種方式,包括BLIP-2 [72], Flamingo [70]等。這些不同領(lǐng)域的創(chuàng)新賦予了VLA解決具身智能挑戰(zhàn)的能力。
如圖是VLA 模型的分類。“? 目標(biāo)-狀態(tài)指導(dǎo)”控制策略與 VLA 密切相關(guān),但不能嚴(yán)格定義為 VLA,因?yàn)樗鼈儾淮龠M(jìn)語言方式的輸入。

如圖以簡要的時(shí)間線追溯從單模態(tài)模型到多模態(tài)模型的演變,為 VLA 模型的引入奠定了基礎(chǔ)。計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵進(jìn)步(藍(lán)色)包括 ResNet [85]、ViT [86] 和 SAM [87]。自然語言處理領(lǐng)域的開創(chuàng)性工作(橙色)包括 GRU [88]、Transformer [66]、BERT [89]、ChatGPT [62] 等。強(qiáng)化學(xué)習(xí)(綠色)中,DQN [90]、AlphaGo [91]、PPO [92]、Dactyl [93] 和 DT [94] 做出了顯著貢獻(xiàn)。視覺語言模型已成為多模態(tài)模型的重要類別,例如 ViLBERT [95]、CLIP [1] 和 LLaVA [96]。VLA 的三個(gè)主要方向是:預(yù)訓(xùn)練、控制策略和任務(wù)規(guī)劃器。

視覺-語言-動作模型 (VLA) 是處理視覺和語言的多模態(tài)輸入并輸出機(jī)器人動作以完成具身任務(wù)的模型。它們是具身智能領(lǐng)域在機(jī)器人策略指令跟隨的基石。這些模型依賴于強(qiáng)大的視覺編碼器、語言編碼器和動作解碼器。它們需要強(qiáng)大的視覺編碼器、語言編碼器和動作解碼器。為了提高各種機(jī)器人任務(wù)的性能,一些 VLA 優(yōu)先獲取優(yōu)質(zhì)的預(yù)訓(xùn)練視覺表征;另一些 VLA 則專注于改進(jìn)低級控制策略,擅長接收短期任務(wù)指令并生成可通過機(jī)器人運(yùn)動規(guī)劃執(zhí)行的動作;此外,某些 VLA 脫離了低級控制,專注于將長期任務(wù)分解為可由低級控制策略執(zhí)行的子任務(wù)。因此,低級控制策略和高級任務(wù)規(guī)劃器的組合可以被視為一種分層策略。如圖是機(jī)器人分層策略的圖示,包括高級任務(wù)規(guī)劃器和低級控制策略。高級任務(wù)規(guī)劃器根據(jù)用戶指令生成規(guī)劃,然后由低級控制策略逐步執(zhí)行。

預(yù)訓(xùn)練
視覺編碼器的有效性直接影響策略的性能,因?yàn)樗峁┯嘘P(guān)目標(biāo)類別、位置和環(huán)境可供性的關(guān)鍵信息。因此,許多方法都致力于對視覺編碼器進(jìn)行預(yù)訓(xùn)練,以提高 PVR 的質(zhì)量。
下表是預(yù)訓(xùn)練的各種視覺表示。其中V:視覺,L:語言,Net:主干網(wǎng)絡(luò),CL:對比學(xué)習(xí),MAE:掩碼自動編碼,TFM:Transformer,Sim/Real:模擬/現(xiàn)實(shí)世界。Mani/Navi:操縱/導(dǎo)航,[SC]:自收集數(shù)據(jù)。為簡單起見,僅顯示目標(biāo)(objective)函數(shù)的主要部分,省略溫度、輔助損失等元素。S(·) 是相似度測量。(Ego-Data):Ego4D [105]、Epic Kitchens [106]、Something-Something-v2【107】,100DOH【108】。

動態(tài)學(xué)習(xí)包含旨在使模型了解正向或逆向動態(tài)的目標(biāo)。正向動態(tài)涉及預(yù)測給定動作導(dǎo)致的后續(xù)狀態(tài),而逆向動態(tài)則涉及確定從先前狀態(tài)過渡到已知后續(xù)狀態(tài)所需的動作。一些研究方法還將這些目標(biāo)定義為對混洗狀態(tài)序列進(jìn)行重新排序的問題。雖然正向動態(tài)模型與世界模型密切相關(guān),不過這里特別關(guān)注利用動態(tài)學(xué)習(xí)作為輔助任務(wù)來提高主要機(jī)器人任務(wù)性能的工作。
下表是VLA 的各種動態(tài)學(xué)習(xí)方法。其中f(·) 是動態(tài)模型,F(xiàn)wd:正向,Inv:逆向。

世界模型中,Dreamer [16] 使用三個(gè)主要模塊來構(gòu)建潛在動態(tài)模型:表示模型,負(fù)責(zé)將圖像編碼為潛狀態(tài);轉(zhuǎn)換模型,捕捉潛在狀態(tài)之間的轉(zhuǎn)換;獎(jiǎng)勵(lì)模型,預(yù)測與給定狀態(tài)相關(guān)的獎(jiǎng)勵(lì)。在演員-評論家框架下,Dreamer 利用動作模型和價(jià)值模型,通過學(xué)習(xí)到的動態(tài)傳播解析梯度,通過想象來學(xué)習(xí)行為。在此基礎(chǔ)上,DreamerV2 [116] 引入了離散潛在狀態(tài)空間以及改進(jìn)的目標(biāo)。DreamerV3 [117] 將其重點(diǎn)擴(kuò)展到具有固定超參數(shù)的更廣泛的領(lǐng)域。
總結(jié)一下,預(yù)訓(xùn)練的視覺表征強(qiáng)調(diào)了視覺編碼器的重要性,因?yàn)橐曈X觀察在感知環(huán)境的當(dāng)前狀態(tài)方面起著至關(guān)重要的作用。因此,它為整個(gè)模型的性能設(shè)定了上限。在 VLA 中,一般視覺模型使用機(jī)器人或人類數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以增強(qiáng)其在目標(biāo)檢測、可供性圖提取甚至視覺語言對齊等任務(wù)中的能力,這些任務(wù)對于機(jī)器人任務(wù)至關(guān)重要。相比之下,動態(tài)學(xué)習(xí)側(cè)重于理解狀態(tài)之間的轉(zhuǎn)換。這不僅涉及將視覺觀測映射到良好的狀態(tài)表征,還涉及理解不同的動作如何導(dǎo)致不同的狀態(tài),反之亦然。現(xiàn)有的動態(tài)學(xué)習(xí)方法通常旨在使用簡單的掩碼建?;蛑匦屡判蚰繕?biāo)來捕捉狀態(tài)和動作之間的關(guān)系。另一方面,世界模型旨在完全模擬世界的動態(tài),使機(jī)器人模型能夠根據(jù)當(dāng)前狀態(tài)將狀態(tài)推廣到未來的多個(gè)步驟,從而更好地預(yù)測最佳動作。因此,雖然世界模型更受歡迎,但實(shí)現(xiàn)起來也更具挑戰(zhàn)性。
低層控制策略
通過將動作解碼器與感知模塊(如視覺編碼器和語言編碼器)集成,形成一個(gè)策略網(wǎng)絡(luò)來在模擬或真實(shí)環(huán)境中執(zhí)行指令??刂撇呗跃W(wǎng)絡(luò)的多樣性在于編碼器/解碼器類型的選擇以及集成這些模塊所采用的策略。語言指令控制策略包括以下類型:非 Transformer、基于 Transformer和基于 LLM。一些其他控制策略處理多模態(tài)指令和目標(biāo)狀態(tài)指令。
下表是各種低級控制策略。還包括一些非 VLA 機(jī)器人模型,因?yàn)樗鼈兠芮邢嚓P(guān),用 (?) 標(biāo)記。BC:行為克隆(動作類型 cont/disc:連續(xù)/離散),TFM:Transformer,Xattn:交叉注意,Concat:連接。LMP:潛運(yùn)動規(guī)劃 [119],DDPM:去噪擴(kuò)散概率模型 [120],MPC:模型預(yù)測控制,MLE:最大似然估計(jì),p/s:提示/狀態(tài)的視覺編碼器。[SC]:自收集數(shù)據(jù)。ER:日常機(jī)器人。


各種 VLA 架構(gòu)探索了融合視覺和語言輸入的不同方法,包括交叉注意、FiLM 和連接,RT-1 中使用了 FiLM,因此其后續(xù)工作也繼承了這一機(jī)制。雖然交叉注意在較小的模型規(guī)模下可以提供更好的性能,但連接更易于實(shí)現(xiàn),并且可以在較大的模型上實(shí)現(xiàn)相當(dāng)?shù)慕Y(jié)果 [41]。
如圖所示,三種最常見的低級控制策略架構(gòu)的特點(diǎn),是其視覺-語言融合方法。一些 Transformer 動作解碼器利用交叉注意來?xiàng)l件化指令。在基于 RT-1 的模型中,F(xiàn)iLM 層用于早期融合語言和視覺。連接是 Transformer 動作解碼器中視覺-語言融合的主流方法。

大多數(shù)低級控制策略會預(yù)測末端執(zhí)行器姿勢的動作,同時(shí)抽象出使用逆運(yùn)動學(xué)控制各個(gè)關(guān)節(jié)運(yùn)動的運(yùn)動規(guī)劃模塊。雖然這種抽象有助于更好地推廣到不同的實(shí)施例,但它也對靈活性施加了限制。行為克隆 (BC) 目標(biāo)用于模仿學(xué)習(xí),針對不同的動作類型有不同的變體。
基于擴(kuò)散的策略利用了計(jì)算機(jī)視覺領(lǐng)域中擴(kuò)散模型的成功[120]。其中,擴(kuò)散策略[46]是最早利用擴(kuò)散進(jìn)行動作生成的策略之一。SUDD[35]為擴(kuò)散策略添加了語言條件支持。Octo[43]采用模塊化設(shè)計(jì),以適應(yīng)各種類型的提示和觀察。與常見的行為克隆策略相比,擴(kuò)散策略在處理多模態(tài)動作分布和高維動作空間方面表現(xiàn)出優(yōu)勢。
雖然基于 LLM 的控制策略可以大大增強(qiáng)指令跟隨能力,因?yàn)?LLM 可以更好地解析用戶意圖,但人們擔(dān)心其訓(xùn)練成本和部署速度。尤其是推理速度慢會嚴(yán)重影響動態(tài)環(huán)境中的性能,因?yàn)樵?LLM 推理期間可能會發(fā)生環(huán)境變化。
高級任務(wù)規(guī)劃器
許多高級任務(wù)規(guī)劃器都是在 LLM 之上構(gòu)建的。雖然以端到端方式將多模態(tài)模塊集成到 LLM 中是直觀的,但使用多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練可能成本高昂。因此,一些任務(wù)規(guī)劃器更喜歡使用語言或代碼作為交換多模態(tài)信息的媒介,因?yàn)樗鼈兛梢杂?LLM 原生處理。如圖所示將 LLM 連接到高級任務(wù)規(guī)劃器中多模態(tài)模塊的不同方法:基于語言和基于代碼。

下表是各種高級任務(wù)規(guī)劃器。VL:視覺語言融合。Sim/Real:模擬/現(xiàn)實(shí)世界。Mani/Navi:操縱/導(dǎo)航。

總結(jié)一下,雖然像 SayCan [47] 這樣的端到端任務(wù)規(guī)劃器與低級控制策略具有類似的架構(gòu),并且可以針對特定任務(wù)進(jìn)行優(yōu)化,但由于 LLM 和視覺轉(zhuǎn)換器組合的模型規(guī)模很大,它們的訓(xùn)練成本可能過高?;谡Z言的任務(wù)規(guī)劃器具有與現(xiàn)有語言條件控制策略無縫集成的優(yōu)勢。然而,它們通常需要微調(diào)或?qū)R方法來將生成的規(guī)劃映射到低級控制策略的可執(zhí)行語言指令。另一方面,基于代碼的任務(wù)規(guī)劃器利用 LLM 的編程能力來連接感知和動作模塊。這種方法不需要額外的訓(xùn)練,但其性能可能會受到現(xiàn)有模型能力的限制。
數(shù)據(jù)集、仿真器和基準(zhǔn)
下表是近期 VLA 收集的機(jī)器人數(shù)據(jù)集。VIMA 技能,指的是“元任務(wù)”。這里采用較新的 BridgeData V2。PC:點(diǎn)云。

下表是VLA 中常用的模擬器和基準(zhǔn)。其中D:深度,Seg:分割,A:音頻,N:法線,F(xiàn)orce:智體控制末端執(zhí)行器施加力來抓取物品,PD:預(yù)定義,Vers:版本。

面臨的挑戰(zhàn)和方向:
- 機(jī)器人數(shù)據(jù)稀缺。獲取足夠的現(xiàn)實(shí)世界機(jī)器人數(shù)據(jù)仍然是一個(gè)重大障礙。收集此類數(shù)據(jù)耗時(shí)且耗費(fèi)資源,而僅依靠模擬數(shù)據(jù)會加劇模擬與現(xiàn)實(shí)之間的差距問題。
- 運(yùn)動規(guī)劃。當(dāng)前的運(yùn)動規(guī)劃模塊通常缺乏解決各種環(huán)境中的復(fù)雜性所需的靈活性。這種限制妨礙了機(jī)器人與工具有效交互、在復(fù)雜環(huán)境中導(dǎo)航和執(zhí)行高精度操作等的能力。
- 實(shí)時(shí)響應(yīng)。許多機(jī)器人應(yīng)用需要實(shí)時(shí)決策和動作執(zhí)行才能滿足操作要求。VLA 模型應(yīng)設(shè)計(jì)為響應(yīng)迅速、延遲最小。
- 多模態(tài)集成。VLA 必須處理和集成來自多種模態(tài)的信息,包括視覺、語言和動作。雖然在這方面已經(jīng)取得了重大進(jìn)展,但實(shí)現(xiàn)這些模態(tài)的最佳集成仍然是一個(gè)持續(xù)的挑戰(zhàn)。
- 泛化到未見的場景。一個(gè)真正多功能的機(jī)器人系統(tǒng)應(yīng)該能夠在各種未見的場景中理解和執(zhí)行自然語言指令。
- 對指令、環(huán)境、對象和實(shí)施方案的變化具有魯棒性。
- 長遠(yuǎn)任務(wù)執(zhí)行。成功執(zhí)行此類任務(wù)需要機(jī)器人在較長的時(shí)間范圍內(nèi)規(guī)劃和執(zhí)行一系列低級動作。雖然當(dāng)前的高級任務(wù)規(guī)劃器已經(jīng)取得了初步成功,但它們在許多情況下仍然存在不足。
- 基礎(chǔ)模型。在機(jī)器人任務(wù)中探索 VLA 的基礎(chǔ)模型仍然是未知領(lǐng)域,這主要是由于機(jī)器人技術(shù)中遇到的多種具體化、環(huán)境和任務(wù)。
- 基準(zhǔn)。盡管存在許多用于評估低級控制策略 VLA 的基準(zhǔn),但它們在評估的技能方面往往存在很大差異。此外,這些基準(zhǔn)中包含的對象和場景通常受到模擬器可以提供的內(nèi)容的限制。
- 安全注意事項(xiàng)。安全是機(jī)器人技術(shù)的重中之重,因?yàn)闄C(jī)器人直接與現(xiàn)實(shí)世界互動。確保機(jī)器人系統(tǒng)的安全需要將現(xiàn)實(shí)世界的常識和復(fù)雜的推理融入到其開發(fā)和部署過程中。這涉及到整合強(qiáng)大的安全機(jī)制、風(fēng)險(xiǎn)評估框架和人機(jī)交互協(xié)議。
- 倫理和社會影響。機(jī)器人的部署始終引發(fā)各種倫理、法律和社會問題。這些包括與隱私、安全、工作流失、決策偏見以及對社會規(guī)范和人際關(guān)系的影響相關(guān)的風(fēng)險(xiǎn)。


































