多模態(tài)大模型在具身智能領(lǐng)域里程碑工作!清華&字節(jié)開源DeeR-VLA:讓算力內(nèi)存雙降
文章鏈接:https://arxiv.org/pdf/2411.02359
項(xiàng)目鏈接:https://github.com/yueyang130/DeeR-VLA
亮點(diǎn)直擊
- 提出動(dòng)態(tài)早退出機(jī)制 DeeR:框架基于動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的思想,能自動(dòng)調(diào)整 MLLM 模型的大小,根據(jù)機(jī)器人面臨的實(shí)際情況動(dòng)態(tài)激活模型所需的層數(shù),減少不必要的計(jì)算消耗。
- 實(shí)現(xiàn)高效的資源利用:DeeR 在推理過程中對(duì)不同復(fù)雜度的情境適應(yīng)性地分配計(jì)算資源,簡單場景下使用較小的模型以節(jié)省資源,復(fù)雜場景下則調(diào)用更大的模型。
- 靈活的計(jì)算成本控制:DeeR 提供了可調(diào)的早退出準(zhǔn)則,用戶可以根據(jù)計(jì)算資源的需求(如功耗、延遲或 GPU 內(nèi)存使用)在線調(diào)整終止標(biāo)準(zhǔn),實(shí)現(xiàn)靈活的資源管理。
- 性能優(yōu)化與資源節(jié)約顯著:在 CALVIN 基準(zhǔn)測試中,DeeR 實(shí)現(xiàn)了計(jì)算成本 5.2-6.5 倍的降低。
與其他 SOTA 方法相比,在僅使用 2GB GPU 內(nèi)存的條件下保持競爭力。這表明 DeeR 能在資源有限的平臺(tái)上高效運(yùn)行,有望推動(dòng)多模態(tài)大模型在機(jī)器人領(lǐng)域的廣泛應(yīng)用。
總結(jié)速覽
解決的問題
當(dāng)前多模態(tài)大模型 (MLLMs) 在理解復(fù)雜人類指令并執(zhí)行各種任務(wù)方面展現(xiàn)出強(qiáng)大能力,但在實(shí)際機(jī)器人中的應(yīng)用受限于其對(duì)計(jì)算能力和內(nèi)存的高需求,難以在資源有限的機(jī)器人平臺(tái)上有效運(yùn)行。
提出的方案
提出了一個(gè)動(dòng)態(tài)早退出框架,稱為DeeR-VLA (Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model) ,能夠根據(jù)不同情境自動(dòng)調(diào)整激活模型的大小,從而減少不必要的計(jì)算負(fù)擔(dān)。此方案采用多出口結(jié)構(gòu),允許模型在適當(dāng)?shù)臅r(shí)機(jī)結(jié)束處理,避免冗余計(jì)算。
應(yīng)用的技術(shù)
- 多出口架構(gòu):使得模型可在特定情境下提前結(jié)束處理,減少計(jì)算消耗。
- 早退出算法:根據(jù)預(yù)設(shè)的計(jì)算資源需求(如平均計(jì)算成本、峰值計(jì)算消耗及 GPU 內(nèi)存使用)制定早終止標(biāo)準(zhǔn),確保 DeeR 在不同資源限制下高效運(yùn)行。
- 時(shí)間信息集成的訓(xùn)練方法:在多出口架構(gòu)上集成時(shí)間信息以合理預(yù)測動(dòng)作。
達(dá)到的效果
在 CALVIN 機(jī)器人操作基準(zhǔn)測試中,DeeR 實(shí)現(xiàn)了 5.2-6.5 倍的計(jì)算成本降低和 2-6 倍的 GPU 內(nèi)存消耗減少,同時(shí)保持了性能不變。這些提升使得 DeeR 能在資源有限的條件下高效運(yùn)行。
動(dòng)態(tài)早退出的機(jī)器人 MLLM
MLLM 強(qiáng)大的任務(wù)指令理解和視覺定位能力展示了其在語言指導(dǎo)的多任務(wù)機(jī)器人操作方面的巨大潛力。然而,現(xiàn)有工作通常計(jì)算量巨大,因?yàn)闄C(jī)器人動(dòng)作是通過推理 MLLM 的所有層來獲得的。在每個(gè)時(shí)間步,這一過程可能會(huì)激活數(shù)十億的參數(shù),導(dǎo)致大量的計(jì)算和內(nèi)存需求,從而帶來顯著的延遲和功耗。這些低效通常是實(shí)際機(jī)器人應(yīng)用的重要瓶頸。
概述 通過利用一個(gè)有趣的觀察來解決這個(gè)問題:在控制機(jī)器人完成各種任務(wù)的過程中,相對(duì)“簡單”的情境占據(jù)了大部分,這些情境通常只需要較小的模型即可獲得正確的機(jī)器人動(dòng)作(如下表 1 所示)。受這一現(xiàn)象的啟發(fā),本文提出了機(jī)器人 MLLM 的動(dòng)態(tài)早退出方法 (DeeR),旨在通過為每種情況動(dòng)態(tài)采用適當(dāng)?shù)?MLLM 大小來提高機(jī)器人 MLLM 系統(tǒng)的計(jì)算效率。具體而言,首先開發(fā)了一種具有多個(gè)中間出口的新型 MLLM 架構(gòu)。因此,給定一個(gè)輸入,一旦激活了足夠數(shù)量的模型參數(shù),就可以立即獲取適當(dāng)?shù)臋C(jī)器人動(dòng)作,從而避免進(jìn)一步的冗余計(jì)算。然后,在任意指定的平均計(jì)算成本和峰值計(jì)算成本或 GPU 內(nèi)存開銷的需求下,為 DeeR 建立了早終止準(zhǔn)則。最后,提出了本文模型的定制訓(xùn)練算法,展示了如何在這一動(dòng)態(tài)網(wǎng)絡(luò)的基礎(chǔ)上集成時(shí)間信息并合理預(yù)測機(jī)器人動(dòng)作。
機(jī)器人多出口架構(gòu)
首先引入了一個(gè)具有多個(gè)中間出口的 MLLM 架構(gòu),能夠根據(jù)機(jī)器人面臨的不同情況動(dòng)態(tài)調(diào)整 MLLM 的大小。
自適應(yīng)推理
本節(jié)展示了 DeeR 如何在預(yù)定義的計(jì)算和 GPU 內(nèi)存限制下,通過自適應(yīng)地激活適當(dāng)大小的 MLLM 來高效地執(zhí)行機(jī)器人任務(wù)。首先討論 DeeR 所使用的終止準(zhǔn)則,該準(zhǔn)則旨在在較簡單的場景中激活較小的模型,而在更具挑戰(zhàn)性的條件下激活較大的模型。接下來,探討一種有效的資源分配策略,以應(yīng)對(duì)計(jì)算和 GPU 內(nèi)存的限制。DeeR 的推理過程如下圖 1 所示。
滿足以下約束條件:
使用在線交互求解。如果可以與真實(shí)環(huán)境交互,可以利用在線學(xué)習(xí)算法,通過關(guān)于成功率的反饋逐步調(diào)整閾值。為了在預(yù)算約束下求解方程 (4),實(shí)現(xiàn)了貝葉斯優(yōu)化。構(gòu)造的貝葉斯優(yōu)化目標(biāo)函數(shù)如下,以最大化:
訓(xùn)練算法
訓(xùn)練動(dòng)態(tài)機(jī)器人 MLLM 并非易事。特別是,網(wǎng)絡(luò)架構(gòu)的動(dòng)態(tài)調(diào)整導(dǎo)致了訓(xùn)練和推理之間的差異。在推理過程中,使用確定性的標(biāo)準(zhǔn)在每個(gè)時(shí)間步選擇適當(dāng)?shù)闹虚g特征。然而,在訓(xùn)練過程中,沒有明確定義的終止標(biāo)準(zhǔn),而且不知道特征在各個(gè)出口之間的分布。為了有效地集成時(shí)間信息,提出了一個(gè)量身定制的訓(xùn)練算法。
使用任意大小的模型進(jìn)行學(xué)習(xí)為了減少上述差異,在訓(xùn)練期間引入了一種簡單而有效的隨機(jī)采樣策略。如上面圖 1 右側(cè)的“螺旋”曲線所示,本文的方法涉及在每個(gè)時(shí)間步從 1 到 N的出口索引中進(jìn)行采樣。實(shí)現(xiàn)了兩種采樣策略:
通過以下?lián)p失函數(shù)聯(lián)合訓(xùn)練輔助頭和 MLLM:
實(shí)驗(yàn)
設(shè)置 本節(jié)進(jìn)行實(shí)驗(yàn)驗(yàn)證 DeeR 作為一種高效機(jī)器人策略的有效性。基于 RoboFlamingo++ 代碼庫構(gòu)建 DeeR。為了公平比較,保留了 RoboFlamingo++ 中的超參數(shù),唯一的區(qū)別是 LLM 層數(shù)和提出的動(dòng)態(tài)早期退出范式。將 DeeR 在預(yù)算與性能之間進(jìn)行比較,涉及類似規(guī)模的 RoboFlamingo++ 模型和其他最先進(jìn)的基準(zhǔn)。
效率衡量 在現(xiàn)代基礎(chǔ)模型中,LLM 通常在 MLLM 中扮演著關(guān)鍵角色,負(fù)責(zé)推理和問題解決任務(wù),且通常包含了模型的大部分參數(shù)。本文主要聚焦于提高 LLM 在機(jī)器人領(lǐng)域的效率。為了方便進(jìn)行針對(duì)性的比較,實(shí)驗(yàn)中報(bào)告了 LLM 推理過程中的浮點(diǎn)運(yùn)算數(shù)(FLOPs)和 GPU 內(nèi)存使用量。
基準(zhǔn)測試 使用 CALVIN 長時(shí)域多任務(wù)語言控制基準(zhǔn)(LH-MTLC)作為測試平臺(tái),測試學(xué)習(xí)到的多任務(wù)、語言條件策略。在 CALVIN 中,目標(biāo)是讓智能體成功完成任務(wù)序列,每個(gè)任務(wù)序列包含五個(gè)子任務(wù),并用自然語言描述。根據(jù)以往的工作[10, 12, 13, 9],模型的性能是通過在 1000 個(gè)任務(wù)序列中,成功完成的任務(wù)數(shù)的平均值來評(píng)估的(范圍從 0 到 5)。
數(shù)據(jù)集 CALVIN 數(shù)據(jù)集分為四個(gè)環(huán)境分割,分別標(biāo)記為 A 到 D,每個(gè)分割都有獨(dú)特的背景和物體配置。每個(gè)分割包含超過 200 萬個(gè)機(jī)器人操作軌跡(稱為 "ALL")。其中,大約 1%(約 2.4 萬個(gè)軌跡)帶有語言指令(稱為 "LANG")。在訓(xùn)練 DeeR 時(shí),僅使用 "LANG" 數(shù)據(jù)。在本文的研究中,為了全面評(píng)估其模仿和泛化能力,在以下三種設(shè)置下評(píng)估模型:
- D→D:在單一環(huán)境中訓(xùn)練和評(píng)估。
- ABC→D:零樣本多環(huán)境。
- ABCD→D:多環(huán)境。
基準(zhǔn)模型 為了進(jìn)行全面比較,考慮了多個(gè)基準(zhǔn)模型。包括了 HULC 和 SPIL 作為依賴于層次化規(guī)劃和技能先驗(yàn)的代表方法。此外,還評(píng)估了使用預(yù)訓(xùn)練或基礎(chǔ)模型的模型,例如 RT-1、SuSIE 、GR-1 和 RoboFlamingo。RoboFlamingo++ 是重新實(shí)現(xiàn)的 RoboFlamingo。
主要結(jié)果
Flamingo 3B的結(jié)果 Flamingo 3B的實(shí)驗(yàn)結(jié)果如下圖3所示。在每個(gè)CALVIN設(shè)置中,僅訓(xùn)練了一個(gè)模型。在給定預(yù)定義的總計(jì)算預(yù)算B、最大浮點(diǎn)運(yùn)算數(shù)G和GPU內(nèi)存M后,通過調(diào)整終止閾值來遵守這些預(yù)算,終止閾值通過解方程(4)并使用CALVIN數(shù)據(jù)集來確定。然后,評(píng)估DeeR在不同閾值下的平均成功長度,并繪制曲線。可以觀察到,DeeR始終能在所有設(shè)置中減少LLM的計(jì)算成本。例如,在設(shè)置D→D中,DeeR在平均成功長度為2.71的情況下,平均FLOPs減少了5.9倍,最大FLOPs和GPU內(nèi)存分別減少了2倍。令人驚訝的是,DeeR-S在僅使用2GB內(nèi)存的情況下,仍能實(shí)現(xiàn)相對(duì)較高的性能,這對(duì)于大多數(shù)用戶來說是可承受的。因此,DeeR展示了使更廣泛的用戶能夠高效地使用LLM操作機(jī)器人系統(tǒng)的潛力。
與最先進(jìn)基準(zhǔn)的比較 下表2中,將DeeR模型與最近的最先進(jìn)方法進(jìn)行了基準(zhǔn)測試,特別是在CALVIN基準(zhǔn)測試中。通過分析表明,DeeR與使用額外本體感知信息的最新SOTA模型GR-1相比,達(dá)到了具有競爭力的性能。與沒有使用基礎(chǔ)模型的傳統(tǒng)模仿學(xué)習(xí)方法相比,DeeR表現(xiàn)出更優(yōu)越的性能,特別是在泛化場景(ABC→D)中。此外,DeeR在減少計(jì)算的同時(shí),稍微優(yōu)于RoboFlamingo。
通過在線交互求解閾值
當(dāng)可以與環(huán)境進(jìn)行交互時(shí),使用貝葉斯優(yōu)化來求解方程(4)。如上表2所示,發(fā)現(xiàn)通過在線交互求解閾值,在低數(shù)據(jù)環(huán)境(D→D)和對(duì)未見情況的泛化(ABC→D)等挑戰(zhàn)性場景中特別有效。
DeeR的可擴(kuò)展性
在OpenFlamingo 9B 之上開發(fā)了DeeR,以評(píng)估其在擴(kuò)展基礎(chǔ)模型時(shí)的效率。下圖4中的結(jié)果表明,DeeR在保持相同性能的情況下,減少了1.8至5.7倍的計(jì)算量,并且峰值FLOPs和內(nèi)存減少了2.7到4.0倍。
可視化
下圖5展示了DeeR的滾動(dòng)效果以及終止點(diǎn)。具有較高退出索引的情況被DeeR視為“更難”的任務(wù),因此會(huì)分配更多的計(jì)算資源。可以觀察到,“困難”情況通常涉及相對(duì)復(fù)雜和精細(xì)的操作,而“簡單”情況通常涉及朝目標(biāo)物體的直接移動(dòng)。例如,在堆疊積木的任務(wù)中(第1行),從桌面提起藍(lán)色積木(第1張圖)并將其放置到粉色積木上(第4和第5張圖)需要更多的計(jì)算,而簡單地朝粉色積木移動(dòng)(第2和第3張圖)只需要最小的LLM來處理。在第2行和第3行中也觀察到類似的情況,朝目標(biāo)物體移動(dòng)的階段需要的計(jì)算量最小,而推動(dòng)燈泡開關(guān)或移動(dòng)滑動(dòng)門則是復(fù)雜的操作,需要更多的LLM處理。
結(jié)論與局限性
本文提出了用于機(jī)器人MLLM的動(dòng)態(tài)提前退出(DeeR)框架,旨在根據(jù)機(jī)器人代理所遇到的每個(gè)情況的具體需求動(dòng)態(tài)配置MLLM的大小。具體來說,提出了一種新型的具有多個(gè)中間退出的MLLM架構(gòu)。此外,為DeeR建立了基于動(dòng)作一致性的提前終止標(biāo)準(zhǔn),并通過數(shù)據(jù)集或在線交互解決閾值問題。本文設(shè)計(jì)了一種定制的訓(xùn)練方法,將時(shí)間信息集成到這個(gè)多退出框架中,以增強(qiáng)機(jī)器人控制能力。大量的機(jī)器人實(shí)驗(yàn)表明,DeeR顯著減少了LLM的計(jì)算成本和GPU內(nèi)存使用,突顯了其在資源受限的平臺(tái)上幫助更廣泛的用戶管理機(jī)器人操作的潛力。
盡管本文的研究顯示了有希望的結(jié)果,但也存在一些局限性。本文專注于提高機(jī)器人執(zhí)行中的LLM效率,因?yàn)長LM占據(jù)了大部分參數(shù)和GFLOPs。然而,視覺編碼器的計(jì)算成本也是顯著的。隨著更高效、輕量級(jí)的視覺編碼器的開發(fā),這一局限性將得到緩解。此外,本文的實(shí)驗(yàn)僅限于一個(gè)模擬基準(zhǔn)。未來的工作將致力于改善整個(gè)基于MLLM的機(jī)器人系統(tǒng)在真實(shí)環(huán)境中的推理效率。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
