Meta最新!PARTNR:具身多智能體任務中規(guī)劃與推理的基準測試框架
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&出發(fā)點
本文提出了一個人機協(xié)作中的規(guī)劃與推理任務基準(PARTNR),旨在研究家庭活動中的人機協(xié)調(diào)。PARTNR任務展現(xiàn)了日常任務的特點,如空間、時間和異構(gòu)agent能力約束。我們采用大型語言模型(LLMs)構(gòu)建了一個半自動化的任務生成流程,并融入了循環(huán)中的模擬以進行實現(xiàn)和驗證。PARTNR是同類基準中規(guī)模最大的,包含10萬個自然語言任務,涉及60棟房屋和5819個獨特物品。圍繞規(guī)劃、感知和技能執(zhí)行等維度,對PARTNR任務上的最新大語言模型(SoTA)進行了分析。分析結(jié)果顯示,SoTA模型存在顯著局限性,如協(xié)調(diào)性差、任務跟蹤失敗以及錯誤恢復能力不足。當大型語言模型與人類真實用戶配對時,它們所需的步驟數(shù)是兩人協(xié)作的1.5倍,比單個人類多1.1倍,這凸顯了這些模型有待提升的潛力。論文還進一步表明,使用規(guī)劃數(shù)據(jù)對較小的大型語言模型進行微調(diào),可以實現(xiàn)與體積為其9倍的大型模型相當?shù)男阅?,同時在推理速度上快8.6倍。PARTNR凸顯了協(xié)作式實體agents面臨的重大挑戰(zhàn),并旨在推動該領(lǐng)域的研究發(fā)展。
Code: https://github.com/facebookresearch/partnr-planner
Website: https://aihabitat.org/partnr
內(nèi)容出自國內(nèi)首個具身智能全棧學習社區(qū):具身智能之心知識星球,這里包含所有你想要的。
一些介紹
想象這樣一個家用機器人:它能像人與人之間的互動那樣,使用自然語言與人類在日?;顒又袇f(xié)作。這種場景需要兩個關(guān)鍵特性:機器人與人類之間的動態(tài)協(xié)作,以及使用自然語言進行交流。當前具身人工智能(embodied AI)的基準測試通常只滿足其中一個條件;要么機器人是獨立運作的,要么任務不是用自然語言指定的。盡管具身人工智能領(lǐng)域取得了顯著進展,但在評估機器人在協(xié)作環(huán)境中的表現(xiàn)的現(xiàn)實基準測試方面仍存在空白。為了彌補這一空白,我們推出了人機協(xié)作中的規(guī)劃與推理任務基準(PARTNR),這是一個新穎的基準測試,用于評估具身人工智能agent在模擬室內(nèi)環(huán)境中與人類在各種家庭活動上的協(xié)作能力。
PARTNR由10萬個自然語言指令和與之配套的評價函數(shù)組成,重點關(guān)注四種任務類型:(1)無約束任務,其中子任務可以由任一agent以任何方式完成,(2)包含空間約束的空間任務,(3)需要按順序執(zhí)行的時間任務,以及(4)包含無法由其中一個agent完成的動作的異構(gòu)任務。除了長時規(guī)劃、新型部分可觀察環(huán)境以及大狀態(tài)和動作空間等傳統(tǒng)挑戰(zhàn)外,PARTNR還強調(diào)了有效協(xié)作動態(tài)(如任務分配和跟蹤合作伙伴的進度)的必要性。
創(chuàng)建這樣一個具有大規(guī)模自然語言任務和定制評價函數(shù)的基準測試面臨著重大挑戰(zhàn)。當前的基準測試通常依賴于模板化任務或由人類設(shè)計的任務和評價,這可能限制了數(shù)據(jù)集的多樣性或規(guī)模。為了克服這一問題,本文提出了一種使用大型語言模型(LLMs)并結(jié)合循環(huán)模擬接地(simulation-in-the-loop grounding)的半自動化生成方法。首先,大型語言模型生成任務和評價函數(shù),這些函數(shù)與模擬房屋中的物品和家具相關(guān)聯(lián)。接下來,采用循環(huán)模擬來過濾掉幻覺和不可行的指令,并通過人工標注來增強多樣性和準確性。然后,利用一套經(jīng)過驗證的1000條指令和評價函數(shù)以及多樣化的模擬房屋,通過上下文提示引導大型語言模型創(chuàng)建10萬個任務。
由于PARTNR包含自然語言任務,且大型語言模型(LLMs)在規(guī)劃方面已展現(xiàn)出顯著成效,我們探索了如何提示和微調(diào)LLMs,以評估它們在協(xié)作場景中的有效性。我們研究了環(huán)境可觀性(即完全可觀或部分可觀)、集中式與分散式多智能體控制、學習到的或特權(quán)機器人技能、以及基于LLMs的規(guī)劃中對3D世界信息進行接地的不同方式的影響。除了這些使用合成人類伙伴進行的自動化評估外,還進行了包含真實人類參與的評估,讓人們單獨執(zhí)行任務、與人類伙伴一起執(zhí)行任務或與LLMs指導的機器人伙伴一起執(zhí)行任務??傮w而言,發(fā)現(xiàn)LLMs在協(xié)調(diào)、任務跟蹤以及處理感知和技能錯誤方面存在困難。雖然人類能夠解決93%的PARTNR任務,但在非特權(quán)條件下,當前最先進(SoTA)的LLMs僅能成功完成30%的任務。此外,在分散式多智能體設(shè)置中,由于跟蹤伙伴動作的能力較差,導致出現(xiàn)了多余動作,完成任務所需的步驟比單智能體多1.3倍。相比之下,在我們的包含真實人類參與的實驗中,人類搭檔的表現(xiàn)優(yōu)于單獨的人類,這凸顯了改進LLMs協(xié)作策略的潛力。LLMs還難以從技能失敗和感知接地錯誤中恢復,當移除特權(quán)技能和特權(quán)感知時,其性能會降低。在比較模型大小時,我們發(fā)現(xiàn)經(jīng)過微調(diào)的較小模型Llama3.1-8B的性能與未經(jīng)微調(diào)的Llama3.1-70B相當,但推理速度卻快了8.6倍。在與真實人類共同參與的評估中,這一更快的推理速度發(fā)揮了重要作用,因為經(jīng)過微調(diào)的模型所需步驟更少,為人類分擔了更多任務。
PARTNR能夠在各種協(xié)作場景中實現(xiàn)對具身智能體的可重復、大規(guī)模和系統(tǒng)性的評估。通過系統(tǒng)性的評估,我們揭示了當前基于LLM的規(guī)劃器的關(guān)鍵局限性,為未來的研究指明了有趣的方向。
相關(guān)工作一覽
基于語言的具身人工智能基準測試。大量關(guān)于具身人工智能中語言基準測試的工作都集中在導航或具身問答上,這些任務涉及導航和信息收集,但不需要智能體修改其環(huán)境。與本文的工作更為接近的是指令遵循基準測試,在這些基準測試中,智能體通過與環(huán)境的交互來完成通過語言描述的任務,盡管任務的多樣性有限。相比之下,我們利用大型語言模型(LLMs)生成多樣化的任務定義和場景初始化,并將其擴展到多智能體設(shè)置中。使用LLMs擴大任務生成的規(guī)模這一想法在最近的一些工作中得到了探索。然而,這些工作往往側(cè)重于相對短期內(nèi)的單智能體任務,而本文考慮的是長期的多智能體問題。表1將相關(guān)基準測試與PARTNR進行了比較。
具身多智能體基準測試。多項工作已經(jīng)提出了具身多智能體基準測試。其中許多基準測試都集中在簡單2D環(huán)境中的協(xié)調(diào)問題上,這限制了它們在現(xiàn)實世界場景中的應用。最近的工作開發(fā)了研究更真實環(huán)境和活動中協(xié)作的基準測試,這些基準測試關(guān)注在大型、部分可觀察的3D環(huán)境中重新排列物體或家具,或在柜臺空間內(nèi)操作物體。然而,這些基準測試通常局限于一組預定義且數(shù)量有限的任務,這些任務往往不是用自然語言描述的,并且主要涉及物體的重新排列。相比之下,PARTNR涵蓋了一個開放的任務集,每個任務都用自然語言描述,要求智能體在空間和時間的約束下重新排列物體,并要求執(zhí)行只能由人類智能體完成的異構(gòu)動作(例如洗碗或打開烤箱)。
Benchmark生成
我們推出了PARTNR基準測試,旨在訓練和評估機器人與人類合作解決自然語言任務的能力。PARTNR涵蓋了四種類型的任務:(1)無約束任務,即子任務可以由任一智能體以任何方式完成。例如,“讓我們把所有臟盤子移到水槽里。”(2)空間任務,需要推理物體的空間位置。例如,“讓我們把書放在書架上,彼此緊挨著?!保?)時間任務,子任務的執(zhí)行順序很重要。例如,“讓我們先把餐桌上的蠟燭拿走,再把盤子端到桌上。”(4)異構(gòu)任務,涉及超出機器人能力的動作。例如,“讓我們在把盤子放到架子上之前先把它們洗干凈?!痹跈C器人的技能不支持洗滌的場景中,完成這項任務需要對智能體的能力進行推理。我們的基準測試包括自然語言指令和相應的評估函數(shù),這兩者都是使用大型語言模型(LLMs)大規(guī)模生成的。具體來說,我們生成了1000條經(jīng)過人工驗證的指令和相應的評估函數(shù),并將它們作為即時提示示例,擴展到其他具有不同布局和物體的場景中的100000項任務。我們自動生成的一個獨特之處在于,在生成循環(huán)中整合了一個實體模擬器,這大大減少了大型語言模型可能出現(xiàn)的幻覺和不可行動作等錯誤。
1 基于仿真循環(huán)的任務指令生成
盡管基于大型語言模型(LLM)的任務生成在之前的文獻中已有研究,但這些生成的任務并未超出用戶創(chuàng)建的 in-context prompts的范圍。在PARTNR中,使用了基于仿真循環(huán)的生成技術(shù),將大語言模型與環(huán)境、智能體和可用動作相結(jié)合。具體來說,在Habitat 3.0模擬器中實例化了一個仿真環(huán)境,該環(huán)境填充了HSSD數(shù)據(jù)集,包含60棟獨特的房屋和5819個OVMM對象。模擬房屋被解析為房間和可用家具的列表,并與所有可用目標一起傳遞給大語言模型。利用這些信息,要求大語言模型在場景中生成自由形式、可行的任務,以及初始場景狀態(tài)描述。例如,如果生成的任務是“清理客廳的餐具”,大型語言模型應該生成一個客廳內(nèi)有多個餐具的初始場景。在這個階段,還會向場景中添加額外的目標,以在環(huán)境中制造混亂。任務、初始狀態(tài)和混亂一旦生成,就會在模擬器中實例化,并過濾掉不可行的指令。例如,如果房屋沒有客廳,“清理客廳的餐具”就是無效的。同樣,如果生成的任務需要模擬器不支持的動作,如折疊,則該任務會被過濾掉。通常,幻覺的產(chǎn)生率很高,導致大量情節(jié)被丟棄。我們觀察到,在過濾掉不可行的指令后,生成指令的多樣性通常受到限制。例如,大多數(shù)指令都使用相同的對象(如餐具)或類似的房間(如廚房或餐廳)。為了增加生成任務的多樣性,我們進行了手動標注,以確保任務和對象的多樣性,例如,通過修改指令以激發(fā)特定特征,來維持無約束、空間、時間和異構(gòu)任務的平衡分布。這一過程產(chǎn)生了1000個經(jīng)過人工標注和仿真驗證的任務。
對于大規(guī)模生成而言,這種手動標注并不實際。相反,我們利用這1000條經(jīng)過人工標注的指令作為提示中的示例,來擴展生成規(guī)模。向大語言模型提供房屋描述和一個示例任務,并指示它修改任務以適應新的房屋。例如,將任務“清理客廳里的所有餐具”修改為“清理臥室里的所有玩具”。這樣做可以在保持原始標注指令集多樣性的同時,確保在模擬器中成功實例化的高可能性。從質(zhì)量上看,我們過濾或編輯了約90%的自由形式生成的指令,而只有約10%的擴展指令需要這樣做。使用LLama3-70B-Instruct來生成所有指令。最后,所有任務都經(jīng)過基于人類反饋的循環(huán)過濾。在這一步中,人類使用我們的基于人類反饋的工具嘗試完成任務,并消除難以檢測的物理上不可行的指令,比如要求一個物體同時出現(xiàn)在兩個位置。圖2概述了我們的流程。
2 評價函數(shù)生成
為了判斷智能體是否成功完成了指令“清理客廳里的所有餐具”,我們需要一個評價函數(shù)來驗證是否已從任何客廳中移除了所有勺子、叉子和其他餐具。然而,手動標注任務所需的所有重新排列和狀態(tài)變化既耗時又由于每個任務的獨特性而在大規(guī)模上難以實現(xiàn)。與指令生成類似,我們采用大型語言模型(LLM)來創(chuàng)建一個評價函數(shù),該函數(shù)無需任何手動標注即可評估任務完成情況。具體來說,利用大型語言模型生成基于謂詞的Python程序的能力,這需要使用三種類型的API:一個命題列表,指示實體之間必須滿足的關(guān)系;一組依賴項,指示何時應查詢命題;以及一組約束,指示命題必須如何滿足。為這些組件中的每一個定義了一個富有表達力的詞匯,以便對基準測試中的所有任務進行評估(例如,圖3)。密切相關(guān)的評價系統(tǒng)包括使用PDDL或BDDL定義任務。選擇構(gòu)建一個新的基于Python的評價系統(tǒng),因為這兩個系統(tǒng)都無法在保持人類和大型語言模型可解釋性的同時評估PARTNR任務;例如,BDDL不支持隨時間變化的評估。由于PARTNR任務具有時間依賴性(例如,多步驟重新排列),因此評價函數(shù)的輸入是任務執(zhí)行期間模擬器狀態(tài)的完整序列。評價函數(shù)返回三個指標:(1)完成百分比(PC ∈ [0, 1]),即相對于約束而言已滿足的命題的百分比;(2)成功(S ∈ {True, False}),衡量任務是否成功完成,定義為S := (PC = 1);以及(3)失敗解釋(FE),一種人類和大型語言模型可解釋的語言描述,用于說明智能體未能完成任務的原因。
使用CodeLLama-70B-instruct來生成評價函數(shù)。如圖3所示,生成完美的評價函數(shù)并非易事。大型語言模型(LLM)必須根據(jù)自然語言指令和特定的模擬環(huán)境,正確分類所有可能的動作空間,這可能相當復雜。例如,在圖3中,指令“把植物放在架子上”指的是“架子”,但房間里有兩個架子。評價函數(shù)必須允許選擇任意一個架子,同時要求放置所有植物,并最終考慮相鄰關(guān)系。命題或約束中的任何錯誤或缺失值都會導致評價函數(shù)失效。因此,我們觀察到LLM生成的錯誤率很高,特別是關(guān)于錯誤命題和時間順序約束的錯誤。
為了減輕這些不準確性,遵循與指令生成相似的半自動化程序。首先為1000條人工標注的指令生成評價函數(shù),并進行手動標注以進行修正。這產(chǎn)生了包含1000對經(jīng)過人工驗證的指令和評價函數(shù)的數(shù)據(jù)集。接下來,為擴展的100000條指令集生成評價。請注意,擴展指令是通過向LLM提供標注集中的示例指令來生成的。我們檢索相應的標注評價函數(shù),并將其提供給LLM。這與檢索增強生成等方法類似,并通過人工檢查發(fā)現(xiàn),將評價函數(shù)生成的準確率從50%提高到92%。最后一步是,要求人類用戶使用我們基于人類反饋的評價工具解決所有PARTNR任務。所有在人類用戶6次嘗試(3次單人嘗試,3次多人嘗試)后仍未解決的任務都被視為不可行,并從數(shù)據(jù)集中刪除。我們發(fā)現(xiàn),自動化生成的指令中約有90%準確,評價函數(shù)中約有92%準確,綜合生成準確率為90% × 92% = 83%。
3 PARTNR Dataset
PARTNR數(shù)據(jù)集由來自HSSD數(shù)據(jù)集的37個訓練場景中的100,000個片段、13個驗證場景中的1,000個片段和10個測試場景中的1,000個片段組成。在擴展生成后,所有驗證集和測試集的片段都經(jīng)過了人工標注以確保正確性,同時訓練集的一個包含2,000個片段的子集也進行了人工標注。關(guān)于擴展生成片段的正確性分析。下面分析下該數(shù)據(jù)集的特點和多樣性。
特點:如前所述,PARTNR數(shù)據(jù)集側(cè)重于四種任務類型:無約束、空間、時間和異構(gòu)。在圖4中展示了這些任務類型在測試集中的分布情況;驗證集的分布情況與之相似。PARTNR數(shù)據(jù)集在這些維度上獨立且聯(lián)合地評估協(xié)作。其他值得關(guān)注的特性包括依賴重排(例如,“把它們放在同一張桌子上”)和同一對象的多步重排(例如,“把杯子拿到水槽邊,洗干凈,然后放進櫥柜里”)。7%的任務包含依賴重排,6%的任務包含多步重排。任務平均需要滿足4.7個命題(表明完成任務所需的步驟數(shù)量)。
多樣性:PARTNR數(shù)據(jù)集中任務的多樣性在很大程度上得益于循環(huán)模擬生成,該生成方法利用了豐富的HSSD場景和OVMM對象集。因此,PARTNR數(shù)據(jù)集中的任務涉及并需要對155種獨特對象類型、20類家具和13種房型進行推理。請注意,每條指令在每個房屋中的實例化都帶來了其自身的多樣性。例如,“把筆記本電腦搬到辦公桌上”,這條指令在每個房屋中都獨特地指定了辦公室和桌子的位置,以及不同指令中不同的筆記本電腦實例。
實驗和分析
我們利用PARTNR探究了最先進的規(guī)劃和感知方法如何在新環(huán)境中處理自然語言任務,以及如何與未見過的伙伴進行協(xié)調(diào)。由于PARTNR包含由語言指定的各種時空任務,這里主要在基線中使用大型語言模型(LLMs)進行規(guī)劃,并研究了以下變體:(1)零樣本提示、檢索增強生成或微調(diào),(2)集中式規(guī)劃與分散式規(guī)劃,(3)部分可觀察環(huán)境與完全可觀察環(huán)境,(4)學習得到的低級機器人技能與理想的低級機器人技能,以及(5)特權(quán)感知與非特權(quán)感知。
實驗是在Habitat 3.0模擬器中進行的,使用了模擬的Spot機器人。我們?yōu)闄C器人和模擬人類采用了一種兩層分級控制架構(gòu),如圖5所示。在高層級上,規(guī)劃器從預定義的技能庫(例如,導航、拾取、放置、打開、關(guān)閉)中選擇技能。我們還使用了一個具有三層層次結(jié)構(gòu)的文本世界圖,分別表示房間、家具和可移動物體。圖中的每個節(jié)點都存儲了一個語義類別(例如,廚房、桌子或杯子)、三維信息(例如,位置或邊界框)和狀態(tài)(例如,干凈、已通電)。
1 Baselines
我們按照以下維度對基線進行評估:
1.高級規(guī)劃器的變體:
- 啟發(fā)式專家:這種方法利用專家設(shè)計的啟發(fā)式方法和關(guān)于任務、環(huán)境和評估函數(shù)的特權(quán)信息,基于人類和機器人的能力預先規(guī)劃所有步驟。例如,兩個agent都可能重新排列物體,但只有人類執(zhí)行清潔、填充和開關(guān)任務。
- 零樣本ReAct(ReAct):使用ReAct及其API函數(shù)庫或工具庫,使大語言模型(LLM)能夠執(zhí)行動作。作為觀察,向LLM提供簡潔、當前的世界圖描述以及動作歷史。LLM利用這些信息從[探索房間、導航、打開家具、關(guān)閉家具、拾取物體、放置物體、等待、完成]中為機器人選擇一個動作。
- 帶有檢索增強生成(RAG)的ReAct(ReAct-RAG):還評估了帶有RAG的ReAct,以研究在類似任務上的規(guī)劃示例是否能提高ReAct的性能。通過從ReAct在2000個任務訓練子集中的成功軌跡中收集數(shù)據(jù),構(gòu)建了一個規(guī)劃示例數(shù)據(jù)庫。在測試時,基于句子相似性從訓練數(shù)據(jù)集中選擇最相關(guān)的規(guī)劃軌跡,并將其添加到LLM的提示中。
- 微調(diào)后的LLM(Finetuned):本文還研究了使用ReAct基線中成功的軌跡來微調(diào)一個較小的LLM(Llama3.1-8B)作為高級規(guī)劃器,這些基線使用Llama3.1-70B。這里使用React-RAG數(shù)據(jù)集,將每個片段拆分為一系列高級規(guī)劃動作,僅篩選成功執(zhí)行的動作。對于每個動作,構(gòu)建一個包含世界圖和動作歷史的輸入,類似于ReAct。然后使用低秩適配器微調(diào)一個LLM,以在給定此輸入的情況下從ReAct片段中預測動作。該模型降低了延遲和計算需求,適合現(xiàn)實世界中的部署。
所有模型生成都受到約束生成的限制,僅輸出對觀察到的對象有效的動作。約束生成極大地減少了LLM典型的幻覺和“語法”錯誤。當兩個agent都調(diào)用Done或達到最大模擬步驟或LLM調(diào)用時,一個片段即結(jié)束。
- 集中式與分散式規(guī)劃:
為了研究多agent PARTNR任務中協(xié)調(diào)的開銷,這里比較了集中式規(guī)劃器和分散式規(guī)劃器。在集中式規(guī)劃中,單個大型語言模型(LLM)根據(jù)兩個agent的完整狀態(tài)信息為它們決定動作,從而有效地消除了agent之間的任何協(xié)調(diào)需求。在分散式規(guī)劃中,每個agent由不同的LLM控制,每個LLM都需要推斷另一個agent的動作。
- 部分可觀察與完全可觀察:
為了評估當前最先進(SoTA)的語言模型是否能夠探索新環(huán)境并識別與任務相關(guān)的對象,考慮了一個部分可觀察的設(shè)置,其中規(guī)劃器知道房屋的布局但不知道目標的位置,因此需要探索。這與完全可觀察的設(shè)置形成對比,在完全可觀察的設(shè)置中,所有目標的位置都是事先已知的。
- 學習到的與先知低級別機器人技能:
本文研究了學習到的神經(jīng)網(wǎng)絡(luò)技能與先知技能(具有特權(quán)模擬信息)對PARTNR任務整體性能的影響。這里為拾取、放置、導航、打開和關(guān)閉動作創(chuàng)建了一個學習到的技能庫,并與先知技能進行了性能比較。
- 特權(quán)與非特權(quán)感知:
為了研究諸如檢測不準確和定位近似等感知挑戰(zhàn),使用了帶有修改后的ConceptGraphs的非特權(quán)世界圖,該圖僅根據(jù)agent的RGBD觀測結(jié)果構(gòu)建。隨著agent的探索和動作,這個世界圖將使用機載傳感器進行更新。相比之下,在特權(quán)感知下,這些信息可以直接從模擬中獲取。
2 Results and Analysis
指標。使用四個關(guān)鍵指標來評估不同設(shè)置下的性能。首先,模擬步數(shù)指標衡量了agent在模擬環(huán)境中完成任務所需的步數(shù),作為效率的一個指標。其次,成功率反映了任務的完成情況,即是否滿足“所有”任務約束。鑒于PARTNR任務的復雜性和長期性,agent通常只能部分完成任務。為了考慮這一點,還報告了完成百分比,它量化了已完成任務“命題”的比例(對于成功的任務,完成百分比為1)。最后,我們通過規(guī)劃周期指標來評估規(guī)劃器的推理效率,該指標計算每個規(guī)劃器在一個情節(jié)過程中進行的高級大型語言模型(LLM)調(diào)用的次數(shù)。在所有實驗中,將規(guī)劃器的最大調(diào)用次數(shù)限制在50次以內(nèi)。
任務性能分析
表2展示了使用Llama3.1-70B-Instruct模型作為ReAct基線,以及使用微調(diào)后的Llama3.1-8B基礎(chǔ)模型作為微調(diào)基線。由于PARTNR任務是多agent任務,還需要一個模擬的人類伙伴,使用Llama3.1-70B-Instruct模型并通過ReAct方法對其進行控制。主要發(fā)現(xiàn)如下所述。
基于LLM的規(guī)劃器在處理PARTNR任務時面臨挑戰(zhàn)。在所有可觀察性和可控性條件下,基于LLM的基線性能均不如具有特權(quán)的啟發(fā)式專家,原因是任務跟蹤中出現(xiàn)錯誤(未完成所有步驟、步驟順序錯誤或撤銷已完成的步驟),以及語義錯誤(將對象放置在錯誤的家具上或移動錯誤的對象),這表明LLM在任務規(guī)劃方面存在差距。
LLM在分散式設(shè)置中的協(xié)調(diào)方面表現(xiàn)不佳。沒有特權(quán)訪問伙伴意圖的分散式ReAct基線在任務完成速度上顯著慢于集中式ReAct。這表明,對伙伴進行推理(例如,了解或推斷伙伴的意圖)可以提高PARTNR任務的效率,而當前最先進的LLM在這方面表現(xiàn)不佳。此外,有兩個agent的分散式ReAct甚至慢于單個agent的ReAct(行(e)中的多agent需要3295步,而行(a)中的單agent需要2519步),這表明LLM在協(xié)調(diào)方面承受著巨大的“負擔”。在4.2.2節(jié)關(guān)于額外努力的分析中,我們進一步強調(diào)了這種協(xié)調(diào)負擔,我們發(fā)現(xiàn),在分散式設(shè)置中,agent最終會更高頻率地重復任務的部分內(nèi)容或執(zhí)行不相關(guān)的動作。
LLM(大型語言模型)無法從已學習技能的失敗中恢復。當用已學習技能替換Oracle技能時,成功率從0.73下降到0.57(行(e)對比行(h))。這種下降可以歸因于,與具有特權(quán)的Oracle技能相比,已學習技能的失敗率更高,且所需的模擬步驟更多。LLM在應對技能錯誤(如未能拾取物體或執(zhí)行不完整的探索)時難以恢復,從而導致成功率降低。未來的研究可以探索訓練包含低級技能循環(huán)的大型模型,使它們能夠在面對此類失敗時學習恢復和重新規(guī)劃策略。
LLM對感知錯誤表現(xiàn)出高度敏感性。當用現(xiàn)成的感知模塊替換具有特權(quán)的感知時,成功率顯著下降(從行(h)中具有特權(quán)、部分世界圖的0.57下降到行(i)中使用Concept-Graphs的0.30)。LLM嚴重依賴世界圖提供的準確世界描述,并且難以糾正諸如誤分類(例如,將架子誤認為是桌子)或房間分配錯誤(例如,將客廳的桌子錯誤地標記為在臥室)等錯誤。像VLM(視覺語言模型)這樣的多模態(tài)模型可能在從這類失敗中恢復方面更強大,這留待未來的工作來研究。
微調(diào)后的8B模型在性能上與使用70B模型的ReAct相當,但推理速度卻快了8.6倍。我們發(fā)現(xiàn),使用較小8B模型的微調(diào)規(guī)劃器與使用更大70B模型的ReAct性能相當(在行(e)中,70B模型的成功率為0.73,而在行(g)中,微調(diào)后的8B模型的成功率為0.70)。同時發(fā)現(xiàn)微調(diào)模型在推理速度上快了8.6倍。這表明微調(diào)有效地從訓練集中提取了與任務相關(guān)的信息,并將其泛化到新的測試任務中。當與人類共同部署時,微調(diào)模型所需的步驟更少,并且能夠分擔比70B模型更多的子任務(見表3)。
協(xié)作行為與效率分析
表2中的分析揭示了大型語言模型(LLM)在協(xié)作中面臨的挑戰(zhàn),這促使我們更深入地研究具體的協(xié)作行為。
機器人承擔了高達60%的任務。我們評估了機器人在從人類那里分擔任務方面的能力,具體方法是測量在成功的PARTNR任務中,機器人執(zhí)行的子任務占總子任務的比例。盡管單智能體和多智能體的成功率相似(0.73對比0.74),但在去中心化的多智能體環(huán)境中,機器人承擔了約60%的子任務,從而減輕了人類的負擔。
去中心化的智能體容易執(zhí)行多余的任務。智能體有時會執(zhí)行對任務無用的子任務,如重新排列任務中不需要的物體或重復另一個智能體已經(jīng)完成的子任務。為了衡量這種多余的努力,我們計算了在一次任務中,智能體的無效動作(即未增加任務完成百分比、未對任務進展做出貢獻的動作)占總成功動作的比例。我們發(fā)現(xiàn),與單智能體相比,在去中心化的多智能體環(huán)境中,無效努力增加了300%(見表12),這表明協(xié)調(diào)負擔顯著增加。
時間和異構(gòu)任務對LLM來說具有挑戰(zhàn)性。LLM在時間和異構(gòu)任務上表現(xiàn)困難。與ReAct的無約束任務相比,時間任務的成功率下降了27%,異構(gòu)任務的成功率下降了20%(見表13)。這凸顯了LLM在推理智能體能力和遵循嚴格順序約束方面的局限性。
人機交互評估
我們基于Habitat 3.0中的Human-in-the-loop基礎(chǔ)設(shè)施進行了構(gòu)建,并將其調(diào)整為服務器-客戶端架構(gòu),其中服務器托管在AWS上,能夠支持多個客戶端。這使我們能夠使用129名非專業(yè)人類參與者對任務進行大規(guī)模評估。使用該工具從驗證集和測試集中收集了1000個任務的單用戶和多用戶數(shù)據(jù)。在單用戶設(shè)置中,一名參與者通過鍵盤/鼠標控制在模擬器中的人類角色來完成整個任務(附錄中的圖14展示了我們的HITL界面)。在多用戶設(shè)置中,兩名參與者分別控制一個人類角色和一個機器人角色來共同完成任務。這些實驗的目的是研究PARTNR任務中的多用戶動態(tài),并觀察多名人類協(xié)作是否比單個人類更高效。最后,我們進行了一項人機實驗,其中一名人類參與者與由大型語言模型(LLM)控制的機器人協(xié)作。該實驗旨在評估LLM控制的智能體在與未見過的真實人類協(xié)作時的表現(xiàn)。表3顯示了驗證集中任務在單用戶、多用戶、人類-ReAct和人類-微調(diào)設(shè)置下的成功率(SR)和完成百分比(PC)。此外,我們還測量了每種方法完成任務所需的步數(shù),以及機器人完成的工作量比例(即任務分擔)。我們還通過測量選擇第一個對象所需的步數(shù)和無用努力(指對任務完成沒有幫助的動作)來衡量人在回路中的探索效率。這些結(jié)果總結(jié)在表3中。
人類在PARTNR任務上的表現(xiàn)明顯優(yōu)于LLM。在單人和多人環(huán)境中,人類在PARTNR基準上的成功率均為0.93。相比之下,沒有任何特權(quán)信息的ReAct模型的成功率顯著降低至0.30(表2的第(i)行)。這凸顯了LLM在規(guī)劃任務性能上的巨大差距。值得注意的是,當與真實人類一起評估時,像ReAct和微調(diào)這樣的LLM基線模型的成功率分別為0.92和0.91(表3),因為人類能夠適應LLM的錯誤。另一方面,表2中的模擬人類是一個LLM,它無法從合作伙伴的錯誤中恢復。
在與真實人類協(xié)作時,微調(diào)后的LLM表現(xiàn)優(yōu)于ReAct。當與真實人類在回路中一起部署時,微調(diào)模型在任務完成上比ReAct更快(微調(diào)模型3443步,ReAct 4267步)。它還能從人類那里分擔更多任務(微調(diào)模型26%,ReAct 16%)。這表明具有更快推理速度的小型模型可以改善真實世界部署中的人類體驗。
LLM在協(xié)調(diào)方面存在困難,阻礙了人類的表現(xiàn)。盡管在與人類協(xié)作時微調(diào)模型比ReAct更快,但兩種方法都比人類單獨完成任務要慢。相比之下,兩名人類一起工作比單個人類完成任務更快(多人2369步,單人3046步)。這一結(jié)果與我們在表1中觀察到的自動化評估結(jié)果一致,其中多智能體LLM也比單智能體LLM更慢。這一結(jié)果進一步證實,LLM在協(xié)調(diào)方面存在問題;而人類能夠相互協(xié)調(diào)并分配任務,但去中心化的LLM卻無法做到這一點。
LLM能夠從人類那里分擔任務。盡管上述任務完成步數(shù)有所增加,但由微調(diào)模型指導的機器人成功地從人類那里分擔了26%的任務。這表明,在與真實人類合作伙伴協(xié)作時,LLM仍然能夠提供幫助。盡管如此,仍有很大的改進空間。
一些結(jié)論
PARTNR是一個針對多智能體實體任務中的推理與規(guī)劃基準,其特點是在60個模擬的多房間房屋中實例化了100,000項自然語言任務,這些房屋中包含5,819個獨特物體。我們采用半自動化的基于大型語言模型(LLM)的pipeline,用于大規(guī)模指令和評估功能的生成,該過程使用了基于模擬的循環(huán)接地技術(shù)。PARTNR展現(xiàn)了日常任務的特點,如時間和空間的限制,并允許對規(guī)劃方法進行系統(tǒng)評估。我們發(fā)現(xiàn),在PARTNR任務上,當前最先進的LLM與人類水平的性能之間存在顯著差距。盡管我們最佳的LLM基線在沒有特權(quán)信息的情況下僅成功完成了30%的任務,但人類卻能解決93%的任務。此外,LLM在與基于LLM的智能體以及真實人類伙伴的協(xié)調(diào)中都面臨著挑戰(zhàn)。人類參與的評估(即真實人類與LLM指導的機器人合作)表明,與單獨工作相比,LLM指導的伙伴會降低人類的工作效率。這表明,基于LLM的智能體需要顯著改進,才能在實體任務中成為有效的合作伙伴。PARTNR作為一個具有挑戰(zhàn)性的基準,凸顯了當前模型的重大局限性。