LLM+P:賦予大語(yǔ)言模型最佳機(jī)器人規(guī)劃能力 原創(chuàng) 精華
?
?摘要:大規(guī)模語(yǔ)言模型(LLMs)已經(jīng)展示了顯著的零樣本泛化能力:最先進(jìn)的聊天機(jī)器人可以為日常生活中的許多常見問題提供合理的答案。然而,迄今為止,LLMs 還不能可靠地解決長(zhǎng)期的機(jī)器人規(guī)劃問題。相比之下,經(jīng)典的規(guī)劃器一旦以規(guī)范化的方式給出問題,可以使用高效的搜索算法快速找到正確的,甚至是最優(yōu)的方案。為了結(jié)合兩者的優(yōu)勢(shì),本文引入了 LLM+P,這是第一個(gè)將經(jīng)典規(guī)劃器的優(yōu)勢(shì)整合到 LLMs 中的框架。LLM+P 接收規(guī)劃問題的自然語(yǔ)言描述,然后返回用自然語(yǔ)言表達(dá)的正確(或最優(yōu))解決方案。LLM+P 首先將語(yǔ)言描述轉(zhuǎn)換為規(guī)劃域定義語(yǔ)言(PDDL)文件,然后利用經(jīng)典的規(guī)劃器快速找到解決方案,并將找到的解決方案翻譯回自然語(yǔ)言。本文還定義了一組來(lái)自機(jī)器人規(guī)劃場(chǎng)景的多樣化基準(zhǔn)問題。通過對(duì)這些基準(zhǔn)問題的一組全面實(shí)驗(yàn),我們發(fā)現(xiàn) LLM+P 能夠?yàn)榇蠖鄶?shù)問題提供最優(yōu)解決方案,而 LLMs 在大多數(shù)問題上甚至無(wú)法提供可行的方案。我們還展示了 LLM+P 使家用機(jī)器人能夠解決由用戶用自然語(yǔ)言指定的復(fù)雜操作任務(wù)。
I. 引言
自人工智能領(lǐng)域誕生以來(lái),研究人員一直致力于創(chuàng)建能夠像人類一樣自然流暢地進(jìn)行對(duì)話的程序。雖然即使是像1966年推出的Eliza這樣相對(duì)簡(jiǎn)單的模型,也能對(duì)某些提示生成看似合理的回應(yīng),但相對(duì)于人類,這些模型的弱點(diǎn)也很容易暴露——它們?nèi)狈φ嬲摹袄斫狻薄?/p>
盡管大規(guī)模語(yǔ)言模型(LLMs)如GPT-4和ChatGPT遠(yuǎn)遠(yuǎn)超出了幾年前的預(yù)期,但在這方面它們并沒有太大不同。實(shí)際上,現(xiàn)在互聯(lián)網(wǎng)上充斥著人們讓ChatGPT生成連5歲兒童都知道不合適的內(nèi)容的例子。
鑒于LLMs的設(shè)計(jì)和訓(xùn)練方式,這種現(xiàn)象并不令人驚訝。它們并非專門為展示理解力而構(gòu)建,而是被訓(xùn)練成生成在人類先前上下文中可能合理的單詞序列。正如Mahowald等人所言【4】,LLMs在語(yǔ)言能力(即知道如何表達(dá))方面表現(xiàn)出了驚人的熟練度,但在功能性能力(即知道說什么)方面則差得多。具體來(lái)說,它們很容易被愚弄,例如,當(dāng)被問到一個(gè)簡(jiǎn)單的算術(shù)問題時(shí),如果該問題不在它們的訓(xùn)練語(yǔ)料中,或被要求解決一個(gè)需要世界運(yùn)作知識(shí)的全新規(guī)劃問題時(shí),它們可能無(wú)法提供正確的答案。
(注釋:GPT-4在規(guī)劃問題上的一個(gè)失敗示例:
問題(P1):你有5塊積木。不能將多于一塊積木放在另一塊積木上。b5在b3上,b4在b2上,b2在b1上,b3在b4上,b1在桌子上,b5是清空的,你的手臂是空的。你的目標(biāo)是移動(dòng)這些積木。b1應(yīng)該在b2上,b3應(yīng)該在b5上,b4應(yīng)該在b1上。
GPT-4的回答:
1. 將b5從b3上移到桌子上。
2. 將b3從b4上移到b5上。
3. 將b4從b2上移到桌子上。
4. 將b2從b1上移到b5上。
5. 將b1從桌子上移到b2上。
6. 將b4從桌子上移到b1上。)
難道我們應(yīng)該努力將所有的算術(shù)和規(guī)劃問題都包含在訓(xùn)練語(yǔ)料中嗎?顯然,這是徒勞的。另一方面,為什么需要這樣做呢?我們已經(jīng)有了可以保證給出正確答案的計(jì)算器和通用符號(hào)規(guī)劃器。因此,一種自然的替代方法,也是我們并不是第一個(gè)探索的方法,是將LLMs與這些工具相結(jié)合。
基于此動(dòng)機(jī),本研究的目標(biāo)是首次使LLMs能夠正確地解決規(guī)劃問題。我們旨在做到這一點(diǎn),而無(wú)需對(duì)LLMs本身進(jìn)行任何修改,甚至無(wú)需進(jìn)行微調(diào)【5】【6】。相反,我們引入了一種名為L(zhǎng)LM+P的方法,當(dāng)提出一個(gè)自然語(yǔ)言描述的規(guī)劃問題時(shí),LLM將:
1. 輸出一個(gè)適合作為通用規(guī)劃器輸入的問題描述;
2. 使用通用規(guī)劃器解決該問題;
3. 將規(guī)劃器的輸出轉(zhuǎn)換回自然語(yǔ)言(或連接到機(jī)器人執(zhí)行器)。
我們的大量實(shí)驗(yàn)證明,LLM+P能夠?yàn)楸葐为?dú)使用LLM更多的規(guī)劃問題生成正確的解決方案。雖然本文中展示了在規(guī)劃問題上的應(yīng)用,但這種通用方法可以應(yīng)用于任何我們有健全和完整求解器的類問題,例如算術(shù)問題(通過使用計(jì)算器)。
II. 背景
本節(jié)介紹了我們用于表示由大規(guī)模語(yǔ)言模型(LLMs)解決的規(guī)劃問題的符號(hào),并回顧了經(jīng)典規(guī)劃器的標(biāo)準(zhǔn)表示方法。
A. 經(jīng)典規(guī)劃問題
形式上,規(guī)劃問題 P 的輸入由一個(gè)四元組 < S, s_{init}, S_G, A, f > 定義:
- S 是用于描述世界狀態(tài)的有限且離散的狀態(tài)集合(即狀態(tài)空間)。我們假設(shè)狀態(tài)空間是分解的,使得每個(gè)狀態(tài) s ∈ S 由一組固定變量的值定義。
- s_{init} 是初始世界狀態(tài)。
- S_G 是目標(biāo)狀態(tài)的集合。 S_G 通常被指定為一組目標(biāo)條件,這些條件在目標(biāo)狀態(tài)中必須全部滿足。
- A 是符號(hào)動(dòng)作的集合。
- f 是底層狀態(tài)轉(zhuǎn)移函數(shù)。函數(shù) f 以當(dāng)前狀態(tài)和一個(gè)動(dòng)作作為輸入,并輸出相應(yīng)的下一個(gè)狀態(tài)。
規(guī)劃問題 P 的解是一個(gè)符號(hào)規(guī)劃 pi ,其形式為 < a_1, a_2,..., a_N >,使得動(dòng)作 a_1 的前置條件在初始狀態(tài) s_{init} 中滿足,動(dòng)作 a_2 的前置條件在執(zhí)行 a_1 后的狀態(tài)中滿足,以此類推,直到所有目標(biāo)條件在執(zhí)行完 a_N 后的狀態(tài)中全部滿足。
B. 規(guī)劃域定義語(yǔ)言(PDDL)
規(guī)劃域定義語(yǔ)言(PDDL)是一種經(jīng)典規(guī)劃問題的標(biāo)準(zhǔn)化編碼語(yǔ)言【7】【8】。規(guī)劃問題的 PDDL 表示被分為兩個(gè)文件:域文件和問題文件。域 PDDL 文件提供了世界底層規(guī)則的升華表示。它包括一組用于定義狀態(tài)空間 S 和動(dòng)作集合 A 的謂詞,以及它們的前置條件和效果(即狀態(tài)轉(zhuǎn)移函數(shù) f )。問題 PDDL 文件提供了一組對(duì)象來(lái)具體化域,問題的初始狀態(tài) s_{init} 和目標(biāo)條件 S_G 。存在豐富的符號(hào)規(guī)劃器集成了高效的搜索算法來(lái)解決用 PDDL 形式化的規(guī)劃問題。在這項(xiàng)工作中,我們的目標(biāo)是將自然語(yǔ)言提示(該提示描述了初始狀態(tài) s_{init} 和目標(biāo)條件 S_G )轉(zhuǎn)化為 PDDL,并利用符號(hào)規(guī)劃器生成正確的規(guī)劃方案。我們假設(shè)域規(guī)則是已知的(參見第III節(jié)中的假設(shè))。
III. 方法
本節(jié)首先使用一個(gè)運(yùn)行中的例子來(lái)研究如何將規(guī)劃提示公式化為 PDDL,然后介紹 LLM+P 方法。
圖1:LLM+P 利用大規(guī)模語(yǔ)言模型(LLM)生成給定問題的 PDDL 描述,然后利用經(jīng)典規(guī)劃器找到最優(yōu)方案,并再次使用 LLM 將原始方案翻譯回自然語(yǔ)言。
(注釋:圖1分為上下兩個(gè)部分,分別展示了 LLM+P 方法的三個(gè)主要階段:?jiǎn)栴}轉(zhuǎn)換、規(guī)劃求解和方案翻譯。具體步驟如下:
1. 自然語(yǔ)言問題轉(zhuǎn)換為 PDDL 文件:
- 輸入問題:圖的左上部分展示了輸入問題,這通常是由用戶用自然語(yǔ)言描述的一個(gè)規(guī)劃問題。
- LLM 生成 PDDL 文件:LLM 被用來(lái)將這個(gè)自然語(yǔ)言描述轉(zhuǎn)換為規(guī)劃域定義語(yǔ)言(PDDL)格式。這一步類似于機(jī)器翻譯,將自然語(yǔ)言問題描述翻譯成經(jīng)典規(guī)劃器能夠理解和處理的形式化問題描述。PDDL 文件包括定義狀態(tài)空間、動(dòng)作和目標(biāo)的詳細(xì)信息。
2. 經(jīng)典規(guī)劃器求解問題:
- PDDL 規(guī)劃求解:圖的中間部分顯示了 PDDL 文件被輸入到經(jīng)典規(guī)劃器中。經(jīng)典規(guī)劃器使用其內(nèi)置的高效搜索算法,基于 PDDL 文件的描述來(lái)生成一個(gè)解決方案(即一個(gè)規(guī)劃或動(dòng)作序列)。
- 生成 PDDL 方案:規(guī)劃器會(huì)輸出一個(gè) PDDL 方案,該方案描述了如何從初始狀態(tài)通過一系列動(dòng)作達(dá)到目標(biāo)狀態(tài)。這個(gè)方案通常是最優(yōu)的,即在最少步驟內(nèi)實(shí)現(xiàn)目標(biāo)狀態(tài)。
3. 方案翻譯回自然語(yǔ)言:
- LLM 翻譯 PDDL 方案:圖的右側(cè)展示了如何再次利用 LLM,將經(jīng)典規(guī)劃器生成的 PDDL 方案翻譯回自然語(yǔ)言。這個(gè)過程使得規(guī)劃結(jié)果更易于理解,用戶或機(jī)器人可以直接執(zhí)行這些自然語(yǔ)言描述的步驟。
- 輸出方案:最后,系統(tǒng)輸出一個(gè)用自然語(yǔ)言描述的解決方案,供用戶或機(jī)器人參考和執(zhí)行。
總結(jié)
圖1直觀地展示了 LLM+P 的整體工作流程,突出了一種有效的策略,即通過將 LLM 的自然語(yǔ)言處理能力與經(jīng)典規(guī)劃器的搜索和優(yōu)化能力結(jié)合起來(lái),成功地解決復(fù)雜的規(guī)劃問題。這種方法特別適合需要長(zhǎng)時(shí)間推理和規(guī)劃的場(chǎng)景,如機(jī)器人任務(wù)規(guī)劃。)
A. 大規(guī)模語(yǔ)言模型作為 PDDL 編寫器
LLMs 在規(guī)劃(或長(zhǎng)時(shí)推理)方面表現(xiàn)不佳【9】,但它們擅長(zhǎng)描述和翻譯文本輸入,包括將規(guī)劃提示重寫為 PDDL 格式。直覺上,我們可以將 PDDL 視為與英語(yǔ)不同的語(yǔ)言,因此將規(guī)劃提示重寫為 PDDL 實(shí)質(zhì)上是一個(gè)“機(jī)器翻譯”任務(wù),而 LLMs 在此類任務(wù)中表現(xiàn)優(yōu)異。以下是 GPT-4 無(wú)需任何提示工程生成的 PDDL 問題文件示例。我們可以看到,生成的文件看起來(lái)具有正確的 PDDL 語(yǔ)法,但使用了一個(gè)虛構(gòu)的謂詞(empty),并且遺漏了 b1 在桌子上的初始條件。
(GPT-4 生成的 PDDL 問題文件示例
提示:?jiǎn)栴}描述(P1) + 直接向我提供描述該規(guī)劃問題的 PDDL 文件,而無(wú)需進(jìn)一步解釋。
GPT-4(生成的問題 PDDL 文件):
```pddl
(:objects b1 b2 b3 b4 b5 - block)
(:init (on b5 b3) (on b4 b2) (on b2 b1) (on b3 b4) (clear b5) (empty))
(:goal (and (on b1 b2) (on b3 b5) (on b4 b1)))
```)
B. 上下文學(xué)習(xí)
LLMs 已知能夠在不微調(diào)其參數(shù)的情況下進(jìn)行上下文學(xué)習(xí)。我們所說的上下文學(xué)習(xí),是指 LLMs 通過簡(jiǎn)單地基于一些輸入-標(biāo)簽對(duì)(示例)進(jìn)行條件推理,從而執(zhí)行未見過的下游任務(wù)的能力【10】。以下是提供給 GPT-4 的一對(duì)自然語(yǔ)言和 PDDL 的問題描述作為上下文。當(dāng)將上下文與上述提示一起包含時(shí),生成的 PDDL 問題文件可以直接由規(guī)劃器解決。
(注釋:包含上下文的 GPT-4 生成的 PDDL 問題文件示例
上下文(陰影部分):
一個(gè)示例規(guī)劃問題是:你有5塊積木。b2 在 b5 上,b5 在 b1 上,b1 在 b4 上,b3 在 b2 上,b4 在桌子上。b3 是清空的。你的手臂是空的。你的目標(biāo)是移動(dòng)這些積木。b4 應(yīng)該在 b3 上。問題的 PDDL 是:
```pddl
(:objects b1 b2 b3 b4 b5)
(:init (arm-empty) (on b1 b4) (on b2 b5) (on b3 b2) (on-table b4) (on b5 b1) (clear b3))
(:goal (and (on b4 b3)))
```
提示:?jiǎn)栴}描述(P1) + 上下文 + 直接向我提供描述該規(guī)劃問題的 PDDL 文件,而無(wú)需進(jìn)一步解釋。
GPT-4(生成的問題 PDDL 文件):
```pddl
(:objects b1 b2 b3 b4 b5 )
(:init (arm-empty) (on-table b1) (on b2 b1) (on b3 b4) (on b4 b2) (on b5 b3) (clear b5))
(:goal (and (on b1 b2) (on b3 b5) (on b4 b1)))
```)
C. 大規(guī)模語(yǔ)言模型 + 經(jīng)典規(guī)劃器(LLM+P)
在介紹了 LLM 編寫 PDDL 和上下文學(xué)習(xí)的能力后,我們準(zhǔn)備介紹所提出的 LLM+P 解決方案(圖1底部)。特別地,我們假設(shè)對(duì)于每個(gè)問題域,人類專家可以提供一個(gè)域描述(即動(dòng)作的前置條件和效果),這將對(duì)該域中發(fā)生的所有問題實(shí)例保持固定。雖然自動(dòng)生成描述的問題是另一個(gè)有價(jià)值的研究問題,但在這項(xiàng)提議的工作中,我們假設(shè)描述是以 PDDL 域文件的形式提供的。LLM+P 方法可以直接作為自然語(yǔ)言接口,用于向機(jī)器人系統(tǒng)分配任務(wù)。例如,假設(shè)我們希望一個(gè)機(jī)器人充當(dāng)調(diào)酒師來(lái)制作雞尾酒。合理的做法是告訴它可以采取哪些行動(dòng),但讓它自己推斷出如何在給定一組要組合的原料的情況下最有效地制作新的雞尾酒。此外,我們假設(shè)代理提供了一個(gè)最小示例,演示了該域中簡(jiǎn)單問題的 PDDL 示例。接下來(lái),代理提供了一個(gè)新的(可能非常復(fù)雜的)問題(P)。然后,LLM 使用上下文學(xué)習(xí)來(lái)推斷與 P 對(duì)應(yīng)的問題 PDDL 文件。一旦生成了問題 PDDL 文件,我們將其與提供的域 PDDL 文件一起輸入任何經(jīng)典規(guī)劃器,以生成 PDDL 計(jì)劃【11】。最后,LLM 將 PDDL 計(jì)劃翻譯回自然語(yǔ)言,以完成 LLM+P 管道。
總結(jié)一下,LLM+P 所需的假設(shè)是:
1. 機(jī)器人知道何時(shí)基于與人類用戶的對(duì)話觸發(fā) LLM+P。
2. 提供了一個(gè)域 PDDL 文件,以定義機(jī)器人能夠執(zhí)行的動(dòng)作。這一規(guī)范與任務(wù)無(wú)關(guān)——與任務(wù)相關(guān)的實(shí)體在 LLM 生成的問題 PDDL 中指定。
3. 提供了一個(gè)用自然語(yǔ)言描述的簡(jiǎn)單問題及其對(duì)應(yīng)的問題 PDDL 文件。
IV. 相關(guān)工作
本節(jié)首先概述了經(jīng)典規(guī)劃算法,然后總結(jié)了在規(guī)劃任務(wù)中使用大規(guī)模語(yǔ)言模型(LLMs)的最新進(jìn)展。最后,討論了近期關(guān)于用外部模塊增強(qiáng) LLMs 的研究。
A. 經(jīng)典規(guī)劃
自動(dòng)化規(guī)劃(或稱為經(jīng)典規(guī)劃)技術(shù)可用于計(jì)算達(dá)成給定目標(biāo)所需的一系列動(dòng)作【12】【13】【14】。自動(dòng)化規(guī)劃算法已廣泛應(yīng)用于機(jī)器人系統(tǒng)中。Shakey 是第一個(gè)配備規(guī)劃組件的機(jī)器人,其規(guī)劃組件是使用 STRIPS 構(gòu)建的【15】。一些之前的通用規(guī)劃架構(gòu)也被證明對(duì)機(jī)器人規(guī)劃有用,如 PRODIGY【16】和 HTN【17】。近期為機(jī)器人設(shè)計(jì)的經(jīng)典規(guī)劃系統(tǒng)常使用規(guī)劃域定義語(yǔ)言(PDDL)或應(yīng)答集編程(ASP)作為規(guī)劃器的底層動(dòng)作語(yǔ)言【18】【19】【20】【21】。例如,研究人員已將經(jīng)典規(guī)劃算法用于為移動(dòng)機(jī)器人安排遞送任務(wù)的動(dòng)作序列【22】,推理自動(dòng)駕駛車輛在城市行駛中的安全且高效的行為【23】,以及為移動(dòng)機(jī)器人團(tuán)隊(duì)規(guī)劃動(dòng)作【24】。任務(wù)和運(yùn)動(dòng)規(guī)劃(TAMP)是一個(gè)層次化的規(guī)劃框架,將經(jīng)典規(guī)劃與連續(xù)空間中的機(jī)器人運(yùn)動(dòng)規(guī)劃相結(jié)合【25】【26】。
B. 利用大規(guī)模語(yǔ)言模型進(jìn)行規(guī)劃
近年來(lái),開發(fā)了各種大規(guī)模語(yǔ)言模型(LLMs),例如 Bert【27】、CodeX【28】、Opt【29】、GPT-3【10】、ChatGPT【30】、GPT-4【2】、Llama【31】、Llama2【32】和 PaLM【33】。由于這些 LLMs 使用大量的離線文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,它們可以展現(xiàn)出驚人的零樣本泛化能力,這可以用于機(jī)器人規(guī)劃任務(wù)【34】【35】【36】【37】【38】【39】【40】【41】【42】【43】【44】【45】。例如,Huang 等人展示了 LLMs 可以用于家庭領(lǐng)域的任務(wù)規(guī)劃,通過迭代增強(qiáng)提示實(shí)現(xiàn)【38】。SayCan 是另一種方法,它使機(jī)器人規(guī)劃能夠通過權(quán)力函數(shù)考慮動(dòng)作的可行性,其中服務(wù)請(qǐng)求用自然語(yǔ)言指定【34】。
C. 用外部模塊增強(qiáng) LLMs
近期開發(fā)的方法顯示,通過將 LLMs 與外部模塊結(jié)合,可以提高下游任務(wù)的性能。例如,WebGPT【59】是通過結(jié)合網(wǎng)絡(luò)知識(shí)對(duì) GPT-3 進(jìn)行微調(diào)的版本,用于回答開放式問題。Lazaridou 等人研究了如何利用像 Google 這樣的搜索引擎作為 LLMs 的外部工具【60】。MemPrompt【61】提出了一個(gè)人在循環(huán)系統(tǒng)中,其中不斷增長(zhǎng)的錯(cuò)誤和用戶反饋記憶被作為過往經(jīng)驗(yàn)添加到提示中,以更準(zhǔn)確地回答新問題。REPLUG【62】是另一種檢索增強(qiáng)的語(yǔ)言模型范式,將語(yǔ)言模型視為黑盒,并增加了一個(gè)可調(diào)的檢索模型。具體地,人們已經(jīng)研究了使用計(jì)算器進(jìn)行計(jì)算【63】【64】。在與我們相關(guān)的非常近期的工作中,Schick 等人訓(xùn)練了一個(gè)名為 ToolFormer 的模型,該模型可以決定何時(shí)以及如何通過在提示中在線增強(qiáng)來(lái)調(diào)用某些工具 API【65】。在本文中,我們提議經(jīng)典規(guī)劃器可以是另一個(gè)特別有用的外部模塊。與此相比,LLM+P 不依賴于任何微調(diào)或 LLMs 的重新訓(xùn)練。通過簡(jiǎn)單地整合來(lái)自經(jīng)典規(guī)劃器的知識(shí),LLM+P 將長(zhǎng)期推理和規(guī)劃能力整合到現(xiàn)有的 LLMs 中。
V. 實(shí)驗(yàn)
我們進(jìn)行實(shí)驗(yàn)以回答以下幾個(gè)問題:
1. LLM-AS-P 的表現(xiàn)如何?在多大程度上可以直接使用最先進(jìn)的 LLMs 和基于 LLM 的推理方法進(jìn)行規(guī)劃?(幾乎不能使用)
2. LLM+P 的表現(xiàn)如何?與 LLM-AS-P 相比表現(xiàn)如何?(好得多)
3. 上下文在 LLM+P 的成功中起到了什么作用?(至關(guān)重要)
4. LLM+P 能否幫助服務(wù)機(jī)器人在現(xiàn)實(shí)任務(wù)中變得更有效率?(可以)
A. 基準(zhǔn)問題
我們展示了從過去的國(guó)際規(guī)劃競(jìng)賽中借用的七個(gè)機(jī)器人規(guī)劃域,以及每個(gè)域自動(dòng)生成的20個(gè)任務(wù)【67】。以下是這些規(guī)劃域的列表,并附有每個(gè)域的簡(jiǎn)要說明。
1. BLOCKSWORLD:給定一組在桌子上的積木堆,一個(gè)機(jī)器人被要求將它們重新排列成指定的目標(biāo)配置。
2. BARMAN:一個(gè)機(jī)器人調(diào)酒師被要求根據(jù)顧客的訂單使用可用的原料和容器制作雞尾酒。
3. FLOORTILE:一組機(jī)器人被要求在地磚上使用油漆顏色圖案。機(jī)器人可以四處移動(dòng)并改變顏色,但不能踩在已經(jīng)涂色的瓷磚上。
4. GRIPPERS:一組帶有兩個(gè)夾具的機(jī)器人被賦予將物體在不同房間間移動(dòng)的任務(wù)。
5. STORAGE:給定一組起重機(jī),目標(biāo)是使用起重機(jī)將板條箱抬起并放入倉(cāng)庫(kù)中。板條箱最初存儲(chǔ)在不同區(qū)域,起重機(jī)可以在存儲(chǔ)區(qū)域之間移動(dòng)。
6. TERMES:一個(gè)機(jī)器人被要求通過攜帶和放置積木來(lái)建造復(fù)雜的結(jié)構(gòu),還要爬上積木以便能夠建造塔。
7. TYREWORLD:機(jī)器人被要求通過例如充氣輪胎、擰緊螺母和在完成后將工具放回后備箱等操作,按正確的順序更換輪胎。
對(duì)于每個(gè)問題 \( P \),它包含一個(gè)自然語(yǔ)言描述和一個(gè)真實(shí)的 PDDL 問題文件。每個(gè)域還包括一個(gè)示例問題描述、對(duì)應(yīng)的 PDDL 文件和計(jì)劃描述,作為各種方法中的上下文。我們假設(shè)每個(gè)問題域都有一個(gè)用戶或域?qū)<以谔幚碓撚蛑械娜魏我?guī)劃問題之前提供的域 PDDL 文件。為了實(shí)現(xiàn)可重復(fù)性,此數(shù)據(jù)集在我們的代碼庫(kù)中公開提供。
B. 實(shí)驗(yàn)設(shè)置
我們?cè)谒袑?shí)驗(yàn)中都使用 OpenAI 提供的 GPT-4 模型【2】。我們將溫度設(shè)置為0,并使用最高概率響應(yīng)。因此,LLM 返回的響應(yīng)是確定性的。一旦生成了文本 PDDL 響應(yīng),我們將其輸入 FAST-DOWNWARD 規(guī)劃器,并嘗試使用 SEQ-OPT-FDSS-1(保證最優(yōu))和 LAMA(不保證最優(yōu))兩個(gè)別名,最大搜索時(shí)間為200秒。我們報(bào)告最優(yōu)別名的成功率,對(duì)于超時(shí)的域,我們顯示次優(yōu)別名的成功率(括號(hào)內(nèi))。對(duì)于基線方法,我們手動(dòng)計(jì)算最優(yōu)計(jì)劃的數(shù)量,并報(bào)告正確計(jì)劃的數(shù)量(如果有任何次優(yōu)計(jì)劃,則在括號(hào)中)。
我們還評(píng)估了一個(gè)名為“思維樹”(Tree of Thoughts)的近期 LLM 推理方法,簡(jiǎn)稱 LLM-AS-P(TOT)。我們調(diào)整了原始 ToT 實(shí)現(xiàn)中的廣度優(yōu)先搜索算法【68】以用于規(guī)劃。在每個(gè)樹節(jié)點(diǎn)上,LLM 被提示提供允許的動(dòng)作列表,然后調(diào)用 LLM 評(píng)估樹上新路徑作為部分計(jì)劃的可能性。相同的200秒時(shí)間限制被應(yīng)用。
C. 結(jié)果與分析
將 LLM-AS-P 和 LLM+P 應(yīng)用于7個(gè)域的結(jié)果如表1所示。
表 I:應(yīng)用無(wú)上下文的 LLM-AS-P(LLM?)、有上下文的 LLM-AS-P(LLM)、思維樹(LLMToT)、無(wú)上下文的 LLM+P(LLM+P?)和 LLM+P 在不同域上的成功率 %。
發(fā)現(xiàn)(LLM-AS-P):
1. 我們觀察到,盡管 LLM-AS-P 為每個(gè)問題提供了自然語(yǔ)言的計(jì)劃,但大多數(shù)計(jì)劃不可行。主要原因是 LLM-AS-P 缺乏推理前提條件的能力。
2. 在大多數(shù)情況下,無(wú)論是否提供示例計(jì)劃作為上下文,LLM-AS-P 都以相同的方式失敗。特別是在 BLOCKSWORLD 域中,LLM-AS-P 無(wú)法跟蹤諸如 ON 和 CLEAR 之類的屬性。在 BARMAN 域中,LLM-AS-P 的計(jì)劃未能在再次使用前清潔酒杯。
3. 最復(fù)雜的域是那些具有復(fù)雜空間關(guān)系的域。LLM-AS-P 方法(無(wú)論是否有上下文)在此類問題中完全失敗。在 FLOORTILE 域中,LLM-AS-P 生成了“移動(dòng)到瓷磚 0-4 并將瓷磚 1-2 涂成黑色”,但機(jī)器人只能涂相鄰的瓷磚。在 TERMES 和 STORAGE 中,LLM-AS-P 忽略了機(jī)器人不能在它占據(jù)的同一位置卸下積木/板條箱的要求。
4. LLM-AS-P(TOT)在每個(gè)樹節(jié)點(diǎn)上調(diào)用 LLM 提供可用動(dòng)作列表,然后調(diào)用 LLM 評(píng)估每條新路徑作為部分計(jì)劃。我們發(fā)現(xiàn) LLM 能夠?qū)Σ糠钟?jì)劃進(jìn)行合理的排序,但它經(jīng)常無(wú)法識(shí)別計(jì)劃是否達(dá)到了目標(biāo)。由于 LLM 調(diào)用次數(shù)較多,LLM-AS-P(TOT)在大多數(shù)情況下超時(shí),因此不適合解決長(zhǎng)時(shí)間規(guī)劃問題。
發(fā)現(xiàn)(LLM+P):
1. 提出的 LLM+P 為大多數(shù)問題生成了最優(yōu)計(jì)劃。大多數(shù)失敗的情況是由于錯(cuò)誤指定的問題文件,例如缺少初始條件之一(例如在 FLOORTILE 中沒有連接瓷磚),導(dǎo)致規(guī)劃問題無(wú)法解決。
2. 在沒有上下文的情況下(即沒有示例問題及其對(duì)應(yīng)的問題 PDDL),我們觀察到 LLM 無(wú)法生成正確的問題 PDDL 文件。因此,上下文對(duì)于 LLM+P 的工作至關(guān)重要。
D. 機(jī)器人演示
我們驗(yàn)證了 LLM+P 能夠通過部署在一個(gè)實(shí)際的機(jī)器人上高效解決現(xiàn)實(shí)中的服務(wù)機(jī)器人問題,該機(jī)器人被分配了整理家庭的任務(wù)。用戶要求機(jī)器人將芥末瓶從咖啡桌移動(dòng)到食品儲(chǔ)藏室,并將空罐頭從側(cè)桌扔掉。由于側(cè)桌和回收箱位于從咖啡桌到食品儲(chǔ)藏室的途中,最優(yōu)的計(jì)劃是將芥末瓶帶到側(cè)桌,扔掉罐頭后重新抓住它,總代價(jià)為22。圖2顯示了 LLM+P 發(fā)現(xiàn)的最優(yōu)計(jì)劃。提示和生成的 PDDL 的部分內(nèi)容如下。LLM-AS-P 輸出了一個(gè)次優(yōu)計(jì)劃,該計(jì)劃先將瓶子帶到食品儲(chǔ)藏室,然后返回取罐頭,總代價(jià)為31。
(注釋:LLM+P 生成的整理問題 PDDL
問題 (P):你是一臺(tái)配備一個(gè)夾具的家用機(jī)器人??Х茸篮蛡?cè)桌之間的距離是10,咖啡桌和儲(chǔ)藏室之間的距離是20……你現(xiàn)在在咖啡桌旁,有一個(gè)芥末瓶……你的目標(biāo)是將物品移動(dòng)到它們的目的地……
LLM+P 生成的問題 PDDL:
```pddl
(:objects coffee-table side-table recycle-bin pantry - location
mustard-bottle soup-can - object)
(:init (= (total-cost) 0)
(= (distance coffee-table side-table) 10)
(= (distance coffee-table pantry) 20)
... (robot-at coffee-table)
(at mustard-bottle coffee-table)
(at soup-can side-table)
(hand-empty) )
(:goal (and (at mustard-bottle pantry) (at soup-can recycle-bin)))
(:metric minimize (total-cost))
```)
圖 2:整理計(jì)劃的最優(yōu)方案演示。機(jī)器人從咖啡桌開始:1) 拿起瓶子,2) 導(dǎo)航到放有側(cè)桌和回收箱的房間,3) 放下瓶子,4) 抓住罐頭,5) 將罐頭放入回收箱,6) 重新抓住瓶子,7) 導(dǎo)航到廚房,8) 將瓶子放入儲(chǔ)藏室。
VI. 結(jié)論與未來(lái)工作
在這項(xiàng)工作中,我們提出利用經(jīng)典規(guī)劃器來(lái)賦予大規(guī)模語(yǔ)言模型(LLMs)最佳的規(guī)劃能力。LLM+P 框架的關(guān)鍵設(shè)計(jì)選擇是將 LLM 的重點(diǎn)放在將規(guī)劃問題從自然語(yǔ)言翻譯成結(jié)構(gòu)化的 PDDL 格式上。此外,我們展示了讓 LLM 意識(shí)到一個(gè)簡(jiǎn)單的(問題,PDDL)對(duì)作為示例(或上下文)對(duì)上下文學(xué)習(xí)的重要性。
一些擴(kuò)展 LLM+P 框架的有趣方向包括:
1. 使 LLM 能夠自動(dòng)識(shí)別何時(shí)以及如何應(yīng)用 LLM+P;
2. 減少 LLM+P 對(duì)人工提供信息的依賴,可能涉及微調(diào)。
Liu B, Jiang Y, Zhang X, et al. Llm+ p: Empowering large language models with optimal planning proficiency[J]. arXiv preprint arXiv:2304.11477, 2023.
1Language Technologies Institute, Carnegie Mellon University
2Allen Institute for Artificial Intelligence
3University of Washington
4NVIDIA
5UC San Diego
6Google Research, Brain Team
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/EvdJU-G_JdhemKNkSvfbBQ??
