大型語(yǔ)言模型與智能機(jī)器人集成的調(diào)查研究 原創(chuàng)
摘要:近年來(lái),大型語(yǔ)言模型(LLMs)的集成已經(jīng)徹底改變了機(jī)器人學(xué)領(lǐng)域,使機(jī)器人能夠以類似人類的熟練程度進(jìn)行交流、理解和推理。本文探討了LLMs對(duì)機(jī)器人學(xué)多方面的影響,解決了利用這些模型在各個(gè)領(lǐng)域的關(guān)鍵挑戰(zhàn)和機(jī)遇。通過(guò)將LLM應(yīng)用歸類并分析在機(jī)器人學(xué)的核心要素——通信、感知、規(guī)劃和控制中,我們旨在為尋求將LLM集成到他們的機(jī)器人系統(tǒng)中的研究者提供可行的見(jiàn)解。我們的研究重點(diǎn)放在GPT-3.5之后開(kāi)發(fā)的LLMs上,主要在基于文本的模態(tài)中,同時(shí)也考慮了用于感知和控制的多模態(tài)方法。我們?yōu)樘崾竟こ烫峁┤娴闹笇?dǎo)方針和示例,以促進(jìn)初學(xué)者接觸基于LLM的機(jī)器人解決方案。通過(guò)教程級(jí)別的示例和結(jié)構(gòu)化的提示構(gòu)建,我們展示了如何將LLM引導(dǎo)的增強(qiáng)功能無(wú)縫集成到機(jī)器人應(yīng)用中。本調(diào)查作為研究人員導(dǎo)航LLM驅(qū)動(dòng)的機(jī)器人學(xué)不斷發(fā)展的領(lǐng)域的路線圖,提供了一個(gè)全面的概述和實(shí)用指南,以利用語(yǔ)言模型在機(jī)器人學(xué)開(kāi)發(fā)中的力量。
1 引言
在過(guò)去的十年中,我們?cè)趹?yīng)用語(yǔ)言模型(LMs)的機(jī)器人學(xué)領(lǐng)域見(jiàn)證了顯著的進(jìn)步。這一進(jìn)展不僅包括類似人類的交流,還包括機(jī)器人的理解和推理能力,從而顯著提高了它們?cè)诟鞣N任務(wù)中的有效性,從家務(wù)到工業(yè)操作[52, 105]。在工作的早期階段,成功源于統(tǒng)計(jì)模型分析和預(yù)測(cè)語(yǔ)言表達(dá)中的詞匯。這些模型使機(jī)器人能夠解釋人類命令[110, 121],理解上下文[2, 4],代表世界[50],以及與人類互動(dòng)[134],盡管理解的深度有限。然后,采用具有自注意力機(jī)制的Transformer架構(gòu)[140],特別是像BERT這樣的預(yù)訓(xùn)練LMs[26],提高了捕捉復(fù)雜模式的能力,同時(shí)為特定任務(wù)微調(diào)模型。然而,這些模型的性能常常取決于有限的數(shù)據(jù)集,限制了它們對(duì)更深層次上下文理解的把握和在多樣化場(chǎng)景中的泛化能力。
隨著大型語(yǔ)言模型(LLMs)的進(jìn)步,基于語(yǔ)言的機(jī)器人學(xué)在各個(gè)領(lǐng)域引入了創(chuàng)新性的變化,如信息檢索、推理任務(wù)、適應(yīng)環(huán)境、持續(xù)學(xué)習(xí)和改進(jìn)等[61, 64]。這些LLMs的特點(diǎn)是它們龐大的參數(shù)規(guī)模和在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集上的訓(xùn)練,為下游任務(wù)提供了零樣本和少樣本學(xué)習(xí)的能力,而無(wú)需額外的參數(shù)更新。
這些顯著的進(jìn)步來(lái)自于文獻(xiàn)[147]中定義的“在小模型中不存在但在大模型中出現(xiàn)的”新興能力。這些能力顯著提高了機(jī)器人通過(guò)利用廣泛的常識(shí)知識(shí)[8]來(lái)理解、推斷和響應(yīng)開(kāi)放式指令的性能。此外,稱為提示工程的提示創(chuàng)建技術(shù),使LLMs能夠通過(guò)自由形式的語(yǔ)言描述或交互式對(duì)話納入更豐富的上下文信息,促進(jìn)了泛化推理[148]。引入的上下文學(xué)習(xí)能力[8]使LLMs能夠基于提示中提供的指令或演示生成預(yù)期格式的輸出,如JSON、YAML或PDDL,甚至代碼[42, 87]。最近的LLMs,如GPT-4,通過(guò)與外部機(jī)器人工具(如規(guī)劃器或翻譯器)[90]集成,進(jìn)一步擴(kuò)展了能力。
盡管LLMs具有多樣化的能力,它們的使用面臨著幾個(gè)挑戰(zhàn)[69]。首先,LLMs經(jīng)常生成不準(zhǔn)確或意外的響應(yīng)。由于機(jī)器人執(zhí)行的安全性是最重要的部署因素,基于LLM的機(jī)器人應(yīng)用需要過(guò)濾和糾正機(jī)制以確保安全。其次,像上下文學(xué)習(xí)這樣的新興能力尚未可預(yù)測(cè)和一致[19]。即使是輸入文本的微小變化也可能導(dǎo)致響應(yīng)的不可預(yù)測(cè)變化。第三,精心設(shè)計(jì)的提示使機(jī)器人能夠有效地利用LLMs的能力,但缺乏支持機(jī)器人系統(tǒng)關(guān)鍵組件的系統(tǒng)指導(dǎo)方針,阻礙了無(wú)縫集成[35, 54, 164]。因此,我們需要對(duì)機(jī)器人學(xué)中LLM的參與進(jìn)行逐個(gè)組件的調(diào)查,以理解限制和安全性。
目前,各種調(diào)查已經(jīng)開(kāi)始探索大型語(yǔ)言模型(LLMs)和機(jī)器人學(xué)的交叉點(diǎn)[141, 164],主要關(guān)注基于LLM的機(jī)器人學(xué)的應(yīng)用或交互維度。然而,在提供全面審查和將LLMs集成到機(jī)器人系統(tǒng)的關(guān)鍵要素——包括通信、感知、規(guī)劃和控制——的可行見(jiàn)解方面,仍然存在差距。此外,研究人員探索了廣泛的預(yù)訓(xùn)練大容量模型領(lǐng)域,這些模型被稱為基礎(chǔ)模型,尋求在多模態(tài)基于Transformer的模型中的泛化能力[35, 54]。然而,這個(gè)廣泛的領(lǐng)域涵蓋了機(jī)器人學(xué)的廣泛范圍和多樣化的方法論,使得新興研究人員錯(cuò)過(guò)了深入的審查和指導(dǎo)方針。
在本文中,如圖1所示,我們的目標(biāo)是分類并分析LLMs如何增強(qiáng)機(jī)器人系統(tǒng)的核心要素,以及我們?nèi)绾沃笇?dǎo)新興研究人員在每個(gè)領(lǐng)域內(nèi)集成LLMs,包括通信、感知、規(guī)劃和控制,以發(fā)展智能機(jī)器人。我們根據(jù)三個(gè)關(guān)鍵問(wèn)題構(gòu)建本文:
? Q1: LLMs在每個(gè)機(jī)器人學(xué)領(lǐng)域如何被利用?
? Q2: 研究人員如何克服LLMs集成的局限性?
? Q3: 產(chǎn)生每個(gè)領(lǐng)域中最小功能所需的基本提示結(jié)構(gòu)是什么?
為了回答這些問(wèn)題,我們專注于GPT-3.5引入后開(kāi)發(fā)的LLMs[106]。我們主要考慮基于文本的模態(tài),但也回顧了感知和控制領(lǐng)域的多模態(tài)性。然而,為了進(jìn)行深入審查,我們將調(diào)查限制在LLMs上,而不是基礎(chǔ)模型。
此外,我們?yōu)樘崾竟こ烫峁┝巳娴闹笇?dǎo)方針和示例,旨在使初學(xué)者能夠接觸基于LLM的機(jī)器人解決方案。我們的教程級(jí)示例說(shuō)明了如何通過(guò)引入四種類型的示例提示來(lái)增強(qiáng)或替代機(jī)器人組件的基本功能:對(duì)話提示用于交互性基礎(chǔ),指令提示用于場(chǎng)景圖生成,規(guī)劃提示用于少樣本規(guī)劃,以及代碼生成提示用于獎(jiǎng)勵(lì)生成。通過(guò)提供提示構(gòu)建的規(guī)則和技巧,我們概述了生成設(shè)計(jì)良好的提示以產(chǎn)生所需格式的輸出的過(guò)程。這些原則確保了在機(jī)器人應(yīng)用中有效的LLM引導(dǎo)增強(qiáng),而無(wú)需參數(shù)調(diào)整。
本文的其余部分組織如下。第2節(jié)概述了機(jī)器人學(xué)中LMs和LLMs的歷史背景。第3節(jié)回顧了LLMs如何通過(guò)語(yǔ)言理解和生成使機(jī)器人能夠進(jìn)行通信。第4節(jié)調(diào)查了LLMs如何感知各種傳感器模態(tài)并推進(jìn)感知行為。第5節(jié)和第6節(jié)分別組織了基于LLM的規(guī)劃和控制研究。在第7節(jié),我們?yōu)樘崾竟こ烫峁┝巳娴闹笇?dǎo)方針,作為L(zhǎng)LM集成到機(jī)器人學(xué)的起點(diǎn)。最后,第8節(jié)總結(jié)了這項(xiàng)調(diào)查。
2 初步
我們簡(jiǎn)要回顧語(yǔ)言模型,分為兩個(gè)部分:LLM出現(xiàn)前后。與以往文獻(xiàn)[164]中的概述不同,我們將LM(語(yǔ)言模型)的時(shí)期——即LLM(大型語(yǔ)言模型)出現(xiàn)之前,限定在神經(jīng)語(yǔ)言模型開(kāi)始被使用的時(shí)間段,這一時(shí)期從循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)[33]的引入開(kāi)始,直至諸如GPT-2[115]這樣采用Transformer架構(gòu)的模型問(wèn)世。同時(shí),我們也對(duì)LLMs進(jìn)行了簡(jiǎn)要說(shuō)明,并涉及到相關(guān)的術(shù)語(yǔ)和技術(shù)。
2.1 機(jī)器人學(xué)中的語(yǔ)言模型
基于LM的機(jī)器人學(xué)研究主要探索了神經(jīng)語(yǔ)言模型,用于序列數(shù)據(jù)處理。在早期階段,基于RNN的LM[23, 46]利用RNN的序列到序列建模能力,將語(yǔ)言命令轉(zhuǎn)換為一系列動(dòng)作[6, 100]或形式語(yǔ)言[40]。使用RNN作為語(yǔ)言編碼器,LMs還將文本輸入轉(zhuǎn)換為語(yǔ)言特征,然后可以將其映射到視覺(jué)特征以進(jìn)行指代表達(dá)對(duì)象識(shí)別[121, 125]。然而,RNN中的長(zhǎng)期依賴問(wèn)題限制了它們的應(yīng)用范圍。隨后,Transformer架構(gòu)[140]的引入克服了這些限制,使其能夠應(yīng)用于需要長(zhǎng)期理解的任務(wù),例如視覺(jué)-語(yǔ)言導(dǎo)航[14, 16]。先前的方法嚴(yán)重依賴訓(xùn)練數(shù)據(jù)集,降低了泛化能力。然而,基于Transformer的模型的可擴(kuò)展性和自監(jiān)督學(xué)習(xí)技術(shù),如掩蔽語(yǔ)言建模,導(dǎo)致了互聯(lián)網(wǎng)規(guī)模預(yù)訓(xùn)練模型的發(fā)展,如BERT[26]或GPT-2[115]。這些預(yù)訓(xùn)練模型展示了通用的語(yǔ)言理解能力。這一進(jìn)步允許對(duì)這些模型進(jìn)行特定任務(wù)的微調(diào)[74, 75, 124]。此外,使用預(yù)訓(xùn)練的多模態(tài)語(yǔ)言模型,如CLIP[116],有助于利用跨模態(tài)對(duì)齊的特征,如視覺(jué)和語(yǔ)言,豐富了在機(jī)器人研究中的應(yīng)用[76, 126]。
2.2 機(jī)器人學(xué)中的大型語(yǔ)言模型
最近在LLMs方面的進(jìn)展,如GPT-3[8]、GPT-4[107]、LLaMA[136]、Llama 2[137]和Gemini[39],在理解、上下文感知、泛化能力和知識(shí)豐富性方面取得了顯著進(jìn)步,超越了早期的語(yǔ)言模型。這些進(jìn)步來(lái)自于它們?cè)跀?shù)十億規(guī)模參數(shù)的龐大數(shù)據(jù)集上的訓(xùn)練,使它們能夠捕捉到復(fù)雜的數(shù)據(jù)模式。此外,還開(kāi)發(fā)了先進(jìn)的學(xué)習(xí)策略,如從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí),以使LLMs的行為與人類價(jià)值觀或偏好保持一致[108]。
另一方面,提示工程,利用上下文學(xué)習(xí)(ICL)[8],代表了另一個(gè)重大進(jìn)展,允許LLMs在沒(méi)有額外訓(xùn)練的情況下直接從提示中學(xué)習(xí)。提示工程的有效性取決于提示的設(shè)計(jì)和質(zhì)量,包括詳細(xì)的任務(wù)描述、少樣本示例或更多模型可消化的格式(例如,###作為停止符號(hào)[167])。此外,思維鏈(CoT)提示方法[148]出現(xiàn)了,將中間推理步驟納入提示中,導(dǎo)致復(fù)雜推理任務(wù)的顯著增強(qiáng)。正在進(jìn)行的研究努力進(jìn)一步提高LLMs的推理能力,如思維樹[160]或思維圖[5]的發(fā)展。
另一方面,各種基于LLM的機(jī)器人學(xué)研究已經(jīng)嘗試直接訓(xùn)練LLMs[7, 170]。然而,完整的微調(diào),即在特定任務(wù)數(shù)據(jù)上訓(xùn)練整個(gè)模型,不僅計(jì)算成本高昂,而且由于它們的大規(guī)模參數(shù),獲得足夠的數(shù)據(jù)也很昂貴。為了解決這些問(wèn)題,研究人員開(kāi)發(fā)了參數(shù)高效的微調(diào)方法,如適配器——插入到LLM的每層中的小型、可訓(xùn)練網(wǎng)絡(luò),用于特定任務(wù)的調(diào)整[49],和LoRA[51],它對(duì)每層中更新的矩陣施加低秩約束。LLMs在這些方面的發(fā)展顯著影響著機(jī)器人學(xué),為在機(jī)器人系統(tǒng)內(nèi)更深入地探索LLM應(yīng)用奠定了基礎(chǔ)。
3 通信
我們研究了LLMs的使用,以促進(jìn)機(jī)器人學(xué)中類似人類的通信,使機(jī)器人能夠有效地與人類和其他機(jī)器人代理進(jìn)行交互[98]。我們將通信能力分為兩個(gè)主要領(lǐng)域:(1)語(yǔ)言理解;(2)語(yǔ)言生成,如圖1所示,該圖顯示了詳細(xì)的分類以及相關(guān)研究,用綠色單元格引用。

圖1:本調(diào)研中綜合了LLMs的智能機(jī)器人學(xué)研究概覽結(jié)構(gòu)。最右側(cè)的單元格展示了每個(gè)類別中代表性的名稱(例如,方法、模型或作者名)。
3.1 語(yǔ)言理解
我們回顧了語(yǔ)言理解能力,探討了LLMs如何通過(guò)解釋和基礎(chǔ)化處理語(yǔ)言輸入的變異性和歧義性。
解釋涉及將自然語(yǔ)言輸入轉(zhuǎn)換為機(jī)器人可操作的語(yǔ)義表示,范圍從形式語(yǔ)言,如線性時(shí)序邏輯(LTL)[94, 159]和規(guī)劃領(lǐng)域定義語(yǔ)言(PDDL)[18, 42, 90, 154],到編程語(yǔ)言,如Python[56, 76]。為了幫助解釋自由形式的句子,研究人員利用LLMs的上下文學(xué)習(xí)(ICL)能力,在提示中提供指導(dǎo)和示例[56, 76, 90, 122]。盡管做出了努力,LLMs在將輸入轉(zhuǎn)換為形式語(yǔ)言時(shí)常常無(wú)法滿足語(yǔ)法或捕獲精確的語(yǔ)義。解決方案包括簡(jiǎn)化詞匯或使用領(lǐng)域不可知數(shù)據(jù)微調(diào)LLMs[94, 159]。翻譯系統(tǒng),如Lang2LTL[92],展示了LLMs如何將導(dǎo)航命令中的地標(biāo)引用表達(dá)式翻譯成LTL符號(hào)。進(jìn)一步的改進(jìn)通常涉及使用人類反饋和語(yǔ)法檢查器來(lái)糾正生成的形式語(yǔ)言翻譯[18, 42]。例如,Guan等人[42]提出了一個(gè)循環(huán)中的人類翻譯框架,人類領(lǐng)域?qū)<曳磸?fù)審查PDDL描述并用自然語(yǔ)言提供反饋。
(注釋:假設(shè)你有一個(gè)機(jī)器人助手,它能夠理解人類的語(yǔ)言并執(zhí)行任務(wù)。但是,為了讓機(jī)器人能夠理解并執(zhí)行復(fù)雜的任務(wù),你需要將人類說(shuō)的話轉(zhuǎn)換成機(jī)器人能夠理解的“語(yǔ)言”。這種“語(yǔ)言”可以是一些特別的形式語(yǔ)言,比如線性時(shí)序邏輯(LTL)或者規(guī)劃領(lǐng)域定義語(yǔ)言(PDDL),也可以是編程語(yǔ)言,比如Python。
為了讓機(jī)器人助手更好地理解我們說(shuō)的話,研究人員利用了一種叫做大型語(yǔ)言模型(LLMs)的技術(shù)。這些模型能夠根據(jù)上下文來(lái)學(xué)習(xí)并理解語(yǔ)言,就像我們學(xué)習(xí)新詞匯一樣。研究人員會(huì)在提示中加入一些指導(dǎo)和例子,幫助這些模型更好地理解我們的話。
但是,即使有了這些幫助,機(jī)器人助手在把我們的話轉(zhuǎn)換成它們能理解的形式語(yǔ)言時(shí),有時(shí)候還是會(huì)出錯(cuò),比如語(yǔ)法不對(duì)或者意思理解得不夠準(zhǔn)確。為了解決這個(gè)問(wèn)題,研究人員想出了一些辦法,比如簡(jiǎn)化我們使用的詞匯,或者用一些特殊的數(shù)據(jù)來(lái)調(diào)整模型,讓它更好地適應(yīng)特定的領(lǐng)域。
還有一些專門的系統(tǒng),比如Lang2LTL,它們能夠把我們說(shuō)的話中的一些特定表達(dá)轉(zhuǎn)換成LTL符號(hào),這樣機(jī)器人就能更好地理解我們的導(dǎo)航命令。
為了讓機(jī)器人助手更準(zhǔn)確地理解我們的話,研究人員還會(huì)用到人類的反饋。比如,他們會(huì)請(qǐng)一些領(lǐng)域內(nèi)的專家來(lái)檢查機(jī)器人助手生成的代碼,然后用自然語(yǔ)言提供反饋,幫助改進(jìn)模型。
舉個(gè)例子,Guan等人提出了一個(gè)系統(tǒng),在這個(gè)系統(tǒng)中,人類專家會(huì)反復(fù)檢查PDDL的描述,并用自然語(yǔ)言提供反饋,這樣機(jī)器人助手就能不斷學(xué)習(xí)和改進(jìn),更好地理解我們的話。)
基礎(chǔ)化是將語(yǔ)言表達(dá)映射到機(jī)器人可識(shí)別的參照物,如行為或?qū)ο?。早期研究通過(guò)最大化LLM輸出的詞嵌入與現(xiàn)實(shí)世界參照物之間的余弦相似度來(lái)找到映射[58, 76, 94, 117]。隨后的研究結(jié)合了LLMs的常識(shí)知識(shí),為物體的語(yǔ)言標(biāo)簽基礎(chǔ)化提供上下文支持[41, 118]。例如,Guan等人[41]展示了LLMs如何根據(jù)我們知道的大小和重量假設(shè),將“用作紙鎮(zhèn)的東西”基礎(chǔ)化到一個(gè)陶瓷花瓶上。然而,基礎(chǔ)化的準(zhǔn)確性取決于世界模型的細(xì)節(jié)和準(zhǔn)確性。為了解決這個(gè)問(wèn)題,研究人員通過(guò)多模態(tài)能力增強(qiáng)LLMs,直接將語(yǔ)言輸入與感官感知相關(guān)聯(lián)[31, 47, 114, 158],或使LLMs能夠與環(huán)境[157, 168]或人類[61, 109, 120]進(jìn)行交互以更好地收集上下文。例如,3D視覺(jué)基礎(chǔ)化方法,LLM-Grounder[157],使用視覺(jué)工具,如LERF[72]和OpenScene[111],積極收集環(huán)境信息。
(注釋:基礎(chǔ)化就是教機(jī)器人理解我們說(shuō)的話,并將這些話與它能夠識(shí)別的事物或動(dòng)作聯(lián)系起來(lái)。比如,當(dāng)我們說(shuō)“拿起杯子”,機(jī)器人需要知道“杯子”是什么,以及“拿起”這個(gè)動(dòng)作意味著什么。
在早期研究中,研究人員嘗試通過(guò)比較機(jī)器人內(nèi)部的詞匯(詞嵌入)與真實(shí)世界中的事物之間的相似度來(lái)教機(jī)器人理解語(yǔ)言。他們用一個(gè)叫做“余弦相似度”的方法來(lái)衡量這種相似性,就像我們用尺子量東西一樣,看看機(jī)器人的理解和現(xiàn)實(shí)世界有多接近。
后來(lái),研究人員發(fā)現(xiàn),除了比較相似度,還可以利用機(jī)器人的**常識(shí)知識(shí)**來(lái)幫助理解語(yǔ)言。比如,我們知道紙鎮(zhèn)通常不會(huì)太重,所以當(dāng)我們說(shuō)“用作紙鎮(zhèn)的東西”,機(jī)器人可以推斷出這可能是一個(gè)輕的、可以用來(lái)壓紙的物品,比如一個(gè)陶瓷花瓶。
但是,機(jī)器人理解語(yǔ)言的準(zhǔn)確性還取決于它對(duì)世界的了解有多深入。為了提高這種準(zhǔn)確性,研究人員開(kāi)始給機(jī)器人增加更多的能力,比如讓它能夠處理多種類型的信息(多模態(tài)能力),或者讓它能夠直接通過(guò)感官(比如視覺(jué)、聽(tīng)覺(jué))來(lái)理解我們的話。
還有一些方法讓機(jī)器人能夠更好地與環(huán)境互動(dòng),或者與人類交流,從而收集更多的上下文信息,幫助它更好地理解我們的語(yǔ)言。
例如,有一個(gè)叫做LLM-Grounder的方法,它使用視覺(jué)工具來(lái)幫助機(jī)器人理解我們的話。這些工具可以像照相機(jī)一樣捕捉周圍環(huán)境的信息,幫助機(jī)器人更準(zhǔn)確地理解我們提到的物體。)
3.2 語(yǔ)言生成
語(yǔ)言生成指的是產(chǎn)生反映交流意圖的類似人類書面或口頭語(yǔ)言[38]。我們根據(jù)它們的交流意圖,將語(yǔ)言生成分類為任務(wù)依賴型和任務(wù)非依賴型,這與傳統(tǒng)的自然語(yǔ)言生成(NLG)類別(文本到文本和數(shù)據(jù)到文本)[30]不同,因?yàn)槲覀冴P(guān)注的是研究的交流目的。
任務(wù)依賴型語(yǔ)言生成專注于產(chǎn)生具有特定功能目標(biāo)的語(yǔ)言,無(wú)論是陳述性的還是命令性的。為了生成開(kāi)放式的陳述性語(yǔ)句,研究人員經(jīng)常向LLMs提供上下文信息[20, 62, 97]。然而,LLMs常常產(chǎn)生重復(fù)和事實(shí)不一致的輸出,受限于依賴先前的對(duì)話和常識(shí)知識(shí)[20, 84]。因此,研究人員通過(guò)輔助知識(shí)源增強(qiáng)LLMs,以擴(kuò)大可用信息的范圍[3, 21, 156]。例如,Axelsson和Skantze[3]通過(guò)知識(shí)圖譜增強(qiáng)了一個(gè)機(jī)器人博物館導(dǎo)游。此外,研究人員指導(dǎo)LLMs通過(guò)生成請(qǐng)求人類協(xié)助的命令性指令來(lái)澄清歧義[25, 61]。為了改進(jìn)推理步驟,引入了概率模型來(lái)評(píng)估情況的不確定性[109, 120]。例如,KnowNo[120]和CLARA[109]交互系統(tǒng)分別評(píng)估置信度和語(yǔ)義差異,僅當(dāng)這些指標(biāo)表明顯著的不確定性時(shí)才觸發(fā)生成。
(注釋:任務(wù)依賴型語(yǔ)言生成就是讓機(jī)器人或者計(jì)算機(jī)系統(tǒng)能夠根據(jù)特定的目標(biāo)來(lái)說(shuō)出有用的話。這可以是簡(jiǎn)單的陳述,比如說(shuō)出一些事實(shí),也可以是發(fā)出命令,告訴別人要做什么。
研究人員為了讓機(jī)器人能夠生成開(kāi)放式的陳述性語(yǔ)句,比如描述一個(gè)場(chǎng)景或者講述一個(gè)故事,通常會(huì)給機(jī)器人一些背景信息,幫助它更好地理解和生成語(yǔ)言。
但是,機(jī)器人在生成語(yǔ)言的時(shí)候可能會(huì)遇到一些問(wèn)題,比如它會(huì)重復(fù)說(shuō)同樣的話,或者說(shuō)出一些與事實(shí)不符的內(nèi)容。這主要是因?yàn)闄C(jī)器人生成語(yǔ)言的時(shí)候,往往依賴于它之前聽(tīng)到或者“記住”的對(duì)話,以及它所具備的一些常識(shí)。
為了解決這個(gè)問(wèn)題,研究人員嘗試通過(guò)給機(jī)器人提供額外的知識(shí)來(lái)源來(lái)幫助它。比如,他們可能會(huì)用到知識(shí)圖譜,這是一種能夠存儲(chǔ)大量信息的工具,可以幫助機(jī)器人更好地理解上下文和生成語(yǔ)言。
研究人員還會(huì)教機(jī)器人在遇到不確定的情況時(shí),向人類求助。比如,如果機(jī)器人不確定某個(gè)信息是否正確,它可以請(qǐng)求人類來(lái)幫助確認(rèn)。
此外,為了提高機(jī)器人的推理能力,研究人員還會(huì)使用一些概率模型來(lái)評(píng)估情況的不確定性。這就像是給機(jī)器人一個(gè)“信心計(jì)”,幫助它判斷自己生成的語(yǔ)言有多可靠。
例如,有兩個(gè)交互系統(tǒng)叫做KnowNo和CLARA,它們可以通過(guò)評(píng)估置信度和語(yǔ)義差異來(lái)判斷機(jī)器人生成的語(yǔ)言是否足夠可靠。如果這些指標(biāo)顯示不確定性很大,那么機(jī)器人就會(huì)選擇不生成語(yǔ)言,或者再次請(qǐng)求人類的幫助。)
任務(wù)非依賴型語(yǔ)言生成涉及制作具有社交情感目標(biāo)的表達(dá)[11],通過(guò)在提示中嵌入非語(yǔ)言線索(例如,非語(yǔ)言聲音、手勢(shì)和面部表情)來(lái)增強(qiáng)參與度和同理心[73, 81]。例如,Khoo等人[73]開(kāi)發(fā)了一個(gè)會(huì)話機(jī)器人,使用轉(zhuǎn)錄的音頻和視覺(jué)線索生成同理心響應(yīng)。然而,與LLMs的對(duì)話仍然表面化,因?yàn)橹R(shí)和對(duì)話歷史有限[65]。為了克服這一點(diǎn),研究人員將記憶模塊集成到LLMs中,使它們能夠以結(jié)構(gòu)化格式從對(duì)話中提取和存儲(chǔ)信息[22, 63, 65, 162]。例如,Irfan等人[65]設(shè)計(jì)的一個(gè)伴侶機(jī)器人,根據(jù)與用戶的互動(dòng)不斷更新機(jī)器人的記憶,以生成個(gè)性化的對(duì)話。
(注釋:任務(wù)非依賴型語(yǔ)言生成是一種讓機(jī)器人或計(jì)算機(jī)系統(tǒng)生成語(yǔ)言的技術(shù),這種語(yǔ)言不是用來(lái)完成特定任務(wù)的,而是用來(lái)進(jìn)行社交和表達(dá)情感的。就像我們和朋友聊天時(shí)那樣,不是為了完成某項(xiàng)工作,而是為了增進(jìn)彼此的感情和理解。
為了讓機(jī)器人在對(duì)話中更加自然和有人情味,研究人員嘗試在機(jī)器人的提示中加入一些非語(yǔ)言的線索,比如聲音的語(yǔ)調(diào)變化、手勢(shì)或者面部表情。這樣做可以讓機(jī)器人的交流更加生動(dòng),更有同理心,就像人類在交流時(shí)那樣。
舉個(gè)例子,Khoo等人開(kāi)發(fā)了一個(gè)會(huì)話機(jī)器人,它可以通過(guò)聽(tīng)人說(shuō)話的聲音和看人的面部表情來(lái)做出更有同理心的回應(yīng)。
但是,機(jī)器人和人的對(duì)話往往還是顯得比較膚淺,因?yàn)闄C(jī)器人的知識(shí)有限,而且它記得的對(duì)話內(nèi)容也不多。為了解決這個(gè)問(wèn)題,研究人員開(kāi)始在機(jī)器人的語(yǔ)言模型中加入記憶模塊。這些記憶模塊可以幫助機(jī)器人從對(duì)話中提取信息,并且像記筆記一樣把它們存起來(lái)。
舉個(gè)例子,Irfan等人設(shè)計(jì)了一個(gè)伴侶機(jī)器人,它會(huì)根據(jù)和用戶的互動(dòng)不斷地更新自己的記憶,然后用這些記憶來(lái)生成更加個(gè)性化的對(duì)話,讓對(duì)話更有深度,更貼近用戶的真實(shí)感受。
總的來(lái)說(shuō),這段話講的是如何讓機(jī)器人在社交和情感表達(dá)方面做得更好,通過(guò)加入非語(yǔ)言線索和記憶模塊,讓機(jī)器人的對(duì)話更加自然和有人情味。)
4 感知
感知在使機(jī)器人能夠做出決策、規(guī)劃行動(dòng)和導(dǎo)航真實(shí)世界中起著至關(guān)重要的作用[113]。在基于LLM的機(jī)器人感知領(lǐng)域,研究主要集中在兩個(gè)方面:感知模態(tài)和行為。在本節(jié)中,我們介紹了基于LLM的機(jī)器人如何將語(yǔ)言與感知模態(tài)集成,以及代理如何通過(guò)被動(dòng)和主動(dòng)感知行為獲取環(huán)境信息。圖1展示了詳細(xì)的分類以及相關(guān)研究,用粉色單元格引用。
4.1 感知模態(tài)
研究人員通過(guò)集成多模態(tài)語(yǔ)言模型顯著提高了機(jī)器人的理解和泛化能力。我們將主要的感知模態(tài)分類為視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)模態(tài),回顧了利用多模態(tài)LLMs進(jìn)行感知任務(wù)的最新研究。
視覺(jué)感知任務(wù)涉及對(duì)圖像或點(diǎn)云等視覺(jué)信息的解釋。預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型(VLMs),如CLIP[116]和InstructBLIP[83],允許基于LLM的機(jī)器人直接利用圖像源。例如,最近的基于LLM的操作系統(tǒng),如TidyBot[151]和RoCo[97],使用從CLIP和OWL-ViT[101]生成的圖像推斷對(duì)象標(biāo)簽或場(chǎng)景描述。此外,研究人員通過(guò)在下游任務(wù)上應(yīng)用VLMs,如圖像字幕[41]和視覺(jué)問(wèn)答(VQA)[36, 79, 104],擴(kuò)展了推理能力。這些下游任務(wù)使LLMs能夠隨后請(qǐng)求VLMs推斷對(duì)象屬性(例如,材料、易碎性)[36]或?yàn)樽ト〗拥貙?duì)象部分[104]。然而,圖像通常難以獲取空間幾何信息。
(注釋:研究人員正在讓機(jī)器人變得更聰明,他們用“多模態(tài)語(yǔ)言模型”的技術(shù)來(lái)幫助機(jī)器人更好地理解和處理不同類型的信息。這些信息包括我們能看到的(視覺(jué)信息)、能聽(tīng)到的(聽(tīng)覺(jué)信息)和能觸摸到的(觸覺(jué)信息)。
視覺(jué)感知任務(wù)就是讓機(jī)器人通過(guò)看東西來(lái)理解周圍世界。比如,機(jī)器人可以通過(guò)看一張圖片來(lái)知道圖片里有什么,或者發(fā)生了什么。
研究人員用了一些特別訓(xùn)練的模型,比如CLIP和InstructBLIP,這些模型就像是機(jī)器人的“眼睛”,幫助它們理解圖像。有了這些模型,機(jī)器人可以直接使用圖像信息來(lái)做任務(wù)。
比如TidyBot和RoCo,它們可以用CLIP和另一個(gè)叫做OWL-ViT的模型來(lái)理解圖像,然后告訴機(jī)器人圖片里有哪些東西,或者描述圖片里的場(chǎng)景。
研究人員還用這些視覺(jué)模型來(lái)做更復(fù)雜的任務(wù),比如給圖片配上文字(圖像字幕),或者回答關(guān)于圖片的問(wèn)題(視覺(jué)問(wèn)答,VQA)。這些任務(wù)讓機(jī)器人能夠更深入地理解圖片,比如猜測(cè)一個(gè)物體是什么材料做的,或者判斷它是否容易碎。
但是,這些模型也有局限性,比如它們很難從圖片中得到物體的準(zhǔn)確形狀和空間位置信息,這就是所謂的“空間幾何信息”。)
另外,Huang等人[56]將來(lái)自VLM(即,LSeg[82])的視覺(jué)-語(yǔ)言特征與三維(3D)點(diǎn)云關(guān)聯(lián)起來(lái),用于3D地圖重建。進(jìn)一步地,Jatavallabhula等人[66]通過(guò)引入來(lái)自VLMs的細(xì)粒度和像素對(duì)齊特征,改進(jìn)了與RGB-D圖像的關(guān)聯(lián)機(jī)制。然而,與3D信息的關(guān)聯(lián)往往是內(nèi)存密集型的,限制了大型場(chǎng)景的可擴(kuò)展性[56, 66, 157]。作為替代解決方案,研究人員經(jīng)常將幾何和語(yǔ)義特征與3D場(chǎng)景圖關(guān)聯(lián)起來(lái)[41]。
聽(tīng)覺(jué)感知涉及聲音的解釋?;贚LM的研究經(jīng)常利用預(yù)訓(xùn)練的音頻-語(yǔ)言模型(ALMs),如AudioCLIP[43]和Wav2CLIP[150],將它們與視覺(jué)數(shù)據(jù)集成以增強(qiáng)環(huán)境或上下文理解[55, 95, 123, 163]。例如,AVLMaps[55],一個(gè)具有交叉模態(tài)信息的3D空間地圖構(gòu)造器,將音頻、視覺(jué)和語(yǔ)言信號(hào)集成到3D地圖中,使代理能夠使用多模態(tài)目標(biāo)進(jìn)行導(dǎo)航,例如“在冰箱的圖像和打破玻璃的聲音之間移動(dòng)”。此外,REFLECT[95],一個(gè)用于總結(jié)機(jī)器人故障的框架,將多感官觀察結(jié)果(如RGB-D圖像、音頻剪輯和機(jī)器人狀態(tài))轉(zhuǎn)換為文本描述,以增強(qiáng)基于LLM的故障推理。
觸覺(jué)感知涉及接觸信息的解釋。研究人員引入了多模態(tài)感知模塊,這些模塊交互式地結(jié)合了從預(yù)定義的高級(jí)描述[168]或基于CLIP的觸覺(jué)圖像特征[48]獲得的觸覺(jué)特征。例如,MultiPLY[48],一個(gè)多感官LLM,將觸覺(jué)傳感器讀數(shù)轉(zhuǎn)換為由CLIP編碼的熱圖。然后,通過(guò)引入一個(gè)線性層的觸覺(jué)投影器,該模型將熱圖信息映射到LLMs的特征空間。
4.2 感知行為
根據(jù)感知行為的類型,我們將本節(jié)分解為被動(dòng)和主動(dòng)感知。被動(dòng)感知是指在不積極尋找的情況下收集感官信息的過(guò)程。盡管其有限,被動(dòng)感知已在基于LLM的機(jī)器人研究中廣泛用于各種任務(wù):對(duì)象識(shí)別[36, 53, 151]、姿態(tài)估計(jì)[104, 155]、場(chǎng)景重建[41, 59, 122, 122]和對(duì)象接地[66, 143, 157]。例如,TidyBot[151]從俯視圖中檢測(cè)最近的物體,然后使用機(jī)器人相機(jī)捕獲的更近的視圖識(shí)別其對(duì)象類別。然而,感知的被動(dòng)性質(zhì)限制了在信息未觀察或不可用時(shí)執(zhí)行任務(wù)的能力(例如,看不見(jiàn)的區(qū)域、重量)。
另一方面,主動(dòng)感知指的是通過(guò)采取額外的行動(dòng)有意識(shí)地收集感官信息的過(guò)程。通過(guò)感官觀察或請(qǐng)求用戶反饋[79, 129]獲取新信息,主動(dòng)信息收集增強(qiáng)了對(duì)環(huán)境的理解。例如,LLM-Planner[129]生成尋找動(dòng)作,如“打開(kāi)冰箱”以定位不可見(jiàn)的物體。最近的研究還專注于收集感官數(shù)據(jù),以更好地理解物體的物理屬性[48, 168]。然而,LLMs經(jīng)常生成不準(zhǔn)確或虛構(gòu)的信息,稱為幻覺(jué)。為了解決這個(gè)問(wèn)題,Dai等人[25]引入了一個(gè)個(gè)性化的會(huì)話代理,旨在詢問(wèn)用戶不確定的信息。
5 規(guī)劃
規(guī)劃涉及組織行動(dòng)以解決給定問(wèn)題,通常通過(guò)生成一系列高級(jí)符號(hào)操作符(即任務(wù)規(guī)劃)然后使用低級(jí)電機(jī)控制器執(zhí)行它們[37, 85]。本節(jié)調(diào)查了基于LLM的規(guī)劃研究如何通過(guò)將它們歸類為三個(gè)關(guān)鍵研究領(lǐng)域來(lái)解決規(guī)劃領(lǐng)域的局限性:(1)任務(wù)規(guī)劃,(2)運(yùn)動(dòng)規(guī)劃,和(3)任務(wù)和運(yùn)動(dòng)規(guī)劃(TAMP)。圖1展示了詳細(xì)的分類以及相關(guān)的規(guī)劃研究,用紫色單元格引用。
5.1 任務(wù)規(guī)劃
基于LLM的任務(wù)規(guī)劃器能夠在沒(méi)有嚴(yán)格符號(hào)定義的情況下生成計(jì)劃[58],而傳統(tǒng)的任務(wù)規(guī)劃器需要預(yù)先定義操作符,這些操作符具有關(guān)于可用行動(dòng)和約束的領(lǐng)域知識(shí)[34, 99]。在這一領(lǐng)域,大多數(shù)規(guī)劃器采用靜態(tài)規(guī)劃策略,它采用不隨環(huán)境變化而適應(yīng)的固定描述[163]。然而,自適應(yīng)規(guī)劃的替代方法允許將環(huán)境反饋納入輸入提示中,根據(jù)觀察到的條件調(diào)整行動(dòng)。本節(jié)根據(jù)這兩種策略:靜態(tài)規(guī)劃和自適應(yīng)規(guī)劃,審查基于LLM的規(guī)劃器。
靜態(tài)規(guī)劃:靜態(tài)規(guī)劃方法是一般的零次或少次預(yù)測(cè)方法,其中零次方法僅基于輸入命令生成計(jì)劃,而少次方法利用從有限的類似示例中學(xué)習(xí)[9, 27, 70, 163]。然而,由于推理能力有限,LLMs在長(zhǎng)期任務(wù)規(guī)劃中的表現(xiàn)往往不佳[90, 139]。為了解決這一局限性,Huang等人[58]引入了一個(gè)規(guī)劃器,該規(guī)劃器迭代選擇LLMs生成的可執(zhí)行操作中最可能的行動(dòng)。另外,基于LLM的代碼生成器,如Code as Policies[87]或ProgPrompt[128],產(chǎn)生導(dǎo)致適應(yīng)性行動(dòng)的代碼,以響應(yīng)觀察結(jié)果[56, 57]。Singh等人[128]證明,代碼生成優(yōu)于LLMs的基本任務(wù)規(guī)劃,因?yàn)檩敵鲇?jì)劃與執(zhí)行環(huán)境緊密對(duì)齊。盡管它們有優(yōu)勢(shì),但這些方法缺乏驗(yàn)證和重新規(guī)劃過(guò)程。
為了驗(yàn)證計(jì)劃,研究人員經(jīng)常將LLMs與邏輯程序相結(jié)合,要么(1)檢查結(jié)果計(jì)劃是否違反邏輯約束,要么(2)使用外部邏輯規(guī)劃器生成計(jì)劃。例如,SayPlan[118],一個(gè)基于GPT4的規(guī)劃器,通過(guò)場(chǎng)景圖模擬器3DSG[1]驗(yàn)證抽象級(jí)別行動(dòng),而LLM+P[90]應(yīng)用從LLMs翻譯的PDDL問(wèn)題到經(jīng)典任務(wù)規(guī)劃器,F(xiàn)ast Downward[45]。此外,Silver等人[127]證明,具有來(lái)自LLMs的初始計(jì)劃的基于搜索的規(guī)劃器通過(guò)探索較少的節(jié)點(diǎn)表現(xiàn)得更好。這些研究強(qiáng)調(diào)了將LLMs與邏輯程序集成以增加生成可行計(jì)劃的成功率或性能的有效性。
自適應(yīng)規(guī)劃:自適應(yīng)規(guī)劃允許機(jī)器人根據(jù)反饋修改它們的計(jì)劃或行動(dòng),要么根據(jù)環(huán)境觀察生成新計(jì)劃[20, 141, 151, 168, 169],要么通過(guò)檢測(cè)失敗并相應(yīng)調(diào)整[61]。Chen等人[12]和Huang等人[60]引入了根據(jù)觀察反饋生成新計(jì)劃的適應(yīng)策略,使機(jī)器人能夠響應(yīng)更廣泛的場(chǎng)景。另一種適應(yīng)策略是將失敗檢測(cè)作為反饋。例如,Inner Monologue[61]重試初始計(jì)劃,直到成功。此外,其他研究提供有關(guān)過(guò)去失敗的文本解釋,以幫助避免反復(fù)出現(xiàn)的問(wèn)題[88, 95, 117, 146]。LLM-Planner[129]和COWP[28]通過(guò)尋找利用觀察上下文和LLMs常識(shí)知識(shí)的替代計(jì)劃,提高了重新規(guī)劃能力。這些適應(yīng)新信息的靈活性增強(qiáng)了機(jī)器人在動(dòng)態(tài)設(shè)置中的自主性。
5.2 任務(wù)和運(yùn)動(dòng)規(guī)劃
我們概述了基于LLM的低級(jí)規(guī)劃,將方法分類為運(yùn)動(dòng)規(guī)劃和TAMP領(lǐng)域。
運(yùn)動(dòng)規(guī)劃指的是在機(jī)器人的配置空間或任務(wù)空間內(nèi)生成具有數(shù)值航點(diǎn)的目標(biāo)軌跡。然而,直接的數(shù)值序列化是具有挑戰(zhàn)性的,因?yàn)檎Z(yǔ)言模型通過(guò)生成與連續(xù)空間無(wú)關(guān)的標(biāo)記來(lái)學(xué)習(xí)。盡管如此,基于LLM的運(yùn)動(dòng)規(guī)劃器直接為無(wú)人機(jī)編舞生成位置序列[68],因?yàn)樗鼈兊娜蝿?wù)足夠簡(jiǎn)單,可以展示LLMs的空間推理能力。對(duì)于更復(fù)雜的場(chǎng)景,采用間接方法,Huang等人[59]將LLMs與基于搜索的規(guī)劃器相結(jié)合。在他們的框架中,VoxPoser,一個(gè)LLM,使用VLM生成潛在場(chǎng)的代碼,然后基于搜索的規(guī)劃器在生成的場(chǎng)內(nèi)進(jìn)行運(yùn)動(dòng)規(guī)劃。
TAMP指的是將高級(jí)任務(wù)規(guī)劃與低級(jí)運(yùn)動(dòng)規(guī)劃相結(jié)合。各種工作使用LLMs本身作為TAMP規(guī)劃器,利用它們的邏輯和物理推理能力[80, 97, 152]。研究人員指導(dǎo)LLMs生成高級(jí)子目標(biāo),然后使用它們進(jìn)行低級(jí)軌跡生成[80, 97]。然而,它們的粗略表示限制了它們的方法到簡(jiǎn)單的任務(wù),如取放。相反,Xia等人[152]使用運(yùn)動(dòng)學(xué)感知提示增強(qiáng)LLMs的運(yùn)動(dòng)學(xué)知識(shí),用于復(fù)雜的操作,如關(guān)節(jié)對(duì)象操作。此外,各種研究增強(qiáng)了LLMs以補(bǔ)充它們的推理能力。研究人員經(jīng)常集成一個(gè)邏輯增強(qiáng)的TAMP規(guī)劃器,以檢查任務(wù)計(jì)劃的邏輯可行性[29]。同時(shí),其他人使用物理增強(qiáng)的TAMP規(guī)劃器來(lái)評(píng)估物理可行性[18, 44, 89]。例如,Text2Motion[89]允許一個(gè)LLM生成物理上可行的高級(jí)行動(dòng),并將它們與學(xué)習(xí)到的技能結(jié)合起來(lái)進(jìn)行低級(jí)行動(dòng)。
6 控制
早期研究主要集中在建立簡(jiǎn)單的語(yǔ)言命令和已知運(yùn)動(dòng)原語(yǔ)之間的映射上。隨著深度學(xué)習(xí)的出現(xiàn),研究人員在控制方面探索了兩種主要方法:基于語(yǔ)言指令的控制值的直接建模[7, 119]和通過(guò)LLMs間接解釋復(fù)雜指令以生成行動(dòng)[153]。我們將這個(gè)領(lǐng)域的工作分為兩組:(1)直接方法,意味著基于語(yǔ)言指令直接生成控制命令;(2)間接方法,代表通過(guò)語(yǔ)言指導(dǎo)間接指定控制命令。圖1展示了詳細(xì)的分類以及相關(guān)論文,用橙色單元格引用。
6.1 直接方法
直接方法涉及使用LLM來(lái)解釋并產(chǎn)生可執(zhí)行命令,要么通過(guò)選擇運(yùn)動(dòng)原語(yǔ)[133],要么生成控制信號(hào)[145, 170]。早期工作生成行動(dòng)標(biāo)記以通過(guò)訓(xùn)練Transformer架構(gòu)[140]產(chǎn)生控制策略,使用特定任務(wù)的專家演示數(shù)據(jù)[7, 119, 131]。研究人員將這些標(biāo)記線性映射到離散化的末端執(zhí)行器速度[119]或位移[7, 131]以進(jìn)行連續(xù)運(yùn)動(dòng)。雖然這些方法在未見(jiàn)任務(wù)(如新對(duì)象或現(xiàn)實(shí)指令)上展示了一定程度的泛化,但它們通常需要大量的數(shù)據(jù)收集和訓(xùn)練時(shí)間。
為了減少收集工作,研究人員經(jīng)常利用現(xiàn)有的網(wǎng)絡(luò)規(guī)模視覺(jué)和語(yǔ)言數(shù)據(jù)集進(jìn)行微調(diào)[142, 170]。例如,Zitkovich等人共同微調(diào)VLMs,如PaLI-X[17]和PaLM-E[31],目標(biāo)是視覺(jué)語(yǔ)言任務(wù)和機(jī)器人控制任務(wù)。他們使用為VLMs設(shè)計(jì)的原始數(shù)據(jù)集以及機(jī)器人控制演示,在微調(diào)期間保持一般知識(shí),如在RT-2[170]中演示的那樣。此外,為了減少訓(xùn)練負(fù)擔(dān),Hu等人[51]使用低秩適應(yīng)(LoRA)方法對(duì)LLM進(jìn)行微調(diào),用于控制任務(wù)[15],而不是微調(diào)整個(gè)模型。
LLMs常常難以生成連續(xù)的行動(dòng)級(jí)命令,如關(guān)節(jié)位置和扭矩值,因?yàn)長(zhǎng)LMs通常生成稱為標(biāo)記的原子元素[133]。因此,研究人員反而使用LLMs生成任務(wù)級(jí)輸出[10, 102, 133]。例如,SayTap,一個(gè)基于LLM的步行控制器,使用LLM生成腳和地面之間的接觸模式,而不是直接產(chǎn)生關(guān)節(jié)位置,以實(shí)現(xiàn)步行運(yùn)動(dòng)。其他研究通過(guò)將其框架為完成末端執(zhí)行器姿態(tài)序列[102]或生成Python代碼[10],類似于自然語(yǔ)言生成任務(wù),來(lái)解決控制問(wèn)題。最近,研究人員提示LLM通過(guò)提供歸一化和離散化的控制值歷史來(lái)產(chǎn)生動(dòng)作空間輸出,以保持控制的連續(xù)性[145],或通過(guò)提供機(jī)器人運(yùn)動(dòng)學(xué)信息來(lái)確定所需姿態(tài)的合理關(guān)節(jié)值[86]。
6.2 間接方法
LLMs也適用于基于自然語(yǔ)言指令生成控制命令的間接表示(例如,子目標(biāo)或獎(jiǎng)勵(lì)函數(shù))。研究人員利用目標(biāo)描述,用自然語(yǔ)言解釋所需的行為,以指導(dǎo)學(xué)習(xí)過(guò)程[32, 67, 78]。例如,ELLM[32],一個(gè)基于LLM的RL框架,使用LLM生成子目標(biāo)描述作為RL策略的條件,并進(jìn)一步使用當(dāng)前觀察結(jié)果和文本嵌入空間中的子目標(biāo)描述之間的相似性來(lái)計(jì)算獎(jiǎng)勵(lì)。此外,Kumar等人[78]逐步使用LLM基于以前的人類指令生成目標(biāo)描述。然而,由于LLM的輸出是自然語(yǔ)言描述,這些方法需要一個(gè)額外的步驟來(lái)基礎(chǔ)化或解釋描述。
利用代碼生成能力,研究人員生成代碼級(jí)獎(jiǎng)勵(lì)函數(shù)。Yu等人[161]將自然語(yǔ)言目標(biāo)轉(zhuǎn)換為高級(jí)運(yùn)動(dòng)描述,然后生成相應(yīng)的獎(jiǎng)勵(lì)函數(shù)。然而,這種生成需要固定的獎(jiǎng)勵(lì)函數(shù)格式。相反,最近的工作提示LLM從人類設(shè)計(jì)的例子中推斷獎(jiǎng)勵(lì)函數(shù)格式[71, 144]。盡管如此,生成的獎(jiǎng)勵(lì)函數(shù)可能并不總是足夠準(zhǔn)確或最優(yōu),以直接用于訓(xùn)練[130]。
為了提高準(zhǔn)確性,研究人員添加了一個(gè)細(xì)化循環(huán)來(lái)驗(yàn)證生成的獎(jiǎng)勵(lì)函數(shù)的語(yǔ)法[112]和語(yǔ)義[96, 130, 153, 165]。例如,Song等人[130]使用LLM根據(jù)訓(xùn)練過(guò)程的收斂和結(jié)果機(jī)器人運(yùn)動(dòng)重新設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。此外,研究人員使用LLM評(píng)估機(jī)器人運(yùn)動(dòng),直接生成獎(jiǎng)勵(lì)[24]。此外,最近的工作演示了LLM在通過(guò)根據(jù)錯(cuò)誤狀態(tài)調(diào)整控制參數(shù)[132]或從人類反饋中選擇合適的運(yùn)動(dòng)目標(biāo)[91]來(lái)完善運(yùn)動(dòng)中的使用。
7 提示指南
本章為進(jìn)入機(jī)器人學(xué)研究領(lǐng)域的研究者提供關(guān)于如何設(shè)計(jì)提示的指南。提示是一種信息,旨在引導(dǎo)LLMs按照我們的指示處理并輸出,如同預(yù)訓(xùn)練語(yǔ)言模型[93, 149]的操作一樣。精心設(shè)計(jì)的提示應(yīng):
- 包含清晰、簡(jiǎn)潔且不含行業(yè)術(shù)語(yǔ)的具體陳述,
- 引入能夠讓模型預(yù)期處理流程的示例,
- 指定希望輸出呈現(xiàn)的格式,
- 包含約束行動(dòng)的指令。
這些提示使得模型能夠在不更新參數(shù)的情況下,按照期望的格式和約束生成內(nèi)容。我們?yōu)橐韵滤膫€(gè)機(jī)器人學(xué)領(lǐng)域提供指南:(1) 交互式定位、(2) 場(chǎng)景圖生成、(3) 少樣本規(guī)劃、以及 (4) 獎(jiǎng)勵(lì)函數(shù)生成。
7.1 對(duì)話提示:交互式定位
我們?cè)敿?xì)說(shuō)明了一種對(duì)話提示設(shè)計(jì),利用LLM作為定位代理,澄清如“給我拿點(diǎn)吃的”這樣的命令,并通過(guò)邏輯推斷解析“一些東西”之類的模糊目標(biāo)。表1展示了設(shè)計(jì)細(xì)節(jié),其中提示由三個(gè)關(guān)鍵組成部分構(gòu)成:任務(wù)描述、任務(wù)流程和任務(wù)背景。我們接下來(lái)逐一詳述。

表1:用于交互式接地的對(duì)話提示。通過(guò)提示中的“任務(wù)”,我們要求LLM通過(guò)對(duì)個(gè)人喜好的互動(dòng)詢問(wèn),將任務(wù)中提及的未具體說(shuō)明的對(duì)象“某個(gè)東西”定位為“餅干”。該提示由任務(wù)描述、任務(wù)流程和任務(wù)情境三部分組成,指導(dǎo)LLM的行為及其對(duì)上下文的理解。粗體字表示與LLM響應(yīng)(以藍(lán)色高亮顯示)進(jìn)行交互的主題。
任務(wù)描述概述了LLM期望的行為和響應(yīng)格式。在此例中,我們特別強(qiáng)調(diào)其作為對(duì)話代理的角色,通過(guò)“你應(yīng)該”之類的指令引導(dǎo)與用戶的動(dòng)態(tài)互動(dòng)。此外,“保持”所包含的命令性語(yǔ)句提供了任務(wù)約束或需求。我們還在末尾放置行為約束以抑制LLM的冗余輸出。
任務(wù)流程隨后定義了LLM遵循以達(dá)成任務(wù)目標(biāo)的一系列推理步驟。此描述采用編號(hào)步驟指導(dǎo)LLM一步步執(zhí)行動(dòng)作。通過(guò)邏輯表示,我們也強(qiáng)制動(dòng)作按邏輯順序執(zhí)行;使用“迭代地”表示“while循環(huán)”,以及“如果”或“當(dāng)”表示條件。
任務(wù)背景描述了LLM進(jìn)行定位所依據(jù)的上下文輸入,如“世界模型”。任務(wù)描述和任務(wù)流程中術(shù)語(yǔ)的一致性對(duì)LLM操作至關(guān)重要。例如,“任務(wù)”和“世界模型”之類的通用表達(dá)使LLM能在提供的同一上下文中工作。此外,通過(guò)為世界模型中的對(duì)象使用明確的名稱,我們使LLM能夠?qū)γ麑?shí)體應(yīng)用常識(shí)。請(qǐng)注意,盡管我們使用對(duì)象列表作為世界模型,但LLM接受多種形式的世界模型輸入:文本描述、對(duì)象列表和場(chǎng)景圖。
通過(guò)這些結(jié)構(gòu)化的組件,提示觸發(fā)了一個(gè)交互式的定位對(duì)話,以精確識(shí)別對(duì)象,如表1所示。此提示使用了ChatGPT 3.5 [106]。
7.2 指令提示:場(chǎng)景圖生成
本節(jié)介紹利用多模態(tài)LLM(特別是GPT-4 [107])從場(chǎng)景圖像構(gòu)建場(chǎng)景圖的指令提示設(shè)計(jì)。場(chǎng)景圖由作為節(jié)點(diǎn)的對(duì)象及其作為邊的關(guān)系組成。盡管多模態(tài)LLM取得了進(jìn)展,但它們從二維圖像中推斷三維關(guān)系的能力仍有限制[13]。為了減少這一限制,我們將任務(wù)分解為兩個(gè)步驟:利用多模態(tài)輸入創(chuàng)建節(jié)點(diǎn)和利用文本信息創(chuàng)建邊。我們?cè)诒?中提供了每個(gè)步驟的詳細(xì)示例。

表2:生成場(chǎng)景圖的指令提示。該表包含兩個(gè)提示:節(jié)點(diǎn)創(chuàng)建和邊創(chuàng)建。在給定場(chǎng)景中的圖像條件下,多模態(tài)LLM感知物體并利用幾何信息推斷相關(guān)關(guān)系。粗體字表示LLM響應(yīng)的輸出主題(以藍(lán)色高亮顯示)??梢暬瘍?nèi)容既不是LLM的輸入也不是輸出。
節(jié)點(diǎn)創(chuàng)建的提示包括兩部分:(1) 任務(wù)描述和(2) 任務(wù)背景。任務(wù)描述類似于7.1節(jié),包括LLM的預(yù)期行為(即角色)和響應(yīng)格式。例如,LLM的任務(wù)是在給定圖像中識(shí)別作為節(jié)點(diǎn)的對(duì)象。然后,我們將輸出格式指定為‘ObjectName(ID)’以確保一致性和簡(jiǎn)潔性。接著,任務(wù)背景展示了一系列獨(dú)特的對(duì)象標(biāo)識(shí)符及其對(duì)應(yīng)的以對(duì)象為中心的圖像。我們通過(guò)SAM [77],一個(gè)擅長(zhǎng)在遮擋情況下識(shí)別物體的基礎(chǔ)視覺(jué)模型,從場(chǎng)景中裁剪得到這些對(duì)象中心圖像。
邊的創(chuàng)建包括:(1) 任務(wù)描述、(2) 示例和(3) 任務(wù)背景。任務(wù)描述不僅指定了預(yù)期行為和輸出格式,還闡釋了如何利用示例來(lái)識(shí)別節(jié)點(diǎn)間的關(guān)系。我們特別解釋了LLM如何使用三維對(duì)象坐標(biāo)和單位測(cè)量值,從預(yù)定義集合(如‘左’、‘右’等)中推斷空間關(guān)系。與節(jié)點(diǎn)創(chuàng)建不同,這允許生成額外的輸出解釋,以適應(yīng)辨別空間關(guān)系的復(fù)雜性。
為了增強(qiáng)對(duì)輸入格式及相應(yīng)輸出的理解,我們包含了展示邊生成的示例。我們選擇了一個(gè)在對(duì)象及其空間相互關(guān)系上與目標(biāo)場(chǎng)景相似的示例,從而為邊的識(shí)別提供更豐富的信息。
最后,任務(wù)背景提供了源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)信息作為輸入,并留下空白輸出以從LLM獲取響應(yīng)。我們沒(méi)有提供所有節(jié)點(diǎn)的全排列,而是指定所有節(jié)點(diǎn)組合的考慮,假設(shè)我們可以識(shí)別反向邊作為相反的空間關(guān)系(例如,‘左’與‘右’相對(duì))。
7.3 規(guī)劃提示:少量樣本規(guī)劃
本節(jié)提出了一種規(guī)劃提示設(shè)計(jì),旨在預(yù)測(cè)完成既定目標(biāo)所需的后續(xù)行動(dòng),同時(shí)融入上下文要素,如可執(zhí)行動(dòng)作和環(huán)境設(shè)置。該設(shè)計(jì)特別專注于少量樣本規(guī)劃,通過(guò)實(shí)例增強(qiáng)性能。設(shè)計(jì)包含四個(gè)組成部分:(1) 任務(wù)描述、(2) 示例、(3) 目標(biāo)情境和(4) 額外互動(dòng),具體細(xì)節(jié)見(jiàn)表3。

表3:用于少量示例規(guī)劃的規(guī)劃指令提示。通過(guò)利用輸入-輸出示例對(duì),LLM提高了生成完成任務(wù)目標(biāo)計(jì)劃的性能。該提示包括任務(wù)描述、示例以及任務(wù)上下文。粗體字表示與LLM交互的主體部分,LLM的響應(yīng)以藍(lán)色高亮顯示。
任務(wù)描述包括任務(wù)目標(biāo)、預(yù)期行為和響應(yīng)格式,與傳統(tǒng)提示相似。然而,與先前不同的是,此提示明確了機(jī)器人的約束條件,包括初始狀態(tài)和動(dòng)作限制——這是之前未被詳述的約束。例如,表3中的“CANNOT”一詞強(qiáng)調(diào)機(jī)器人每次行動(dòng)只能操作一個(gè)物體的限制。此外,這些約束還擴(kuò)展到規(guī)定“完成”動(dòng)作的規(guī)則,標(biāo)志著任務(wù)的完成。示例展示了引導(dǎo)LLM生成期望行動(dòng)的輸入輸出對(duì)。示例將允許動(dòng)作中的泛化“對(duì)象”參數(shù)(例如,“關(guān)閉(對(duì)象)”)調(diào)整為特定的物體名稱,如“抽屜”或“紙張”,從而加強(qiáng)了在任務(wù)描述中寫明的任務(wù)約束。例如,第二個(gè)示例在達(dá)成任務(wù)目標(biāo)后返回“完成”信號(hào),而非繼續(xù)規(guī)劃。
目標(biāo)情境提供了當(dāng)前場(chǎng)景,包括任務(wù)、允許的動(dòng)作、可見(jiàn)物體、已執(zhí)行計(jì)劃以及下一個(gè)計(jì)劃,與示例相同。我們?cè)试SLLM填充“下一個(gè)計(jì)劃:”后的空白,直接提出下一步行動(dòng),不添加不必要的元素如換行符,以確保輸出的精確性。
此外,當(dāng)通過(guò)額外提示更新已執(zhí)行計(jì)劃時(shí),LLM會(huì)基于這一更新后的上下文生成新計(jì)劃,而無(wú)需重復(fù)整個(gè)目標(biāo)情境,使規(guī)劃過(guò)程動(dòng)態(tài)且迭代,能適應(yīng)變化并保持高效。
7.4 代碼生成提示:獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
我們引入了一種代碼生成提示設(shè)計(jì),用于從Gymnasium庫(kù)中的MuJoCo基礎(chǔ)Reacher任務(wù)[135]生成獎(jiǎng)勵(lì)函數(shù)。Reacher任務(wù)的目標(biāo)是從任意起始配置移動(dòng)機(jī)械臂的末端執(zhí)行器接近指定的目標(biāo)位置。該提示旨在將此任務(wù)目標(biāo)轉(zhuǎn)化為指定獎(jiǎng)勵(lì)的代碼。表4展示了設(shè)計(jì)細(xì)節(jié),包含四個(gè)關(guān)鍵元素:(1) 任務(wù)描述、(2) 可用API、(3) 目標(biāo)與約束、以及(4) 生成規(guī)則。

表4:用于獎(jiǎng)勵(lì)函數(shù)生成的指令示例。該提示包括任務(wù)描述、可用API、目標(biāo)與約束條件以及生成規(guī)則。LLM依據(jù)這些信息生成用于強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的Python代碼形式的獎(jiǎng)勵(lì)函數(shù)。
任務(wù)描述為L(zhǎng)LM定義了期望的機(jī)器人行為和任務(wù)條件,包括機(jī)器人的控制策略及具有兩個(gè)關(guān)節(jié)的機(jī)械臂的動(dòng)作空間。我們特別指定了使用Gymnasium庫(kù)API的連續(xù)“Box”空間作為動(dòng)作空間,假設(shè)LLM熟悉知名庫(kù)函數(shù)的工作方式。然后,此描述引導(dǎo)LLM理解所定義動(dòng)作的整體強(qiáng)化學(xué)習(xí)目標(biāo)。
可用API列出了設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)所需的API,包括每個(gè)API的名稱及輸入輸出規(guī)范。通過(guò)提供Python函數(shù)注解,我們讓LLM能夠推斷輸入輸出類型,前提是它了解類似浮點(diǎn)數(shù)變量類型及API的工作原理。
目標(biāo)與約束提供了指導(dǎo)獎(jiǎng)勵(lì)內(nèi)容的任務(wù)目標(biāo)和限制。我們明確界定了初始設(shè)定、目標(biāo)分配和目標(biāo)條件,旨在排除不必要的獎(jiǎng)勵(lì)成分,例如為了平滑運(yùn)動(dòng)而懲罰高速度。需要注意的是,盡管語(yǔ)言學(xué)意義上相似,我們推薦使用簡(jiǎn)潔一致的詞匯,如任務(wù)描述中使用的“扭矩”而非“動(dòng)力”。
最后,生成規(guī)則為生成可直接執(zhí)行的代碼建立了指南,以應(yīng)對(duì)LLM產(chǎn)生不必要的或錯(cuò)誤的變量或函數(shù)的趨勢(shì)。這些規(guī)則限制了此類聲明,正如表4中生成規(guī)則第二部分所述,鼓勵(lì)使用知名的Python庫(kù)來(lái)提高編程質(zhì)量。此外,考慮到獎(jiǎng)勵(lì)函數(shù)的線性組合元素,我們引入了規(guī)則來(lái)調(diào)整獎(jiǎng)勵(lì)成分的尺度以保持平衡。
8 結(jié)論
在本調(diào)查中,我們從涉及智能機(jī)器人組件,包括通信、感知、規(guī)劃和控制的大型語(yǔ)言模型在機(jī)器人學(xué)研究中的應(yīng)用進(jìn)行了考察。這種分組件的調(diào)查揭示了研究人員如何整合LLMs以克服在預(yù)LLM方法中存在的各種任務(wù)固有挑戰(zhàn),從而全面理解LLMs在該領(lǐng)域的影響。
在每個(gè)組件領(lǐng)域內(nèi),我們審視了為最大化利用LLMs能力并增強(qiáng)其響應(yīng)完整性而提出的改進(jìn)方法論。此外,我們的調(diào)查為每個(gè)組件領(lǐng)域提供了提示工程的指導(dǎo)原則,并輔以關(guān)鍵提示組件示例,為進(jìn)入該領(lǐng)域的研究者提供實(shí)踐洞察。本文的核心貢獻(xiàn)在于突顯了LLMs在機(jī)器人學(xué)中的變革性影響,使得在有限資源下開(kāi)發(fā)多功能且智能的機(jī)器人成為可能。
Kim Y, Kim D, Choi J, et al. A Survey on Integration of Large Language Models with Intelligent Robots[J]. arXiv preprint arXiv:2404.09228, 2024.
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/Dz2hBfT25odDM7OQJgQgPQ??


















