大型語(yǔ)言模型(LLM)在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望 原創(chuàng) 精華
?摘要—大型語(yǔ)言模型(LLMs)經(jīng)歷了顯著的擴(kuò)展,并且越來(lái)越多地被整合到各個(gè)領(lǐng)域中。特別是在機(jī)器人任務(wù)規(guī)劃領(lǐng)域,LLMs利用其先進(jìn)的推理和語(yǔ)言理解能力,根據(jù)自然語(yǔ)言指令制定精確高效的行動(dòng)計(jì)劃。然而,對(duì)于具體化的機(jī)器人任務(wù),即機(jī)器人與復(fù)雜環(huán)境互動(dòng)的任務(wù),僅文本的LLMs常常因?yàn)槿狈εc機(jī)器人視覺(jué)感知的兼容性而面臨挑戰(zhàn)。本研究提供了一個(gè)全面的概述,介紹了LLMs和多模態(tài)LLMs如何被整合到各種機(jī)器人任務(wù)中。此外,我們提出了一個(gè)框架,該框架利用多模態(tài)GPT-4V通過(guò)結(jié)合自然語(yǔ)言指令和機(jī)器人視覺(jué)感知來(lái)增強(qiáng)具體化任務(wù)規(guī)劃。我們基于多樣化數(shù)據(jù)集的結(jié)果顯示,GPT-4V有效地提高了機(jī)器人在具體化任務(wù)中的性能。對(duì)LLMs和多模態(tài)LLMs在各種機(jī)器人任務(wù)中的廣泛調(diào)查和評(píng)估豐富了對(duì)以LLM為中心的具體化智能的理解,并為彌合人-機(jī)器人-環(huán)境交互中的差距提供了前瞻性的見(jiàn)解。
I. 引言
隨著預(yù)訓(xùn)練模型在模型規(guī)模和數(shù)據(jù)量上的擴(kuò)展,一些大型預(yù)訓(xùn)練模型在一系列復(fù)雜任務(wù)上展現(xiàn)出了顯著的能力[1],[2]。大型語(yǔ)言模型(LLMs)因其卓越的上下文涌現(xiàn)能力[2]–[10]在各個(gè)領(lǐng)域引起了廣泛關(guān)注。這種新興能力以前所未有的方式賦能了人工智能算法,重塑了人們使用人工智能算法的方式,并促使人們重新評(píng)估人工通用智能(AGI)的可能性。
隨著LLMs的快速發(fā)展,指令調(diào)整和對(duì)齊調(diào)整已成為適應(yīng)特定目標(biāo)的主要方法。在自然語(yǔ)言處理(NLP)領(lǐng)域,LLMs在一定程度上可以作為語(yǔ)言相關(guān)任務(wù)的通用解決方案[3],[5],[11]–[13]。這些基于變換器的大型模型在多個(gè)領(lǐng)域取得了非凡成就[14]–[17],深刻改變了人工智能的最新?tīng)顟B(tài)[3],[12],[18]–[26]。研究范式也轉(zhuǎn)向了解決子領(lǐng)域特定問(wèn)題。在計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域,研究人員也在開(kāi)發(fā)類(lèi)似于GPT-4和Gemini的大型模型[27],[28],這些模型融合了視覺(jué)和語(yǔ)言信息,從而支持多模態(tài)輸入[29]。這種增強(qiáng)LLMs的策略不僅提高了它們?cè)谙掠稳蝿?wù)中的性能,而且通過(guò)確保與人類(lèi)價(jià)值觀和偏好的一致性,對(duì)機(jī)器人學(xué)的發(fā)展具有重要的指導(dǎo)意義。這種方法已在眾多領(lǐng)域得到廣泛采用[7],[29]–[32],甚至在卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是主要技術(shù)[33]–[40]的領(lǐng)域也是如此。
LLMs處理和內(nèi)化大量文本數(shù)據(jù)的能力為提高機(jī)器的理解和自然語(yǔ)言分析能力提供了前所未有的潛力[41],[42]。這擴(kuò)展到了理解手冊(cè)和技術(shù)指南等文檔,并將這些知識(shí)應(yīng)用于進(jìn)行連貫、準(zhǔn)確和與人類(lèi)一致的對(duì)話[43]–[45]。通過(guò)對(duì)話,自然語(yǔ)言指令從文本提示轉(zhuǎn)化為機(jī)器可理解的代碼,觸發(fā)相應(yīng)的動(dòng)作,從而使機(jī)器人在適應(yīng)各種用戶命令方面更加靈活和適應(yīng)性強(qiáng)[46]–[48]。將現(xiàn)實(shí)世界的傳感器模態(tài)整合到語(yǔ)言模型中,有助于建立單詞和感知之間的聯(lián)系,使它們能夠應(yīng)用于各種特定任務(wù)。然而,僅文本的LLMs缺乏對(duì)物理世界的體驗(yàn)性暴露和觀察的經(jīng)驗(yàn)性結(jié)果,這使得它們?cè)谔囟ōh(huán)境中的決策制定中難以應(yīng)用。因此,將多模態(tài)性整合到LLMs對(duì)于有效執(zhí)行機(jī)器人任務(wù)至關(guān)重要。此外,機(jī)器人學(xué)領(lǐng)域呈現(xiàn)出更為微妙的任務(wù)變化。與可以從互聯(lián)網(wǎng)上獲取大量數(shù)據(jù)集的NLP和CV不同,獲取用于機(jī)器人交互的大型和多樣化數(shù)據(jù)集是具有挑戰(zhàn)性的[49]。這些數(shù)據(jù)集通常要么專(zhuān)注于單一環(huán)境和對(duì)象,要么強(qiáng)調(diào)特定任務(wù)領(lǐng)域,導(dǎo)致它們之間存在顯著差異。[50]這種復(fù)雜性在將LLMs與機(jī)器人學(xué)整合時(shí)帶來(lái)了更大的挑戰(zhàn)。
如何克服機(jī)器人技術(shù)帶來(lái)的挑戰(zhàn),并利用LLMs在其他領(lǐng)域的成就來(lái)造福機(jī)器人學(xué)領(lǐng)域,是本綜述所要解決的核心問(wèn)題。在本文中,工作的貢獻(xiàn)可以總結(jié)為四個(gè)主要點(diǎn):
- 我們仔細(xì)調(diào)查并綜合現(xiàn)有的LLM機(jī)器人文獻(xiàn),探索三個(gè)不同任務(wù)類(lèi)別中的最新進(jìn)展:規(guī)劃、操作、推理。
- 我們總結(jié)了LLMs為機(jī)器人學(xué)領(lǐng)域提供的主要技術(shù)方法,檢查了訓(xùn)練通用機(jī)器人策略的潛力,并為該領(lǐng)域的研究人員提供了基礎(chǔ)調(diào)查。
- 我們?cè)u(píng)估了多模態(tài)GPT-4V在各種環(huán)境和場(chǎng)景中機(jī)器人任務(wù)規(guī)劃的有效性。
- 我們總結(jié)了我們調(diào)查的主要發(fā)現(xiàn),討論了未來(lái)工作中需要解決的突出挑戰(zhàn),并提出了前瞻性的觀點(diǎn)。
圖1. 提出的GPT-4V賦能的具體化任務(wù)規(guī)劃框架。我們使用視頻數(shù)據(jù)的初始幀及其對(duì)應(yīng)的文本指令作為輸入。我們的框架利用GPT-4V將指令分解為一系列任務(wù)計(jì)劃,并從預(yù)定義的動(dòng)作池中選擇相應(yīng)的表示。同時(shí),我們可以分析與指令相關(guān)的目標(biāo)對(duì)象以及指令前后圖像中的環(huán)境變化。最后,我們使用GPT-4V比較并評(píng)估我們生成的任務(wù)計(jì)劃與真實(shí)計(jì)劃的匹配程度。
II. 相關(guān)工作
A. 機(jī)器人領(lǐng)域的LLM
基于LLMs的機(jī)器人學(xué)研究領(lǐng)域已經(jīng)取得了重大進(jìn)展。這些模型展現(xiàn)出了卓越的自然語(yǔ)言理解和常識(shí)推理能力,顯著提升了機(jī)器人理解上下文和執(zhí)行命令的能力。當(dāng)前的研究集中在利用LLMs解析復(fù)雜的上下文和指令,包括解決歧義、消除歧義和理解隱含信息。該領(lǐng)域的關(guān)鍵進(jìn)展包括視覺(jué)-語(yǔ)言模型的發(fā)展[51]–[53],這些模型顯著提高了視覺(jué)問(wèn)答[54]–[56]和圖像描述[57],[58]等任務(wù)的性能。這些進(jìn)步極大地增強(qiáng)了機(jī)器人在物理世界中的推理能力,特別是在復(fù)雜命令導(dǎo)航等領(lǐng)域。[59],[60] 通過(guò)視覺(jué)語(yǔ)言處理系統(tǒng),機(jī)器人能夠理解圖像內(nèi)容,并將其與相關(guān)語(yǔ)言信息(如圖像描述和指令執(zhí)行)整合。這種多模態(tài)信息處理同樣應(yīng)用于音頻-視覺(jué)整合中。LLMs在人-機(jī)器人交互中的另一個(gè)重大進(jìn)展是通過(guò)互動(dòng)學(xué)習(xí)過(guò)程實(shí)現(xiàn)的,這些過(guò)程更好地符合人類(lèi)的需求和偏好。例如,通過(guò)將強(qiáng)化學(xué)習(xí)與人類(lèi)反饋相結(jié)合,機(jī)器人可以持續(xù)改進(jìn)它們的任務(wù)執(zhí)行,通過(guò)結(jié)合人類(lèi)指導(dǎo)和大型語(yǔ)言模型,機(jī)器人可以更精確地細(xì)化指令,從而更好地實(shí)現(xiàn)自主學(xué)習(xí)和環(huán)境適應(yīng),以實(shí)現(xiàn)更準(zhǔn)確和有針對(duì)性的控制。機(jī)器人還可以通過(guò)互動(dòng)學(xué)習(xí)和適應(yīng)用戶的行為、偏好和需求,提供更個(gè)性化和定制化的交互體驗(yàn)。這些進(jìn)步不僅增強(qiáng)了機(jī)器人技術(shù)的實(shí)用性,而且為未來(lái)的人與人之間的交互開(kāi)辟了新的可能性。
B. 使用LLMs進(jìn)行多模態(tài)任務(wù)規(guī)劃
LLMs領(lǐng)域內(nèi)的多模態(tài)任務(wù)規(guī)劃構(gòu)成了人工智能學(xué)科的一個(gè)復(fù)雜交叉點(diǎn),涉及整合各種不同的數(shù)據(jù)模態(tài)——如文本、視覺(jué)和聽(tīng)覺(jué)輸入——以促進(jìn)更全面和細(xì)致的AI驅(qū)動(dòng)分析[61]–[65]。
這種跨學(xué)科方法超越了LLMs的傳統(tǒng)界限,后者主要關(guān)注文本理解和生成,迎來(lái)了一個(gè)新時(shí)代,在這個(gè)時(shí)代中,這些模型擅長(zhǎng)于解釋、關(guān)聯(lián)和同時(shí)與多個(gè)數(shù)據(jù)流互動(dòng)。在這個(gè)背景下,LLM的角色從單純的語(yǔ)言處理演變?yōu)楦闲缘墓δ?,綜合并響應(yīng)復(fù)雜的數(shù)據(jù)交互。在LLMs的多模態(tài)任務(wù)規(guī)劃領(lǐng)域,最近的進(jìn)步如Inner Monologue和SayCan項(xiàng)目所示,展示了該領(lǐng)域的復(fù)雜性和成熟度的增長(zhǎng)。Inner Monologue的方法[65]代表了該領(lǐng)域的重大飛躍,因?yàn)樗狭藖?lái)自環(huán)境的多模態(tài)反饋源。這種整合使得生成更可靠、更具上下文意識(shí)的任務(wù)規(guī)劃成為可能,協(xié)調(diào)不同的感官輸入以創(chuàng)造對(duì)AI周?chē)h(huán)境的更連貫理解。同樣,SayCan的框架[61]為L(zhǎng)LM應(yīng)用引入了一個(gè)新維度。該系統(tǒng)將LLMs作為模型的“手和眼睛”的代理,生成最優(yōu)的長(zhǎng)期指令,并有效地評(píng)估當(dāng)前場(chǎng)景中指令的可行性概率。這種方法不僅增強(qiáng)了AI理解和與其直接環(huán)境互動(dòng)的能力,而且還利用LLMs的細(xì)致理解來(lái)規(guī)劃和執(zhí)行復(fù)雜動(dòng)作序列的長(zhǎng)期任務(wù)。
Inner Monologue和SayCan中這些先進(jìn)技術(shù)的整合代表了在創(chuàng)建AI系統(tǒng)中邁出了重要的一步,這些系統(tǒng)不僅更加意識(shí)到多個(gè)數(shù)據(jù)流,而且還能夠?qū)⑦@些流合成為可操作的智能。這一進(jìn)展指向了一個(gè)未來(lái),AI可以在一個(gè)更加動(dòng)態(tài)、上下文意識(shí)和自主的方式中導(dǎo)航和與真實(shí)世界互動(dòng)[61],[65]–[67],推動(dòng)AI驅(qū)動(dòng)創(chuàng)新和跨學(xué)科綜合的邊界。
III. 機(jī)器人任務(wù)的范圍
A. 規(guī)劃
1) 自然語(yǔ)言理解:在機(jī)器人規(guī)劃中,大型語(yǔ)言模型因其先進(jìn)的自然語(yǔ)言理解能力而表現(xiàn)出色。它們將自然語(yǔ)言指令翻譯成機(jī)器人可執(zhí)行的動(dòng)作序列,這是機(jī)器人規(guī)劃的一個(gè)關(guān)鍵方面[61],[68]。本研究顯示,LLMs能夠僅基于語(yǔ)言指令生成準(zhǔn)確的動(dòng)作序列,即使沒(méi)有視覺(jué)輸入[69]。然而,當(dāng)有少量視覺(jué)信息時(shí),它們的性能會(huì)顯著提高,使它們能夠創(chuàng)建精確的視覺(jué)-語(yǔ)義計(jì)劃。這些計(jì)劃將高級(jí)自然語(yǔ)言指令轉(zhuǎn)化為虛擬代理執(zhí)行復(fù)雜任務(wù)的可操作指導(dǎo)。這種能力強(qiáng)調(diào)了LLMs整合多模態(tài)信息的潛力,從而提高了它們的理解能力。它還展示了它們解釋和整合來(lái)自各種模態(tài)的信息的能力,從而更全面地理解任務(wù)[70]。此外,關(guān)于從大型語(yǔ)言模型生成動(dòng)作序列以進(jìn)行自然語(yǔ)言理解的研究進(jìn)一步證實(shí)了LLMs在機(jī)器人規(guī)劃中的有效性。LLMs在解釋與物理環(huán)境同步的自然語(yǔ)言命令方面也顯示出巨大的潛力。采用Grounded Decoding方法,它們可以產(chǎn)生與物理模型概率一致的行為序列,展示了該方法在機(jī)器人規(guī)劃任務(wù)中的有效性[71]。
在復(fù)雜序列任務(wù)規(guī)劃方面的研究突出了LLMs能力的重大進(jìn)步。Text2Motion的研究顯示,LLMs不僅擅長(zhǎng)處理語(yǔ)言信息,而且能夠解決技能序列中的依賴(lài)關(guān)系[72]。這是通過(guò)幾何上可行的規(guī)劃實(shí)現(xiàn)的,標(biāo)志著在解釋抽象指令和理解復(fù)雜任務(wù)結(jié)構(gòu)方面的一個(gè)重要進(jìn)步。此外,LLM-Planner研究通過(guò)將LLMs與傳統(tǒng)規(guī)劃器集成,增強(qiáng)了LLMs在機(jī)器人規(guī)劃中的自然語(yǔ)言理解能力[73]。這種協(xié)同作用展示了如何利用LLMs的NLP能力來(lái)提高規(guī)劃任務(wù)的效率和精確性。此外,LLM+P利用傳統(tǒng)規(guī)劃器的能力,使用規(guī)劃領(lǐng)域定義語(yǔ)言(PDDL)和問(wèn)題提示來(lái)為L(zhǎng)LMs創(chuàng)建特定任務(wù)的問(wèn)題文件[44]。這種整合顯著提高了LLMs在處理長(zhǎng)期規(guī)劃任務(wù)方面的有效性。另外,SayPlan通過(guò)集成經(jīng)典路徑規(guī)劃器來(lái)解決規(guī)劃視野問(wèn)題。通過(guò)這樣做,SayPlan能夠?qū)某橄蠛妥匀徽Z(yǔ)言指令派生出的大規(guī)模、長(zhǎng)期任務(wù)計(jì)劃具體化,使移動(dòng)操作機(jī)器人能夠成功執(zhí)行它們[74]。此外,LLMs在搜索算法中作為啟發(fā)式策略以及作為常識(shí)知識(shí)的儲(chǔ)備庫(kù)方面顯示出潛力。LLMs的這種雙重角色不僅增強(qiáng)了這些算法內(nèi)的推理能力,而且還有助于預(yù)測(cè)潛在結(jié)果。這種方法充分利用了LLMs的潛力,利用它們先進(jìn)的推理能力有效地規(guī)劃復(fù)雜任務(wù)[66]。這種雙重應(yīng)用強(qiáng)調(diào)了大型語(yǔ)言模型在任務(wù)規(guī)劃和問(wèn)題解決中的廣泛和多功能潛力。
關(guān)于LLMs的研究展示了它們解析和理解自然語(yǔ)言的顯著能力。這種能力超越了單純的文本匹配,達(dá)到了深刻的語(yǔ)義理解,包括任務(wù)的目的和上下文。LLMs的一個(gè)關(guān)鍵方面是將它們理解的指令轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)作序列,這是機(jī)器人任務(wù)規(guī)劃的一個(gè)必要特征。LLMs顯著提高了指令生成的質(zhì)量和適應(yīng)性,使得能夠創(chuàng)造出既具有上下文意識(shí)又特定于環(huán)境的復(fù)雜動(dòng)作序列。這些模型在處理各種任務(wù)規(guī)劃復(fù)雜性和類(lèi)型方面表現(xiàn)出多樣性,從簡(jiǎn)單的物理互動(dòng)到復(fù)雜的長(zhǎng)期序列規(guī)劃。研究突出了LLMs作為獨(dú)立決策者和其他模態(tài)及規(guī)劃算法的協(xié)作者的潛力。這種協(xié)作在解釋自然語(yǔ)言和推進(jìn)機(jī)器人規(guī)劃方面至關(guān)重要。隨著研究的進(jìn)展,預(yù)計(jì)LLMs在機(jī)器人學(xué)和自動(dòng)化系統(tǒng)領(lǐng)域?qū)l(fā)揮越來(lái)越重要的作用。
2) 復(fù)雜任務(wù)推理和決策:在復(fù)雜任務(wù)推理和決策領(lǐng)域,由LLMs賦能的機(jī)器人表現(xiàn)出顯著的熟練度。這些基于LLM的機(jī)器人規(guī)劃任務(wù)已經(jīng)顯著超越了單純的文本生成和語(yǔ)言理解的范疇。最近的研究突出了語(yǔ)言模型在處理復(fù)雜任務(wù)、進(jìn)行邏輯推理、做出明智的決策和參與互動(dòng)學(xué)習(xí)方面的巨大能力[3],[75]。這些突破不僅擴(kuò)展了我們對(duì)基于LLM的機(jī)器人規(guī)劃潛力的理解,而且為創(chuàng)新的實(shí)際應(yīng)用打開(kāi)了大門(mén)。
在探索預(yù)訓(xùn)練語(yǔ)言模型(PLMs)在交互式?jīng)Q策中的應(yīng)用時(shí),研究表明目標(biāo)和觀察被轉(zhuǎn)化為嵌入序列,用PLMs初始化網(wǎng)絡(luò)。這種策略的泛化能力在多變量環(huán)境和監(jiān)督模態(tài)中特別有效[76]。在多模態(tài)領(lǐng)域的一個(gè)顯著進(jìn)步是LM-Nav系統(tǒng)的發(fā)展[59]。該系統(tǒng)基于PLMs,整合了語(yǔ)言、視覺(jué)和動(dòng)作模型,通過(guò)高級(jí)自然語(yǔ)言命令指導(dǎo)機(jī)器人導(dǎo)航。值得注意的是,它通過(guò)合并預(yù)訓(xùn)練的視覺(jué)導(dǎo)航、圖像-語(yǔ)言相關(guān)性和語(yǔ)言理解模型,減少了對(duì)昂貴軌跡注釋監(jiān)督的依賴(lài)。專(zhuān)注于特定環(huán)境中的LLMs,研究人員[65]已經(jīng)檢查了它們?cè)谧匀徽Z(yǔ)言反饋和復(fù)雜任務(wù)規(guī)劃方面的推理能力。這種能力對(duì)于遵循高級(jí)任務(wù)指令和增強(qiáng)模型在現(xiàn)實(shí)世界場(chǎng)景中的應(yīng)用性至關(guān)重要。解決自然語(yǔ)言理解和決策中的一致性容錯(cuò)問(wèn)題,創(chuàng)新的ReAct模型[77]克服了交互式設(shè)置中語(yǔ)言推理的先前限制。它解決了幻覺(jué)生成和錯(cuò)誤信息傳播等挑戰(zhàn)。通過(guò)利用LLMs維持工作記憶和抽象概念化高級(jí)目標(biāo)的潛力,ReAct模型在各種任務(wù)中實(shí)現(xiàn)了顯著的性能提升。與此同時(shí),為了解決大型語(yǔ)言模型(LLMs)在應(yīng)用于機(jī)器人學(xué)時(shí)的自信幻覺(jué)預(yù)測(cè)問(wèn)題,KnowNo[78]為任務(wù)完成提供了統(tǒng)計(jì)保證,同時(shí)在復(fù)雜的多步驟規(guī)劃場(chǎng)景中最小化了對(duì)人類(lèi)協(xié)助的需求。值得注意的是,KnowNo與LLMs無(wú)縫集成,無(wú)需模型微調(diào),提供了一種輕量級(jí)和有前途的不確定性建模方法。這種方法與基礎(chǔ)模型不斷演變的能力保持一致,提供了一種可擴(kuò)展的解決方案。此外,已經(jīng)提出了一種涉及預(yù)處理錯(cuò)誤提示的策略,使LLMs能夠提取可執(zhí)行計(jì)劃。這種方法為任務(wù)執(zhí)行中代理的獨(dú)立性和適應(yīng)性提供了新的視角。在多代理協(xié)作方面,越來(lái)越多地探索將語(yǔ)言模型與動(dòng)作代理集成。通過(guò)將LLMs與在特定環(huán)境中執(zhí)行任務(wù)的代理配對(duì),建立了一個(gè)由規(guī)劃器、執(zhí)行器和報(bào)告器組成的系統(tǒng)。這種安排顯著提高了復(fù)雜任務(wù)中推理和執(zhí)行的效率。
大型預(yù)訓(xùn)練語(yǔ)言模型領(lǐng)域正在經(jīng)歷一個(gè)顯著趨勢(shì):這些模型越來(lái)越擅長(zhǎng)理解和執(zhí)行復(fù)雜任務(wù),與現(xiàn)實(shí)世界場(chǎng)景緊密對(duì)齊。這一進(jìn)步不僅強(qiáng)調(diào)了預(yù)訓(xùn)練模型的適應(yīng)性和多功能性,而且預(yù)示著下一代AI的到來(lái)。隨著這些技術(shù)的演進(jìn),我們預(yù)計(jì)創(chuàng)新應(yīng)用將激增,有望徹底改變各個(gè)行業(yè)。這些任務(wù)的一個(gè)關(guān)鍵方面是利用LLMs強(qiáng)大的語(yǔ)言理解和生成能力進(jìn)行復(fù)雜推理和決策過(guò)程。該領(lǐng)域的每項(xiàng)研究都探索了LLMs在復(fù)雜認(rèn)知功能中的潛力。許多模型采用自監(jiān)督學(xué)習(xí),有些則結(jié)合微調(diào)以更好地適應(yīng)特定任務(wù)。這種方法使LLMs在下游任務(wù)輔助推理中表現(xiàn)出色,從而做出更精確和定制化的決策。盡管LLMs在復(fù)雜推理和決策中得到廣泛應(yīng)用,但具體的技術(shù)和方法在任務(wù)處理、學(xué)習(xí)策略和反饋機(jī)制方面有所不同。這些模型在多種現(xiàn)實(shí)世界情境中得到應(yīng)用,包括家庭自動(dòng)化、機(jī)器人導(dǎo)航和任務(wù)規(guī)劃,展示了它們廣泛和不斷發(fā)展的實(shí)用性。
3)人-機(jī)器人交互:在人-機(jī)器人交互領(lǐng)域,AGI語(yǔ)言模型的先進(jìn)推理能力賦予機(jī)器人顯著的泛化能力[79]。這使它們能夠適應(yīng)以前未見(jiàn)環(huán)境和任務(wù)中的新任務(wù)規(guī)劃。此外,LLMs的自然語(yǔ)言理解界面促進(jìn)了與人類(lèi)的交流,為人-機(jī)器人交互開(kāi)辟了新的可能性[80]。廣泛的研究強(qiáng)調(diào)了LLMs在輔助智能任務(wù)規(guī)劃方面取得的進(jìn)展,這反過(guò)來(lái)又增強(qiáng)了多智能體協(xié)作通信。研究發(fā)現(xiàn),使用自然語(yǔ)言來(lái)提高多智能體合作的效率是一種有效的方法來(lái)提高通信效率。一個(gè)值得注意的例子是OpenAI的ChatGPT,其在機(jī)器人應(yīng)用中的能力通過(guò)嚴(yán)格的實(shí)驗(yàn)進(jìn)行了評(píng)估。研究結(jié)果顯示,ChatGPT在邏輯、幾何和數(shù)學(xué)推理等復(fù)雜任務(wù)方面表現(xiàn)出色,以及空中導(dǎo)航、操作和控制具體化代理[48]。它通過(guò)自由形式的對(duì)話、解析XML標(biāo)簽和合成代碼等技術(shù)實(shí)現(xiàn)了這一點(diǎn)。此外,ChatGPT允許通過(guò)自然語(yǔ)言命令進(jìn)行用戶交互,為開(kāi)發(fā)與人類(lèi)以自然和直觀方式交互的創(chuàng)新機(jī)器人系統(tǒng)提供了重要的指導(dǎo)和見(jiàn)解。同樣,提出了一個(gè)利用大規(guī)模語(yǔ)言模型進(jìn)行協(xié)作具體化智能的框架[81]。該框架使語(yǔ)言模型能夠用于高效規(guī)劃和通信,促進(jìn)各種智能體和人類(lèi)之間的協(xié)作,共同應(yīng)對(duì)復(fù)雜任務(wù)。實(shí)驗(yàn)結(jié)果表明,這種方法在該領(lǐng)域的傳統(tǒng)方法中表現(xiàn)顯著優(yōu)越。
B. 操控
1) 自然語(yǔ)言理解:在機(jī)器人控制領(lǐng)域,LLMs的自然語(yǔ)言理解能力可以幫助機(jī)器人進(jìn)行常識(shí)分析。例如,LLM-GROP展示了如何從LLM中提取語(yǔ)義信息,并將其用作在復(fù)雜環(huán)境中響應(yīng)自然語(yǔ)言命令執(zhí)行多步驟任務(wù)和運(yùn)動(dòng)規(guī)劃器中關(guān)于對(duì)象放置的常識(shí)性、語(yǔ)義上有效的決策[82]。該研究提出了一個(gè)將語(yǔ)言置于智能體核心的框架[83]。通過(guò)利用這些模型中包含的先驗(yàn)知識(shí),可以設(shè)計(jì)出更好的機(jī)器人代理,它們能夠在現(xiàn)實(shí)世界中直接解決具有挑戰(zhàn)性的任務(wù)。通過(guò)一系列實(shí)驗(yàn),展示了該框架如何利用底層模型的知識(shí)和功能,以更高的效率和多功能性解決各種問(wèn)題。同時(shí),該研究引入了Linguistically Conditional Collision Function (LACO),這是一種使用單視圖圖像、語(yǔ)言提示和機(jī)器人配置學(xué)習(xí)碰撞函數(shù)的新方法。LACO預(yù)測(cè)機(jī)器人與環(huán)境之間的碰撞,使得靈活的條件路徑規(guī)劃成為可能[84]。
除了自然語(yǔ)言理解能力外,LLM的強(qiáng)大推理能力也扮演著突出的角色。例如,在VIMA工作[85]中,引入了一種新的多模態(tài)提示公式,將不同的機(jī)器人操控任務(wù)轉(zhuǎn)化為統(tǒng)一的序列建模問(wèn)題,并在具有多模態(tài)任務(wù)和系統(tǒng)泛化評(píng)估協(xié)議的多樣化基準(zhǔn)中實(shí)例化。實(shí)驗(yàn)表明,VIMA能夠使用單一模型解決視覺(jué)目標(biāo)實(shí)現(xiàn)、一次性視頻模仿和新穎概念基礎(chǔ)等任務(wù),具有強(qiáng)大的模型可擴(kuò)展性和零樣本泛化能力。同樣,TIP提出了Text-Image Cueing[86],這是一種雙模態(tài)提示框架,將LLMs連接到多模態(tài)生成模型,以合理生成多模態(tài)程序計(jì)劃。除了提示方法外,在機(jī)器人控制領(lǐng)域,基于預(yù)訓(xùn)練LMs的下游任務(wù)微調(diào)也是一種常見(jiàn)方法。例如,該工作展示了預(yù)訓(xùn)練的視覺(jué)語(yǔ)言表示可以有效提高現(xiàn)有探索方法的樣本效率[87]。R3M研究了如何在不同的人類(lèi)視頻數(shù)據(jù)上預(yù)訓(xùn)練視覺(jué)表示,以實(shí)現(xiàn)下游機(jī)器人操控任務(wù)的數(shù)據(jù)高效學(xué)習(xí)[88]。LIV在大型泛化人類(lèi)視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在小型機(jī)器人數(shù)據(jù)集上進(jìn)行微調(diào),微調(diào)后在三個(gè)不同的評(píng)估設(shè)置中超越了最先進(jìn)的方法,并成功執(zhí)行了現(xiàn)實(shí)世界的機(jī)器人任務(wù)[89]。
這一系列研究共同展示了LLMs和自然語(yǔ)言理解技術(shù)在推進(jìn)機(jī)器人智能方面的重要角色,特別是在理解和執(zhí)行復(fù)雜的基于語(yǔ)言的任務(wù)方面。這些研究的一個(gè)關(guān)鍵重點(diǎn)是模型泛化的重要性以及將這些模型應(yīng)用于不同領(lǐng)域能力。每項(xiàng)研究雖然共享這一共同主題,但在其特定的關(guān)注點(diǎn)和應(yīng)用方法論上有所不同。例如,LLM-GROP專(zhuān)注于語(yǔ)義信息的提取和應(yīng)用。相比之下,VIMA和TIP專(zhuān)注于無(wú)先前示例的多模態(tài)處理和學(xué)習(xí)。此外,微調(diào)預(yù)訓(xùn)練LMs的方法旨在提高應(yīng)用效率和任務(wù)特定優(yōu)化??偟膩?lái)說(shuō),這些研究表明,將復(fù)雜的NLP技術(shù)與機(jī)器學(xué)習(xí)策略相結(jié)合,可以大大提高機(jī)器人系統(tǒng)的效率,特別是在其理解和執(zhí)行復(fù)雜任務(wù)的能力方面。這一進(jìn)步是實(shí)現(xiàn)機(jī)器人操控中更大智能和自主性的關(guān)鍵一步。
2) 交互策略:在交互策略領(lǐng)域,TEXT2REWARD框架引入了一種使用LLMs生成交互式獎(jiǎng)勵(lì)代碼的創(chuàng)新方法[83]。該方法自動(dòng)產(chǎn)生密集的獎(jiǎng)勵(lì)代碼,增強(qiáng)了強(qiáng)化學(xué)習(xí)。此外,通過(guò)利用大型語(yǔ)言模型定義可以?xún)?yōu)化以完成各種機(jī)器人任務(wù)的獎(jiǎng)勵(lì)參數(shù),可以有效彌合高級(jí)語(yǔ)言指令或糾正與低級(jí)機(jī)器人行動(dòng)之間的差距。語(yǔ)言模型生成的獎(jiǎng)勵(lì)作為中間接口,使得高級(jí)指令和機(jī)器人的低級(jí)行動(dòng)之間的無(wú)縫通信和協(xié)調(diào)成為可能[90]。此外,VoxPoser展示了一個(gè)多功能的機(jī)器人操控框架[64],其特點(diǎn)是能夠直接從LLMs中提取可操作性和約束。這種方法顯著提高了機(jī)器人對(duì)開(kāi)放式指令和多樣化對(duì)象的適應(yīng)性。通過(guò)將LLMs與視覺(jué)-語(yǔ)言模型集成,并利用在線交互,VoxPoser高效地學(xué)習(xí)與復(fù)雜任務(wù)動(dòng)態(tài)模型互動(dòng)。LLMs的應(yīng)用也擴(kuò)展到了人-機(jī)器人交互。LILAC系統(tǒng)通過(guò)一個(gè)可擴(kuò)展的[63]、由語(yǔ)言驅(qū)動(dòng)的人機(jī)交互機(jī)制來(lái)實(shí)現(xiàn)這一點(diǎn)。它將自然語(yǔ)言話語(yǔ)翻譯成低維控制空間中的可執(zhí)行命令,使得機(jī)器人的精確和用戶友好的指導(dǎo)成為可能。重要的是,每個(gè)用戶的糾正都會(huì)完善這個(gè)控制空間,允許越來(lái)越針對(duì)性和準(zhǔn)確的命令。InstructRL提供了另一個(gè)旨在增強(qiáng)人-AI協(xié)作的創(chuàng)新框架[91]。它專(zhuān)注于訓(xùn)練強(qiáng)化學(xué)習(xí)代理來(lái)解釋和執(zhí)行人類(lèi)提供的自然語(yǔ)言指令。該系統(tǒng)使用LLMs根據(jù)這些指令制定初始策略,引導(dǎo)強(qiáng)化學(xué)習(xí)代理實(shí)現(xiàn)協(xié)調(diào)的最佳平衡。最后,對(duì)于基于語(yǔ)言的人機(jī)界面,已經(jīng)開(kāi)發(fā)了一種新的、靈活的界面LILAC。它允許用戶使用文本輸入和場(chǎng)景圖像改變機(jī)器人軌跡[92]。該系統(tǒng)協(xié)同預(yù)訓(xùn)練的語(yǔ)言和圖像模型,如BERT和CLIP,使用變換器編碼器和解碼器在3D和速度空間中操縱機(jī)器人軌跡。這種方法在模擬環(huán)境中證明是有效的,并通過(guò)實(shí)際應(yīng)用展示了其實(shí)用性。
所有這些技術(shù)和方法在不同程度上依賴(lài)于先進(jìn)的語(yǔ)言建模來(lái)增強(qiáng)人-機(jī)器人交互和機(jī)器人控制。它們共同強(qiáng)調(diào)了LLMs在解釋和執(zhí)行人類(lèi)意圖方面的關(guān)鍵作用。每種方法都旨在提高機(jī)器人的適應(yīng)性和靈活性,使它們能夠更有效地處理多樣化的任務(wù)和環(huán)境。具體來(lái)說(shuō),TEXT2REWARD專(zhuān)注于生成和優(yōu)化獎(jiǎng)勵(lì)代碼,提高了強(qiáng)化學(xué)習(xí)策略的效力。相反,VoxPoser專(zhuān)注于從LLMs中提取操作符和約束。與此同時(shí),LILAC和InstructRL采用不同的方法來(lái)解釋和執(zhí)行自然語(yǔ)言命令。LILAC優(yōu)先考慮將話語(yǔ)映射到控制空間,而StructRL致力于訓(xùn)練強(qiáng)化學(xué)習(xí)代理理解和遵循自然語(yǔ)言指令。此外,最后討論的基于語(yǔ)言的人機(jī)交互研究探討了如何直接從文本和圖像中提取用戶意圖,并將其應(yīng)用于各種機(jī)器人平臺(tái)。這一方面使其與其他可能不包含此功能的方法有所不同??偟膩?lái)說(shuō),這些研究標(biāo)志著將LLMs技術(shù)整合到機(jī)器人學(xué)中的重大進(jìn)步。雖然它們的應(yīng)用領(lǐng)域和方法論有不同的焦點(diǎn),但它們都展示了人工智能創(chuàng)新的潛力。此外,它們?yōu)槲磥?lái)人-機(jī)器人交互的探索鋪平了道路。
3) 模塊化方法:最近在機(jī)器人控制方面的進(jìn)展強(qiáng)調(diào)了模塊化方法,允許創(chuàng)建更復(fù)雜和功能豐富的機(jī)器人系統(tǒng)。最近的研究突出了這一趨勢(shì)的關(guān)鍵方面。PROGRAMPORT提出了一個(gè)以程序?yàn)榛A(chǔ)的模塊化框架,專(zhuān)注于機(jī)器人操控[93]。它通過(guò)將自然語(yǔ)言的語(yǔ)義結(jié)構(gòu)翻譯成編程元素來(lái)解釋和執(zhí)行語(yǔ)言概念。該框架包括在學(xué)習(xí)和掌握一般視覺(jué)概念和特定任務(wù)操作策略方面表現(xiàn)出色的神經(jīng)模塊。這種結(jié)構(gòu)化方法明顯增強(qiáng)了對(duì)視覺(jué)基礎(chǔ)和操作策略的學(xué)習(xí),提高了對(duì)未見(jiàn)樣本和合成環(huán)境的泛化能力。接下來(lái),研究人員探索了使用LLMs來(lái)加速機(jī)器人系統(tǒng)策略適應(yīng)的方法[94],特別是在遇到新工具時(shí)。通過(guò)生成幾何形狀和描述性工具模型,然后將這些轉(zhuǎn)換為向量表示,LLMs促進(jìn)了快速適應(yīng)。這種語(yǔ)言信息和元學(xué)習(xí)的整合在適應(yīng)不熟悉工具方面表現(xiàn)出顯著的性能提升。
此外,將基于ViLD和CLIP的視覺(jué)語(yǔ)言模型NLMap[95]與SayCan框架相結(jié)合,導(dǎo)致了更靈活的場(chǎng)景表示。這種結(jié)合對(duì)于長(zhǎng)期規(guī)劃特別有效,尤其是在開(kāi)放世界場(chǎng)景中處理自然語(yǔ)言命令時(shí)。NLMap增強(qiáng)了基于LLM的規(guī)劃器理解其環(huán)境的能力。"Scaling Up and Distilling Down"框架結(jié)合了LLMs[96]、基于采樣的規(guī)劃器和策略學(xué)習(xí)的優(yōu)勢(shì)。它自動(dòng)化了生成、標(biāo)記和提取豐富的機(jī)器人探索經(jīng)驗(yàn)到一個(gè)多功能的視覺(jué)-語(yǔ)言運(yùn)動(dòng)策略中。這種多任務(wù)策略不僅繼承了長(zhǎng)期行為和穩(wěn)健的操控技能,而且在訓(xùn)練分布之外的場(chǎng)景中也表現(xiàn)出改善的性能。
MetaMorph介紹了一種基于變換器的方法,用于學(xué)習(xí)適用于廣泛的模塊化機(jī)器人設(shè)計(jì)空間的通用控制器[97]。這種方法使得機(jī)器人形態(tài)可以作為變換器模型的輸出。通過(guò)在多樣化的形態(tài)上進(jìn)行預(yù)訓(xùn)練,通過(guò)這種方法生成的策略展示了對(duì)新形態(tài)和任務(wù)的廣泛泛化能力。這展示了在機(jī)器人學(xué)中進(jìn)行廣泛的預(yù)訓(xùn)練和微調(diào)的潛力,類(lèi)似于視覺(jué)和語(yǔ)言領(lǐng)域的發(fā)展。
在這些研究中的每一項(xiàng)中,都采用了模塊化方法,增強(qiáng)了系統(tǒng)對(duì)新任務(wù)和環(huán)境的靈活性和適應(yīng)性。這些工作廣泛利用深度學(xué)習(xí)技術(shù),特別是與LLMs協(xié)同作用,以增強(qiáng)機(jī)器人系統(tǒng)的理解和決策能力。此外,這些研究的一個(gè)重要焦點(diǎn)是應(yīng)用NLP。這無(wú)論是通過(guò)直接解釋語(yǔ)言命令,還是通過(guò)語(yǔ)言豐富的學(xué)習(xí)和適應(yīng)過(guò)程都顯而易見(jiàn)。主要目標(biāo)是提高機(jī)器人在新環(huán)境和任務(wù)中快速泛化和適應(yīng)的能力。雖然所有研究都采用了深度學(xué)習(xí)和LLMs,但它們的具體實(shí)現(xiàn)和應(yīng)用是多樣的。有些集中在語(yǔ)言描述和理解上,而其他研究探索視覺(jué)和語(yǔ)言的融合。研究目標(biāo)各不相同,從適應(yīng)新工具,到長(zhǎng)期戰(zhàn)略規(guī)劃,到多形態(tài)機(jī)器人控制的挑戰(zhàn)。盡管技術(shù)方法、應(yīng)用領(lǐng)域和目標(biāo)任務(wù)存在差異,但每項(xiàng)研究都顯著地為推進(jìn)機(jī)器人系統(tǒng)的智能和適應(yīng)能力做出了貢獻(xiàn)。
C. 推理
1) 自然語(yǔ)言理解:在機(jī)器人推理任務(wù)領(lǐng)域,基于自然語(yǔ)言理解的LLMs作為一個(gè)重要的知識(shí)庫(kù),為各種任務(wù)提供常識(shí)性洞察,這一點(diǎn)至關(guān)重要。廣泛的研究表明,LLMs有效地模擬了類(lèi)似人類(lèi)的狀態(tài)和行為,特別是在研究執(zhí)行家庭清潔功能的機(jī)器人時(shí)尤為相關(guān)。這種方法偏離了傳統(tǒng)方法,后者通常需要昂貴的數(shù)據(jù)收集和模型訓(xùn)練。相反,LLMs利用現(xiàn)成的方法在機(jī)器人學(xué)中進(jìn)行泛化,從廣泛的文本數(shù)據(jù)分析中受益于其強(qiáng)大的總結(jié)能力。此外,LLMs的常識(shí)推理和代碼理解能力促進(jìn)了機(jī)器人與物理世界之間的聯(lián)系。例如,Progprompt在LLMs中引入編程語(yǔ)言特性已被證明可以提高任務(wù)性能。這種方法不僅直觀,而且足夠靈活,能夠適應(yīng)新的場(chǎng)景、代理和任務(wù),包括實(shí)際的機(jī)器人部署[98]。同時(shí),GIRAF利用大型語(yǔ)言模型的強(qiáng)大能力,更加靈活地解釋手勢(shì)和語(yǔ)言命令,使得能夠準(zhǔn)確推斷人類(lèi)意圖并為更有效的人機(jī)協(xié)作對(duì)手勢(shì)含義進(jìn)行情境化[99]。
在這一領(lǐng)域的一個(gè)創(chuàng)新發(fā)展是Cap(代碼作為策略)[47],它主張以機(jī)器人為中心的語(yǔ)言模型生成程序。這些程序可以適應(yīng)機(jī)器人操作棧的特定層:解釋自然語(yǔ)言命令、處理感知數(shù)據(jù)以及為原始語(yǔ)言控制參數(shù)化低維輸入。這種方法的基本原則是分層代碼生成促進(jìn)了更復(fù)雜代碼的創(chuàng)建,從而推進(jìn)了這一領(lǐng)域的最新技術(shù)。
無(wú)論是家庭清潔應(yīng)用還是Cap中的以機(jī)器人為中心的語(yǔ)言模型生成程序,都突出了LLMs在提供常識(shí)知識(shí)和解釋自然語(yǔ)言指令方面的優(yōu)勢(shì)。傳統(tǒng)機(jī)器人學(xué)通常需要廣泛的數(shù)據(jù)收集和專(zhuān)門(mén)的模型訓(xùn)練。相比之下,LLMs通過(guò)利用其在文本數(shù)據(jù)上的廣泛訓(xùn)練來(lái)減輕這種需求。LLMs的代碼理解和生成能力尤其關(guān)鍵,使機(jī)器人能夠更有效地與物理世界互動(dòng)并執(zhí)行復(fù)雜任務(wù)。然而,應(yīng)用重點(diǎn)有所區(qū)別:家庭清潔功能傾向于強(qiáng)調(diào)日常任務(wù)和環(huán)境適應(yīng)性,而Cap則專(zhuān)注于通過(guò)語(yǔ)言模型生成程序(LMPs)編程和控制機(jī)器人的更技術(shù)性行為。
總之,將LLMs整合到機(jī)器人推理任務(wù)中強(qiáng)調(diào)了它們?cè)谧匀徽Z(yǔ)言理解、常識(shí)知識(shí)提供以及代碼理解和生成方面的顯著能力。這些特性不僅減輕了與傳統(tǒng)機(jī)器人學(xué)相關(guān)的數(shù)據(jù)收集和模型訓(xùn)練負(fù)擔(dān),還提高了機(jī)器人的泛化能力和靈活性。通過(guò)充分的訓(xùn)練和調(diào)整,LLMs可以應(yīng)用于各種場(chǎng)景和任務(wù),展示了它們?cè)跈C(jī)器人學(xué)和人工智能未來(lái)的巨大潛力和廣泛的適用性。
2) 復(fù)雜任務(wù)推理和決策:在復(fù)雜任務(wù)推理和決策領(lǐng)域,各種研究已經(jīng)利用LLMs的推理能力來(lái)增強(qiáng)特定下游任務(wù)的精細(xì)化。例如,SayCan利用LLMs中嵌入的廣泛知識(shí)進(jìn)行具體化任務(wù)以及強(qiáng)化學(xué)習(xí)[61]。這種方法涉及使用強(qiáng)化學(xué)習(xí)來(lái)揭示有關(guān)個(gè)人技能價(jià)值函數(shù)的見(jiàn)解。然后,它使用這些技能的文本標(biāo)簽作為潛在響應(yīng),而LLM為任務(wù)完成提供總體語(yǔ)義指導(dǎo)。
另一個(gè)值得注意的發(fā)展是Instruct2Act框架[100]。它提供了一個(gè)用戶友好的、通用的機(jī)器人系統(tǒng),該系統(tǒng)使用LLMs將多模態(tài)命令轉(zhuǎn)換為機(jī)器人領(lǐng)域中的一系列動(dòng)作。該系統(tǒng)使用LLM生成的策略代碼,這些代碼對(duì)各種視覺(jué)基礎(chǔ)模型進(jìn)行API調(diào)用,從而獲得對(duì)任務(wù)集的視覺(jué)理解。
LLMs在自我規(guī)劃和PDDL(規(guī)劃領(lǐng)域定義語(yǔ)言)規(guī)劃中的使用也已經(jīng)被探索[101]。已經(jīng)證明,LLM輸出可以有效地指導(dǎo)啟發(fā)式搜索規(guī)劃器。
在失敗解釋和糾正任務(wù)領(lǐng)域,REFLECT框架利用機(jī)器人過(guò)去經(jīng)驗(yàn)的層次化總結(jié),這些經(jīng)驗(yàn)是從多感官觀察生成的,來(lái)查詢(xún)LLM進(jìn)行失敗推理[102]。獲得的失敗解釋然后可以指導(dǎo)基于語(yǔ)言的規(guī)劃器糾正失敗并成功完成任務(wù)。
此外,預(yù)訓(xùn)練多模態(tài)模型的適應(yīng)也是一種常見(jiàn)策略。通過(guò)將視覺(jué)-語(yǔ)言模型的預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)集成,以訓(xùn)練視覺(jué)-語(yǔ)言-行動(dòng)(VLA)模型[62],研究人員發(fā)現(xiàn),經(jīng)過(guò)互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的模型,參數(shù)高達(dá)550億,可以生成高效的機(jī)器人策略。這些模型表現(xiàn)出增強(qiáng)的泛化性能,并受益于網(wǎng)絡(luò)上可用的廣泛的視覺(jué)-語(yǔ)言預(yù)訓(xùn)練能力。
Socratic Models代表了另一種方法[67],其中多個(gè)大型預(yù)訓(xùn)練模型之間的結(jié)構(gòu)化對(duì)話促進(jìn)了新多模態(tài)任務(wù)的聯(lián)合預(yù)測(cè)。這種方法在多個(gè)任務(wù)中實(shí)現(xiàn)了零次射擊性能。
在這些研究中,主要的重點(diǎn)是利用LLMs自動(dòng)化推理和決策過(guò)程。這是通過(guò)利用LLMs提供或利用高級(jí)語(yǔ)義知識(shí)的能力來(lái)實(shí)現(xiàn)的,從而增強(qiáng)了任務(wù)執(zhí)行。有些方法將LLMs與其他模態(tài)集成,如視覺(jué)和行動(dòng),以加深任務(wù)理解和執(zhí)行。其他方法展示了在以前未見(jiàn)的任務(wù)上的有效性能,展示了零次或少次學(xué)習(xí)的能力。
每項(xiàng)研究采用了獨(dú)特的方法來(lái)整合LLMs。例如,SayCan結(jié)合了強(qiáng)化學(xué)習(xí),而Instruct2Act則集中在直接映射多模態(tài)指令上。所采用的技術(shù)——從強(qiáng)化學(xué)習(xí)和啟發(fā)式搜索到多模態(tài)預(yù)訓(xùn)練——在不同的應(yīng)用領(lǐng)域,如機(jī)器人操控、規(guī)劃和自動(dòng)決策制定中差異顯著。這些研究共同展示了LLMs在管理復(fù)雜任務(wù)推理和決策方面的巨大潛力。通過(guò)將LLMs與其他技術(shù)(如強(qiáng)化學(xué)習(xí)和多模態(tài)數(shù)據(jù)處理)結(jié)合起來(lái),可以實(shí)現(xiàn)更深層次的語(yǔ)義理解和更有效的決策支持。這在機(jī)器人學(xué)和自動(dòng)化領(lǐng)域尤為明顯,這種整合方法為新應(yīng)用鋪平了道路。然而,這些方法的有效性高度依賴(lài)于任務(wù)的具體性質(zhì)、所使用的數(shù)據(jù)和模型訓(xùn)練方法。因此,每種方法的選擇和應(yīng)用必須仔細(xì)針對(duì)特定上下文進(jìn)行定制。
3) 交互策略:LLMs的最新進(jìn)展在交互策略的發(fā)展中做出了重大貢獻(xiàn),展示了在語(yǔ)言生成和類(lèi)似人類(lèi)推理方面的印象能力。Matcha[103]利用LLMs增強(qiáng)了交互式多模態(tài)感知,展示了LLMs在理解各種類(lèi)型的輸入數(shù)據(jù)(如視覺(jué)和聽(tīng)覺(jué))方面的潛力。這種方法提出了一個(gè)增強(qiáng)的LLM多模態(tài)交互代理。這個(gè)代理不僅利用LLMs中固有的常識(shí)知識(shí)進(jìn)行更合理的交互式多模態(tài)感知,而且還展示了LLMs在進(jìn)行這種感知和解釋行為方面的實(shí)際應(yīng)用。
生成性代理,如所介紹的,是為了模擬人類(lèi)行為而設(shè)計(jì)的交互計(jì)算代理[104]。這些代理的架構(gòu)被設(shè)計(jì)成存儲(chǔ)、合成和應(yīng)用相關(guān)記憶,從而使用大型語(yǔ)言模型生成合理的行為。將LLMs與這些計(jì)算代理集成,促進(jìn)了先進(jìn)架構(gòu)和交互模式的創(chuàng)建。這種結(jié)合使得更真實(shí)的人類(lèi)行為模擬成為可能,擴(kuò)展了LLMs的潛在應(yīng)用。
基于LLMs的交互策略的重點(diǎn)是將LLMs與其他感知系統(tǒng)(如圖像識(shí)別和語(yǔ)音處理)融合。這種融合旨在模仿或增強(qiáng)人類(lèi)能力,提高認(rèn)知和處理能力。這種進(jìn)步在智能助理、機(jī)器人和增強(qiáng)現(xiàn)實(shí)系統(tǒng)領(lǐng)域有著深遠(yuǎn)的影響。
在討論的工作中,特別強(qiáng)調(diào)了多模態(tài)感知,重點(diǎn)是提高系統(tǒng)理解和與其環(huán)境互動(dòng)的能力。此外,人類(lèi)行為的模擬旨在在人工智能中復(fù)制人類(lèi)的思維和行動(dòng)過(guò)程。這兩個(gè)方向的融合有望創(chuàng)造出更強(qiáng)大、更通用的智能系統(tǒng)。這些系統(tǒng)被設(shè)想能夠以更復(fù)雜和人性化的水平與人類(lèi)互動(dòng),提出了重大的技術(shù)挑戰(zhàn),并引發(fā)了關(guān)鍵的倫理和社會(huì)適應(yīng)問(wèn)題。
IV. GPT-4V賦能的具體化任務(wù)規(guī)劃
基于前述對(duì)具體化任務(wù)和LLMs的調(diào)查,我們?cè)诒狙芯恐虚_(kāi)發(fā)了一個(gè)基于GPT-4V的具體化任務(wù)規(guī)劃框架,并進(jìn)行了評(píng)估實(shí)驗(yàn),如圖1所示。以下部分將提供有關(guān)數(shù)據(jù)集、提示設(shè)計(jì)和實(shí)驗(yàn)結(jié)果的詳細(xì)信息。
A. 數(shù)據(jù)集
為了全面評(píng)估GPT-4V的多模態(tài)具體化任務(wù)規(guī)劃能力,我們選擇了來(lái)自9個(gè)數(shù)據(jù)集的40多個(gè)案例,重點(diǎn)關(guān)注操控和抓取。這些動(dòng)作在遵循指令的機(jī)器人學(xué)中是基礎(chǔ),涉及多種人類(lèi)指令在不同場(chǎng)景中的應(yīng)用,如廚房取物和桌面重新排列。所選數(shù)據(jù)集通過(guò)谷歌開(kāi)放XEmbodiment數(shù)據(jù)集[49]訪問(wèn)。在每個(gè)案例中,視頻演示和自然語(yǔ)言指令作為輸入,評(píng)估GPT-4V作為機(jī)器人大腦的能力。這種設(shè)置使得基于自然語(yǔ)言指令的健壯規(guī)劃成為可能,用于生成機(jī)器人動(dòng)作。
B. 提示設(shè)計(jì)
提示設(shè)計(jì)在查詢(xún)LLMs時(shí)起著至關(guān)重要的作用。一個(gè)精心制作的、信息豐富且結(jié)構(gòu)清晰的提示,能夠產(chǎn)生更精確和一致的輸出,與給定指令相符合。在這里,我們通過(guò)結(jié)合圖像更新了[114]中的文本提示,創(chuàng)建了一個(gè)多模態(tài)提示,引導(dǎo)GPT-4V生成機(jī)器人任務(wù)計(jì)劃。多模態(tài)提示由五部分組成:
? 系統(tǒng)角色說(shuō)明:指定任務(wù)和GPT-4V在其響應(yīng)中采用的角色。
? 預(yù)定義動(dòng)作池:一組預(yù)定義的機(jī)器人動(dòng)作,GPT-4V可以從中選擇和排序,逐步完成任務(wù)。為解決詞匯限制,必要時(shí)提示GPT-4V創(chuàng)建新動(dòng)作。
? 示例輸出:一個(gè)JSON格式的示例,用于說(shuō)明預(yù)期輸出并確保一致性。
? 案例環(huán)境圖像和自然語(yǔ)言指令:包括從視頻演示中提取的第一幀作為環(huán)境圖像。
? 評(píng)估:GPT-4V負(fù)責(zé)根據(jù)與視頻演示的一致性對(duì)生成的任務(wù)計(jì)劃進(jìn)行評(píng)估,并提供解釋。
前三部分作為每個(gè)查詢(xún)的系統(tǒng)消息輸入,而最后兩部分作為用戶消息根據(jù)測(cè)試數(shù)據(jù)變化。完整的提示如圖附錄4所示。
V. 實(shí)驗(yàn)結(jié)果
在我們的實(shí)驗(yàn)框架中,大型語(yǔ)言模型(LLMs)首先生成針對(duì)每個(gè)機(jī)器人任務(wù)目標(biāo)的逐步指令。隨后,在這個(gè)生成的指令的指導(dǎo)下,模型從預(yù)定義的動(dòng)作池和動(dòng)作對(duì)象中選擇最合適的動(dòng)作,形成每個(gè)步驟的動(dòng)作計(jì)劃。在獲得LLMs生成的指令后,我們通過(guò)將它們與相應(yīng)視頻數(shù)據(jù)集中的Ground Truth指令進(jìn)行比較,對(duì)生成的結(jié)果進(jìn)行了定量評(píng)估。我們?cè)?個(gè)公開(kāi)可用的機(jī)器人數(shù)據(jù)集上進(jìn)行了嚴(yán)格的測(cè)試,得出了深刻且富有洞察力的發(fā)現(xiàn)。
例如,在RT-1 Robot Action [105]數(shù)據(jù)集中,如圖2頂部面板所示,多模態(tài)LLMs準(zhǔn)確識(shí)別了目標(biāo)對(duì)象,并熟練地分解和執(zhí)行了任務(wù)。如圖2左上角所示,基于給定的環(huán)境和指令,LLMs生成的指令如下:1) 將手移動(dòng)到底層抽屜中目標(biāo)的位置;2) 抓住目標(biāo);3) 將手帶著目標(biāo)移動(dòng)到柜臺(tái)上;4) 在柜臺(tái)上釋放目標(biāo)。在提供詳細(xì)的逐步文本指令后,LLMs從動(dòng)作池中選擇并列出一組符合當(dāng)前策略的指令和對(duì)象。例如,“移動(dòng)手(底層抽屜)”是第一項(xiàng)文本指令的功能表達(dá),便于后續(xù)直接使用這個(gè)動(dòng)作計(jì)劃與控制機(jī)器人臂的接口代碼。此外,通過(guò)LLMs生成的“環(huán)境狀態(tài)”,可以明顯看出模型能夠有效理解一系列操作后環(huán)境中關(guān)鍵對(duì)象空間關(guān)系的變化。圖2中的“匹配得分”也展示了模型的精確度。
表 I數(shù)據(jù)集描述以及GPT-4V自評(píng)的平均匹配得分,比較它生成的任務(wù)計(jì)劃與九個(gè)測(cè)試數(shù)據(jù)集中的真實(shí)演示。
圖 2. 不同數(shù)據(jù)集生成的任務(wù)計(jì)劃:RT-1 機(jī)器人動(dòng)作(頂部面板)、QT-Opt(左中)、伯克利橋(右中)、弗萊堡Franka游戲(底部左)和南加州大學(xué)Jaco游戲(底部右)。
在上述測(cè)試案例中,場(chǎng)景涉及的對(duì)象較少,任務(wù)指令相對(duì)簡(jiǎn)潔明了。因此,我們進(jìn)一步進(jìn)行了涉及語(yǔ)義模糊任務(wù)描述和復(fù)雜場(chǎng)景的測(cè)試。圖2左中代表了一個(gè)來(lái)自QT-Opt數(shù)據(jù)集[106]的測(cè)試案例,其中指令簡(jiǎn)單地是“拿起任何東西”,沒(méi)有指定場(chǎng)景中的任何實(shí)體。從LLMs生成的結(jié)果來(lái)看,它產(chǎn)生了一系列的通用指令,適用于抓取任何物體,并與地面真相保持高度一致性。對(duì)于復(fù)雜場(chǎng)景,如圖2右中所示,我們測(cè)試了一個(gè)來(lái)自伯克利橋數(shù)據(jù)集[107]的示例案例。輸入指令“將銀鍋從紅色罐頭前面的移動(dòng)到桌子前沿藍(lán)色毛巾旁邊”涉及多個(gè)對(duì)象及其在場(chǎng)景中的空間關(guān)系。在這里,LLMs不僅理解了任務(wù)的目的,還熟練地執(zhí)行了任務(wù)細(xì)節(jié),展示了它們先進(jìn)的圖像理解和邏輯推理能力。
圖2和圖3展示了LLMs在多樣化和復(fù)雜場(chǎng)景中的有效性的進(jìn)一步證據(jù)(包括數(shù)據(jù)集[108]–[113])。在這些實(shí)驗(yàn)中,LLMs表現(xiàn)出色,即使在設(shè)置復(fù)雜或有特殊要求的任務(wù)中也是如此。表I展示了GPT-4V在九個(gè)不同數(shù)據(jù)集中自我評(píng)估的平均匹配得分,表明生成的任務(wù)計(jì)劃與地面真相演示之間具有一致的高水平一致性。這鞏固了我們方法的有效性,并強(qiáng)調(diào)了多模態(tài)LLMs在機(jī)器人任務(wù)執(zhí)行中的強(qiáng)大的圖像理解和邏輯推理能力。其他測(cè)試結(jié)果可以在附錄中找到。
圖 3. 不同數(shù)據(jù)集生成的任務(wù)計(jì)劃:伯克利Autolab UR5(左上)、紐約大學(xué)Vinn(右上)、BC-Z(左下)和TOTO基準(zhǔn)測(cè)試(右下)。
VI. 局限性、討論和未來(lái)工作
我們概述了將大型語(yǔ)言模型(LLMs)整合到各種任務(wù)和環(huán)境中的機(jī)器人系統(tǒng),并評(píng)估了GPT-4V在多模態(tài)任務(wù)規(guī)劃中的表現(xiàn)。盡管GPT-4V作為任務(wù)規(guī)劃的機(jī)器人大腦展示了令人印象深刻的多模態(tài)推理和理解能力,但它面臨幾個(gè)局限性:1)生成的計(jì)劃是同質(zhì)化的,缺乏詳細(xì)的具體化和特定、穩(wěn)健的設(shè)計(jì)來(lái)管理復(fù)雜環(huán)境和任務(wù)。2)當(dāng)前的多模態(tài)LLMs,如GPT-4V和Google Gemini [28],需要精心制作的、冗長(zhǎng)的提示來(lái)產(chǎn)生可靠的輸出,這需要領(lǐng)域?qū)I(yè)知識(shí)和廣泛的技巧。3)機(jī)器人受到預(yù)定義動(dòng)作的限制,限制了其執(zhí)行自由和穩(wěn)健性。4)GPT-4V API的閉源性質(zhì)及相關(guān)的時(shí)間延遲可能會(huì)阻礙嵌入式系統(tǒng)開(kāi)發(fā)和實(shí)時(shí)商業(yè)應(yīng)用。未來(lái)的研究應(yīng)該旨在解決這些挑戰(zhàn),以開(kāi)發(fā)更穩(wěn)健的AGI機(jī)器人系統(tǒng)。
另一方面,多模態(tài)GPT-4V在機(jī)器人學(xué)中展示的先進(jìn)推理和視覺(jué)語(yǔ)言理解能力突顯了以LLM為中心的AGI機(jī)器人系統(tǒng)的潛力。展望未來(lái),以多模態(tài)LLM為中心的AGI機(jī)器人在各個(gè)領(lǐng)域都有應(yīng)用潛力。在精準(zhǔn)農(nóng)業(yè)領(lǐng)域,這些機(jī)器人可以取代人類(lèi)在各種勞動(dòng)密集型任務(wù)中的勞動(dòng)力,尤其是在收獲方面。這包括像水果采摘和作物表型分析[115],[116]這樣的任務(wù),這些任務(wù)需要在農(nóng)場(chǎng)復(fù)雜的環(huán)境下進(jìn)行高級(jí)推理和精確行動(dòng)[117]。在醫(yī)療保健領(lǐng)域,對(duì)安全和精確性的關(guān)鍵需求對(duì)多模態(tài)LLM的感知和推理能力提出了更高的要求。這一點(diǎn)在機(jī)器人輔助篩查和手術(shù)中尤為重要,因?yàn)樾枰鶕?jù)個(gè)人需求定制任務(wù)[118]。此外,利用對(duì)比學(xué)習(xí)模型如CLIP[119]將大腦信號(hào)與自然語(yǔ)言對(duì)齊,為開(kāi)發(fā)以LLM為中心的AGI機(jī)器人系統(tǒng)中的腦-機(jī)接口(BCIs)[120]提供了一條路徑。這些系統(tǒng)能夠讀取和解釋人類(lèi)大腦信號(hào),如EEG和fMRI,用于復(fù)雜任務(wù)完成中的自我規(guī)劃和控制[80],[121]。這一進(jìn)步可以顯著縮小人-環(huán)境互動(dòng)的差距,減輕身體和認(rèn)知?jiǎng)趧?dòng)。
VII. 結(jié)論
在本文中,我們提供了將大型語(yǔ)言模型(LLMs)整合到各種機(jī)器人系統(tǒng)和任務(wù)的概述。我們的分析顯示,LLMs展示了令人印象深刻的推理、語(yǔ)言理解和多模態(tài)處理能力,這些能力可以顯著增強(qiáng)機(jī)器人對(duì)指令、環(huán)境和所需行動(dòng)的理解。我們?cè)?個(gè)數(shù)據(jù)集的30多個(gè)案例中評(píng)估了最近發(fā)布的GPT-4V模型進(jìn)行具體化任務(wù)規(guī)劃。結(jié)果表明,GPT-4V能夠有效利用自然語(yǔ)言指令和視覺(jué)感知來(lái)生成詳細(xì)的行動(dòng)計(jì)劃,以完成操控任務(wù)。這表明使用多模態(tài)LLMs作為具體化智能的機(jī)器人大腦是可行的。
然而,關(guān)于模型透明度、穩(wěn)健性、安全性和現(xiàn)實(shí)世界適用性的一些挑戰(zhàn)仍然需要解決,因?yàn)槲覀冋诔鼘?shí)用和有能力的基于LLM的AI系統(tǒng)邁進(jìn)。具體來(lái)說(shuō),大型神經(jīng)模型的黑盒性質(zhì)使得很難完全理解它們的內(nèi)部推理過(guò)程和失敗模式。此外,模擬與現(xiàn)實(shí)世界之間的差距在不降低性能的情況下轉(zhuǎn)移策略方面持續(xù)存在困難。仍然需要通過(guò)標(biāo)準(zhǔn)化測(cè)試、對(duì)抗性訓(xùn)練、策略適應(yīng)方法和更安全的模型架構(gòu)等技術(shù)來(lái)解決這些問(wèn)題。依賴(lài)LLMs的自主智能系統(tǒng)的問(wèn)責(zé)和監(jiān)督協(xié)議也需要深思熟慮。以謹(jǐn)慎、道德和社會(huì)負(fù)責(zé)的方式克服這些多方面的挑戰(zhàn)仍然是推進(jìn)這一領(lǐng)域進(jìn)步的必要條件。
隨著語(yǔ)言模型繼續(xù)從多模態(tài)數(shù)據(jù)中積累廣泛的基礎(chǔ)知識(shí),我們預(yù)計(jì)在將它們與機(jī)器人學(xué)和基于模擬的學(xué)習(xí)整合方面將迅速創(chuàng)新。這可以在部署前使用模擬到現(xiàn)實(shí)技術(shù)在模擬中直觀地開(kāi)發(fā)和驗(yàn)證智能機(jī)器人。這樣的發(fā)展可以深刻增強(qiáng)和轉(zhuǎn)變我們構(gòu)建、測(cè)試和部署智能機(jī)器人系統(tǒng)的方式。
總體而言,自然語(yǔ)言處理和機(jī)器人學(xué)的協(xié)同整合是一個(gè)充滿機(jī)遇和挑戰(zhàn)的有前景的領(lǐng)域,值得進(jìn)行廣泛的未來(lái)跨學(xué)科研究。
Jiaqi Wang?, Zihao Wu?, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu,Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao,Bao Ge, Xiang Li, Tianming Liu?, and Shu Zhang?
西北工大、美國(guó)佐治亞大學(xué)等,2024.01,JOURNAL OF LATEX CLASS FILES
?
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/T_vqm2kl239uwxDL2CNBAg??
