讓大模型操縱無(wú)人機(jī),北航團(tuán)隊(duì)提出具身智能新架構(gòu)
進(jìn)入多模態(tài)時(shí)代,大模型也會(huì)操縱無(wú)人機(jī)了!
只要視覺(jué)模塊捕捉到啟動(dòng)條件,大模型這個(gè)“大腦”就會(huì)生成動(dòng)作指令,接著無(wú)人機(jī)便能迅速準(zhǔn)確地執(zhí)行。
北京航空航天大學(xué)智能無(wú)人機(jī)團(tuán)隊(duì)周堯明教授團(tuán)隊(duì)等研究人員,提出了一種基于多模態(tài)大模型的具身智能體架構(gòu)。
目前,這種架構(gòu)已被應(yīng)用于無(wú)人機(jī)的操控。
那么這種新的智能體表現(xiàn)如何,又有哪些技術(shù)細(xì)節(jié)呢?
“智能體即大腦”
研究團(tuán)隊(duì)利用大模型對(duì)多模態(tài)數(shù)據(jù)的理解能力,將真實(shí)物理世界的照片、聲音、傳感器數(shù)據(jù)等多源信息融合成能體的感知,將對(duì)于真實(shí)世界的執(zhí)行器的操作作為智能體的行為。
同時(shí),團(tuán)隊(duì)提出了一套“Agent as Cerebrum,Controller as Cerebellum”(智能體即大腦,控制器即小腦)的控制架構(gòu):
智能體作為大腦這一決策生成器,專(zhuān)注于生成高層級(jí)的行為;
控制器作為小腦這一運(yùn)動(dòng)控制器,專(zhuān)注于將高層級(jí)的行為(如期望目標(biāo)點(diǎn))轉(zhuǎn)換成低層級(jí)的系統(tǒng)命令(如旋翼轉(zhuǎn)速)。
具體來(lái)說(shuō),研究團(tuán)隊(duì)認(rèn)為這一成果主要有三項(xiàng)貢獻(xiàn)。
應(yīng)用于實(shí)際的新型系統(tǒng)架構(gòu)
研究團(tuán)隊(duì)提出了一種應(yīng)用于實(shí)際機(jī)器人的新的系統(tǒng)架構(gòu),將基于多模態(tài)大模型的智能體具象化為大腦。
而機(jī)器人運(yùn)動(dòng)規(guī)劃器與控制器則被具象化為小腦,機(jī)器人的感知系統(tǒng)類(lèi)比為人的眼、耳等信息收集器,機(jī)器人的執(zhí)行機(jī)構(gòu)類(lèi)比為人的手等執(zhí)行器。
△圖1 硬件系統(tǒng)架構(gòu)
這些節(jié)點(diǎn)通過(guò)ROS相連,通過(guò)ROS中消息的訂閱與發(fā)布或服務(wù)的請(qǐng)求與響應(yīng)實(shí)現(xiàn)通信,區(qū)別于傳統(tǒng)的端到端的機(jī)器人大模型控制。
這一架構(gòu)使得Agent可以專(zhuān)注于高層級(jí)命令的產(chǎn)生,對(duì)于高層級(jí)任務(wù)具備更強(qiáng)的智能性,對(duì)于實(shí)際的執(zhí)行具備更好的魯棒性和可靠性。
△圖2 軟件系統(tǒng)架構(gòu)
新型智能體
在這一架構(gòu)下,作者構(gòu)建了作為大腦的一種智能體AeroAgent。
該智能體主要包括三個(gè)部分:
- 一個(gè)自動(dòng)計(jì)劃生成模塊,具有多模態(tài)感知監(jiān)測(cè)能力,同時(shí)擅長(zhǎng)進(jìn)行待機(jī)模式下的應(yīng)急突發(fā)事件處理。
- 一個(gè)多模態(tài)數(shù)據(jù)記憶模塊,可以用于多模態(tài)記憶檢索和反思,為智能體賦予少樣本學(xué)習(xí)能力。
- 一個(gè)具身智能動(dòng)作模塊,可以建立具身智能體與ROS上其他模塊進(jìn)行穩(wěn)定控制的橋梁,這一模塊提供了對(duì)于ROS上其他節(jié)點(diǎn)以操作為橋梁進(jìn)行訪問(wèn)的能力。
同時(shí),一個(gè)動(dòng)作的完成,可能需要多次操作的交互以從傳感器獲取動(dòng)作的執(zhí)行所必需的參數(shù),確保智能體可以根據(jù)綜合態(tài)勢(shì)感知及所具備的執(zhí)行器來(lái)進(jìn)行穩(wěn)定的embodied action的輸出。
△圖3 AeroAgent模塊架構(gòu)
連接大模型和ROS的橋梁
為了給具身智能體和ROS機(jī)器人系統(tǒng)建立橋梁,讓Agent產(chǎn)生的操作能夠正確地、穩(wěn)定地發(fā)送給ROS并被其他節(jié)點(diǎn)成功執(zhí)行,同時(shí)讓其他節(jié)點(diǎn)所提供的信息讓LMM能夠讀取與理解,團(tuán)隊(duì)設(shè)計(jì)了了ROSchain——
一個(gè)連接LLMs/LMMs與ROS的橋梁。
ROSchain通過(guò)一套模塊和應(yīng)用程序接口(APIs)簡(jiǎn)化了大型模型與機(jī)器人傳感裝置、執(zhí)行單元和控制機(jī)制的集成,為智能體接入ROS系統(tǒng)提供了一個(gè)穩(wěn)定的中間件。
為什么選擇無(wú)人機(jī)
至于為什么選擇無(wú)人機(jī)進(jìn)行該系統(tǒng)架構(gòu)的測(cè)試與模擬,研究團(tuán)隊(duì)也做了解釋?zhuān)@主要有三個(gè)原因。
首先,如今LMMs中所蘊(yùn)含的web-scale的世界知識(shí),多為第三人稱(chēng)視角,人型機(jī)器人等領(lǐng)域的具身智能是類(lèi)似于以人類(lèi)為主體出發(fā)的第一人稱(chēng)視角。
而無(wú)人機(jī)掛載的相機(jī)(尤其是下視相機(jī))更加類(lèi)似于第三人稱(chēng)視角(上帝視角)的具身智能;
另一方面,現(xiàn)階段的LMMs無(wú)論是模型部署還是API服務(wù),通常受限于計(jì)算資源導(dǎo)致響應(yīng)有一定的延遲。
這對(duì)于自動(dòng)駕駛等領(lǐng)域是一個(gè)應(yīng)用的障礙,而無(wú)人機(jī)的任務(wù)規(guī)劃由于其可以懸停,具備應(yīng)對(duì)延遲的能力。
這兩點(diǎn)都導(dǎo)致目前技術(shù)發(fā)展水平下無(wú)人機(jī)適合作為先驅(qū)進(jìn)行相關(guān)理論與應(yīng)用的驗(yàn)證。
第二,目前工業(yè)無(wú)人機(jī)領(lǐng)域,如山火救援、農(nóng)林植保、無(wú)人放牧、電力巡檢等,多由飛手與專(zhuān)家配合實(shí)際操作,智能化任務(wù)執(zhí)行具有工業(yè)需求。
第三,從未來(lái)發(fā)展看,多智能體協(xié)同合作在物流、建筑、工廠等領(lǐng)域具備較為明顯的需求。
而在這種領(lǐng)域中,無(wú)人機(jī)作為“上帝視角”的具身智能體,適合作為中央節(jié)點(diǎn)的領(lǐng)導(dǎo)者進(jìn)行任務(wù)的分配,其他機(jī)器人可看作無(wú)人機(jī)的執(zhí)行器的一環(huán),所以這一研究也具有未來(lái)的發(fā)展前景。
團(tuán)隊(duì)在airgen的仿真器上進(jìn)行了模擬實(shí)驗(yàn),同時(shí)選用了DRL等方式作為對(duì)照組。結(jié)果如下:
在野外火災(zāi)搜救的場(chǎng)景中,AeroAgent獲得了100分(標(biāo)準(zhǔn)化分?jǐn)?shù),下同)的成績(jī),平均每步為2.04分。
而單純調(diào)用LLM或基于DRL的智能體都只獲得了29.4分,平均每步0.2,不足AeroAgent的十分之一。
△圖4-1山火救援場(chǎng)景
在著陸任務(wù)中,AeroAgent也以97.4的總分和48.7的每步平均分超過(guò)了其他模型。
△圖4-2 海上機(jī)坪著陸場(chǎng)景
而在風(fēng)機(jī)巡檢的測(cè)試中,AeroAgent直接成為了唯一能完成該任務(wù)的模型。
△圖4-3 風(fēng)力電機(jī)巡檢場(chǎng)景
導(dǎo)航任務(wù)上,AeroAgent 4.44的每步均分,分別是DRL和純LLM的40倍和近10倍。
△圖4-4 Airgen仿真實(shí)驗(yàn)
團(tuán)隊(duì)還在真實(shí)場(chǎng)景中進(jìn)行了無(wú)人機(jī)系統(tǒng)的測(cè)試,以一個(gè)簡(jiǎn)單的受困群眾引導(dǎo)實(shí)驗(yàn)為例進(jìn)行了案例研究。
△圖5 受困群眾引導(dǎo)案例實(shí)驗(yàn)
團(tuán)隊(duì)目前正以這一工作為基礎(chǔ),在某高原牦牛牧場(chǎng)進(jìn)行無(wú)人放牧智能無(wú)人機(jī)的實(shí)驗(yàn),探索其實(shí)際應(yīng)用的可能性,并將以“予智能以具身”為目標(biāo),進(jìn)行其他機(jī)器人/多機(jī)器人合作的智能體落地應(yīng)用探索。
論文地址:https://arxiv.org/abs/2311.15033