論文深度解讀:大模型(LLM)加持下的自主無人機(jī)分層智能體框架,實(shí)現(xiàn)自主規(guī)劃
AI,為那些危險又重要的工業(yè)檢測帶來了新可能。
化工廠里密布的管道,或是高聳入云的電力設(shè)施,是現(xiàn)代工業(yè)的心臟。我們需要定期派人去檢查,看看儀表讀數(shù)是否正常,管道有無泄漏,設(shè)備有無損壞。
這些工作,辛苦且危險。人工作業(yè)安全風(fēng)險高,人的生理極限也決定了檢查不可能做到全天候,無死角。
于是,無人機(jī)檢測應(yīng)運(yùn)而生。
但目前市面上的所謂“智能”無人機(jī),大多還是個“遙控玩具”。
它們或者嚴(yán)格按照人類預(yù)設(shè)好的航線飛行,不能隨機(jī)應(yīng)變,遇到一點(diǎn)意外情況就出問題?;蛘呔偷每恳粋€技術(shù)嫻熟的飛手在后面實(shí)時遙控,這不僅成本高,而且飛手的反應(yīng)和判斷力成了整個系統(tǒng)的瓶頸。
現(xiàn)在的無人機(jī)檢測系統(tǒng),在任務(wù)的廣度(比如換個新工廠就得重新編程),任務(wù)的復(fù)雜性,以及同時部署無人機(jī)的數(shù)量這三個方面,都存在天花板。
我們能不能讓無人機(jī)群自己“思考”,自己“做決定”,并協(xié)同完成任務(wù)呢?
給無人機(jī)群裝個“總指揮”
一篇《A Hierarchical Agentic Framework for Autonomous Drone-Based Visual Inspection》(一種用于基于自主無人機(jī)的視覺檢測的分層智能體框架)的論文帶來了希望。
這個框架將多個AI組成高效團(tuán)隊。這個團(tuán)隊里,有負(fù)責(zé)協(xié)調(diào)和發(fā)號施令的“項(xiàng)目經(jīng)理”,也有負(fù)責(zé)具體執(zhí)行的“一線員工”,它們互相配合,去完成一個復(fù)雜的任務(wù)。
這個模式在數(shù)字世界里已經(jīng)取得了巨大的成功。比如,讓AI團(tuán)隊自己寫軟件代碼,或者幫助科學(xué)家做科學(xué)研究,都表現(xiàn)出了驚人的能力。它們能理解人類的自然語言指令,通過團(tuán)隊協(xié)作,解決非常復(fù)雜的問題。
研究人員把這個成功的團(tuán)隊模式,從虛擬的數(shù)字世界,搬到現(xiàn)實(shí)的物理世界,讓它們來操控?zé)o人機(jī):開發(fā)一個分層智能體框架,用于自主無人機(jī)視覺檢測。
框架就是這樣一個團(tuán)隊結(jié)構(gòu):
團(tuán)隊里有一個“頭部智能體”(Head Agent),它就是那個運(yùn)籌帷幄的“總指揮”。還有多個“工作智能體”(Worker Agents),每個工作智能體都是一個“一線飛行員”,專門負(fù)責(zé)控制一架無人機(jī)。
這種“一個總指揮+多個飛行員”的架構(gòu),好處非常明顯。
今天我用兩架無人機(jī),明天業(yè)務(wù)需要,增加到二十架,甚至二百架,我的指揮系統(tǒng)完全不需要做任何結(jié)構(gòu)上的改動??傊笓]只需要知道自己手下有多少兵,然后根據(jù)任務(wù)動態(tài)分配就行了。
溝通效率和準(zhǔn)確性大大提高。用戶下達(dá)的指令往往是模糊的,比如“去檢查一下A區(qū)的設(shè)備”。不同的人,說法可能千差萬別。如果讓每個飛行員都去直接理解用戶,那肯定會出亂子。
現(xiàn)在有了“總指揮”就不一樣了。它像一個翻譯和標(biāo)準(zhǔn)化中心,把用戶五花八門的指令,統(tǒng)一轉(zhuǎn)換成結(jié)構(gòu)清晰,標(biāo)準(zhǔn)一致的任務(wù)指令,然后再分發(fā)給下面的一線飛行員。這樣,飛行員們接到的命令永遠(yuǎn)是清晰的,執(zhí)行起來自然更可靠。
這種分層結(jié)構(gòu)也解決了“信息過載”的問題。
研究人員定義了兩種“記憶”。一種叫“會話歷史”(Session History),由總指揮全程維護(hù)。從任務(wù)開始到結(jié)束,所有的用戶交互,總指揮做出的所有規(guī)劃決策,以及最終的任務(wù)結(jié)果,都會被完整記錄下來。
另一種叫“線程歷史”(Thread History),由每個一線飛行員各自維護(hù)。每個飛行員只關(guān)心自己當(dāng)前負(fù)責(zé)的這個子任務(wù)。它會記錄自己為了完成這個任務(wù)所做的所有思考,執(zhí)行的所有動作,以及得到的結(jié)果。一旦這個子任務(wù)完成,這段“線程歷史”就會被清空,以免干擾下一個任務(wù)。
這就好比總指揮拿著整個項(xiàng)目的藍(lán)圖,而每個飛行員只需要看懂自己負(fù)責(zé)的那一小塊施工圖。大家各司其職,互不干擾,效率最高。
具體來說,總指揮通過一個叫“Plan”(計劃)的函數(shù)來處理用戶指令。它輸出的是一個結(jié)構(gòu)化的指令字典,里面清清楚楚地寫著給每架無人機(jī)的任務(wù)分配。內(nèi)容包括:為這架無人機(jī)量身定制的步驟計劃,任務(wù)完成時應(yīng)該達(dá)到的預(yù)期結(jié)果,一個判斷任務(wù)是否結(jié)束的標(biāo)志,以及需要反饋給用戶的信息。
而一線飛行員們,則通過一個迭代循環(huán)來控制自己的無人機(jī)。這個循環(huán)里,就用到了接下來要講的核心方法。它們會不斷地思考下一步該干嘛,然后調(diào)用相應(yīng)的函數(shù)去執(zhí)行,執(zhí)行完再評估一下結(jié)果,如此往復(fù),直到任務(wù)完成。
它們能調(diào)用的函數(shù),稱之為“工具”。最基本的無人機(jī)工具有起飛,降落,移動,旋轉(zhuǎn),拍照。這個工具箱是開放的,可以隨時給它增加新工具,比如集成一個視覺語言模型(VLM),讓無人機(jī)能“看懂”拍到的圖像,或者集成一個YOLO模型,讓它能識別特定的物體。
蜂群系統(tǒng)的三種“思考模式”
有了團(tuán)隊架構(gòu),還需要給一線飛行員們規(guī)定工作流程,也就是它們的“思考模式”。一個飛行員在接到任務(wù)后,是應(yīng)該先深思熟慮再行動,還是邊想邊干,或者干脆直接上手?
研究人員設(shè)計了三種不同的方法,并在實(shí)驗(yàn)中對它們進(jìn)行了對比。
第一種,是研究人員提出的新方法,叫ReActEval。它遵循一個“推理-行動-評估”的三步循環(huán)。
規(guī)劃階段,飛行員會綜合分析自己當(dāng)前的狀態(tài)(比如坐標(biāo),朝向),總指揮下達(dá)的任務(wù)計劃和預(yù)期結(jié)果,以及自己之前的操作歷史。然后,它會得出一個結(jié)論:我下一步最應(yīng)該執(zhí)行什么操作,以及為什么。
把上一步“想”出來的操作,轉(zhuǎn)換成實(shí)際的函數(shù)調(diào)用,去命令無人機(jī)執(zhí)行。比如,調(diào)用“Move(forward, 5)”這個函數(shù),讓無人機(jī)向前飛5米。
ReActEval方法的精髓是評估(Evaluate)。在執(zhí)行完一個動作后,飛行員會進(jìn)行一次“復(fù)盤”。它會評估剛剛的動作是否成功,任務(wù)進(jìn)展如何,離最終目標(biāo)還有多遠(yuǎn)。然后,它會輸出一個評估報告,里面包含對當(dāng)前情況的分析,一個判斷任務(wù)是否已經(jīng)完成的“結(jié)束標(biāo)志”,以及對下一步行動的建議和指導(dǎo)。
這個“評估”環(huán)節(jié),就像一個內(nèi)置的質(zhì)檢員和導(dǎo)航員,不斷地校正航向,確保任務(wù)在正確的軌道上推進(jìn)。
第二種,是作為對比的ReAct方法。它遵循一個“推理-行動”的兩步循環(huán)。
它的推理和行動步驟和ReActEval很像,但它省略了獨(dú)立的“評估”環(huán)節(jié)。它也會判斷任務(wù)是否結(jié)束,但這個判斷是在“推理”步驟里完成的。相比之下,它更像一個敏捷的執(zhí)行者,思考完就做,做完馬上思考下一步,節(jié)奏更快。
第三種,是最簡單的Act方法。
它把推理和評估環(huán)節(jié)都去掉了,接到總指揮的計劃后,直接開始調(diào)用函數(shù)執(zhí)行操作。研究人員對它做了點(diǎn)改造,給了它一個“終止”函數(shù),讓它在需要的時候也能停下來。同時,在它的提示里,也包含了來自總指揮的計劃和預(yù)期結(jié)果,讓它不至于完全“無腦”執(zhí)行。
這三種方法,代表了從深思熟慮到簡單直接的三種不同層次的“智能”。
每種思考模式,應(yīng)該配什么大腦呢?
研究人員設(shè)計了一場復(fù)雜的實(shí)驗(yàn)。
他們搭建了一個模擬環(huán)境,可以精確地追蹤每架無人機(jī)的三維坐標(biāo),朝向,相機(jī)角度等所有狀態(tài)。對無人機(jī)的每個動作都定義了精確的狀態(tài)更新規(guī)則,比如“起飛”指令會將無人機(jī)的高度設(shè)置為1米,“旋轉(zhuǎn)”指令會更新它的航向角等等。這個框架既可以用于模擬,也可以無縫對接到真實(shí)的無人機(jī)上。
實(shí)驗(yàn)中,用了兩架無人機(jī),并分別給它們裝上四種(GPT-4.1,GPT-4.1 Nano,o4-mini 和 o3)大腦。
讓這四種“大腦”分別與三種“思考模式”(ReActEval,ReAct,Act)進(jìn)行組合,形成12支參賽隊伍。
然后,給它們設(shè)置了三個不同難度的關(guān)卡。
- 簡單任務(wù):一到兩個步驟就能完成的指令,比如讓兩架無人機(jī)都起飛,或者降落。
- 中等任務(wù):需要執(zhí)行一系列明確的多步驟指令,考驗(yàn)的是它們執(zhí)行協(xié)調(diào)長序列命令的能力。
- 困難任務(wù):這是真正的挑戰(zhàn),模擬復(fù)雜的現(xiàn)實(shí)檢測場景。比如,下達(dá)一個模糊的指令:“用兩架無人機(jī),拍下這個房間每個角落的照片,每架負(fù)責(zé)兩個角落?!?這就需要無人機(jī)自己去規(guī)劃路徑,分析場景,甚至調(diào)用視覺工具來理解自己看到了什么。
用兩個指標(biāo)來評判它們的表現(xiàn):任務(wù)完成率和執(zhí)行時間。
對于簡單和中等任務(wù),由于動作序列是確定的,直接計算它們正確執(zhí)行的函數(shù)調(diào)用次數(shù)。比如“讓兩架無人機(jī)都起飛”這個任務(wù),需要調(diào)用兩次起飛函數(shù),全部正確執(zhí)行就得2分。
對于困難任務(wù),由于完成的方式可能有很多種,不再計較具體的函數(shù)調(diào)用,而是看它們是否完成了更高級別的子任務(wù)。比如前面那個拍角落的任務(wù),總共4個角落,每成功拍到一個角落就得1分,總分4分。
評分過程非常嚴(yán)格,必須是按正確的順序,在正確的上下文中執(zhí)行了正確的操作才得分。一旦出錯,后面的即使做對了也不再計分。
好了,一切準(zhǔn)備就緒。比賽開始。
實(shí)驗(yàn)結(jié)果,特別是任務(wù)完成率,出現(xiàn)了一個讓所有人都始料未及的現(xiàn)象:隨著模型能力的增強(qiáng),不同方法之間的性能發(fā)生了徹底的反轉(zhuǎn)。
不同模型和難度級別的性能比較。Overall列顯示所有復(fù)雜度級別的準(zhǔn)確率。
當(dāng)ReActEval搭配最弱的“敏捷大腦”(GPT-4.1 Nano)時,在中等難度任務(wù)中,它的表現(xiàn)是所有組合里最差的,36個操作只做對了13個。
但是,當(dāng)給它換上更強(qiáng)大的“大腦”(GPT-4.1,o4-mini,o3)后,它立刻脫胎換骨,成為了表現(xiàn)最好的方法,穩(wěn)定地做對了34個操作,在困難任務(wù)中也取得了最高分。
反觀最簡單的Act。它的表現(xiàn)恰恰相反。它在搭配最弱的“大腦”時,表現(xiàn)居然是最好的(21/36)??呻S著“大腦”越來越聰明,它的性能提升卻非常有限,最終被ReActEval遠(yuǎn)遠(yuǎn)甩在身后。
這個驚人的反轉(zhuǎn)告訴我們:一個方法的好壞,不是絕對的,它從根本上取決于執(zhí)行這個方法的大腦夠不夠聰明。
ReActEval方法里額外的“推理”和“評估”步驟,對于一個能力不足的模型來說,非但不是幫助,反而是一種負(fù)擔(dān)。它就像一個學(xué)渣,你讓他多思考,多復(fù)盤,他反而會因?yàn)樽约涸愀獾倪壿嬆芰Γ阱e誤的道路上越走越遠(yuǎn),錯上加錯。
研究人員從實(shí)驗(yàn)記錄里找到了一個絕佳的例子。有一個任務(wù)是讓無人機(jī)向前移動4米。
當(dāng)使用GPT-4.1 Nano這個“敏捷大腦”時,ReActEval方法在第一步“推理”時正確地理解了任務(wù),但在將其轉(zhuǎn)換為坐標(biāo)時犯了致命錯誤,把“向前4米”,錯誤地理解成了“x軸移動4米”。這個初始錯誤,在后續(xù)的“評估”環(huán)節(jié)中非但沒有被糾正,反而被不斷地放大,導(dǎo)致了一系列錯誤的糾正操作,最終任務(wù)失敗。
而換上o4-mini這個更強(qiáng)的“大腦”后,它在整個思考鏈條中都準(zhǔn)確地維持了正確的坐標(biāo)計算。這清晰地表明,只有當(dāng)模型的能力達(dá)到一定閾值時,這種結(jié)構(gòu)化的、復(fù)雜的思考方法才能真正發(fā)揮出它的威力。
另一個有趣的發(fā)現(xiàn)是,任務(wù)的復(fù)雜度,決定了方法的選擇是否重要。
在簡單任務(wù)中,所有12支隊伍的表現(xiàn)都近乎完美。這說明,對于“起飛”,“降落”這種簡單任務(wù),你用什么方法,用什么模型,根本不重要,大家都能搞定。
但一旦任務(wù)變得復(fù)雜,差距就立刻顯現(xiàn)出來了。在中等和困難任務(wù)中,不同方法和模型的組合,表現(xiàn)出了天壤之別。這恰恰說明了像ReActEval這樣的結(jié)構(gòu)化推理方法的價值所在。它提供了一個系統(tǒng)性的框架來管理多步驟的復(fù)雜決策,而這種能力,在任務(wù)難度增加時,變得至關(guān)重要。
對失敗的案例進(jìn)行分析:
結(jié)果發(fā)現(xiàn),ReActEval方法顯著減少了“不正確的函數(shù)調(diào)用”和“不必要的重復(fù)函數(shù)調(diào)用”這兩類低級錯誤。這要?dú)w功于它那個關(guān)鍵的“評估”步驟,系統(tǒng)性的復(fù)盤確實(shí)能有效避免犯錯,或者在犯錯后及時糾正。
但是,有一種失敗模式,在所有方法中都普遍存在,那就是“提前停止”。模型經(jīng)常在任務(wù)還沒有完全完成時,就自己認(rèn)為已經(jīng)完成了,然后終止了任務(wù)。這似乎暗示,這是底層大語言模型自身固有的一個缺陷。
你可能會覺得,ReActEval又是推理又是評估,肯定比Act要慢得多。
但結(jié)果再次出乎意料。方法之間的執(zhí)行時間差異微乎其微。真正決定執(zhí)行時間的,是“大腦”的類型和大小,而不是“思考模式”的復(fù)雜性。
更強(qiáng)大,更聰明的模型,需要更長的“思考”時間。這個發(fā)現(xiàn)在實(shí)際應(yīng)用中至關(guān)重要,它告訴我們,在對延遲敏感的應(yīng)用中,選擇一個合適大小的模型,遠(yuǎn)比糾結(jié)于用哪種推理方法更重要。
未來的智能蜂群系統(tǒng)應(yīng)該怎么設(shè)計?
研究結(jié)果表明,不是越復(fù)雜的推理方法就一定越好。
最佳的策略,應(yīng)該是將推理方法與任務(wù)的復(fù)雜度,以及可用的計算資源進(jìn)行匹配,而不是盲目地追求最復(fù)雜的框架。
當(dāng)然,研究人員承認(rèn),這個研究的一切都還停留在模擬環(huán)境中。
他們進(jìn)行了初步的真實(shí)世界測試,發(fā)現(xiàn)物理世界的復(fù)雜性,比如傳感器噪聲,通信延遲,會顯著增加任務(wù)的難度。模擬和現(xiàn)實(shí)之間存在巨大的鴻溝。模型很難將高級的目標(biāo),轉(zhuǎn)換成物理導(dǎo)航所需要的精確的,低級的控制指令序列。
這為未來的研究指明了幾個有趣的方向。
一個方向是開發(fā)混合系統(tǒng)。讓大語言模型(LLM)去當(dāng)“總指揮”,負(fù)責(zé)高級的戰(zhàn)略規(guī)劃,而把底層的飛行控制,交給傳統(tǒng)的,更可靠的控制系統(tǒng)來執(zhí)行。AI負(fù)責(zé)思考“去哪里”,傳統(tǒng)控制系統(tǒng)負(fù)責(zé)解決“怎么去”。
另一個方向是開發(fā)混合能力的智能體。讓一個強(qiáng)大的模型,比如o3,來負(fù)責(zé)最需要智慧的“推理”和“評估”步驟,而讓一個更小,更快的模型,來執(zhí)行相對簡單的“行動”步驟。
更進(jìn)一步,可以研究自適應(yīng)智能體系統(tǒng)。這個系統(tǒng)可以先評估一下任務(wù)的復(fù)雜度,然后動態(tài)地選擇最合適的思考模式。遇到簡單任務(wù),就用Act模式,高效完成。遇到復(fù)雜任務(wù),再切換到“三思而后行”的ReActEval模式,確保成功率。
這些方向共同指向了一個自適應(yīng),混合系統(tǒng)的未來。