論文深度解讀：大模型（LLM）加持下的自主無人機(jī)分層智能體框架，實(shí)現(xiàn)自主規(guī)劃

2025-10-10 09:25:09

一篇《A Hierarchical Agentic Framework for Autonomous Drone-Based Visual Inspection》（一種用于基于自主無人機(jī)的視覺檢測的分層智能體框架）的論文帶來了希望。

AI，為那些危險又重要的工業(yè)檢測帶來了新可能。

化工廠里密布的管道，或是高聳入云的電力設(shè)施，是現(xiàn)代工業(yè)的心臟。我們需要定期派人去檢查，看看儀表讀數(shù)是否正常，管道有無泄漏，設(shè)備有無損壞。

這些工作，辛苦且危險。人工作業(yè)安全風(fēng)險高，人的生理極限也決定了檢查不可能做到全天候，無死角。

于是，無人機(jī)檢測應(yīng)運(yùn)而生。

但目前市面上的所謂“智能”無人機(jī)，大多還是個“遙控玩具”。

它們或者嚴(yán)格按照人類預(yù)設(shè)好的航線飛行，不能隨機(jī)應(yīng)變，遇到一點(diǎn)意外情況就出問題?；蛘呔偷每恳粋€技術(shù)嫻熟的飛手在后面實(shí)時遙控，這不僅成本高，而且飛手的反應(yīng)和判斷力成了整個系統(tǒng)的瓶頸。

現(xiàn)在的無人機(jī)檢測系統(tǒng)，在任務(wù)的廣度（比如換個新工廠就得重新編程），任務(wù)的復(fù)雜性，以及同時部署無人機(jī)的數(shù)量這三個方面，都存在天花板。

我們能不能讓無人機(jī)群自己“思考”，自己“做決定”，并協(xié)同完成任務(wù)呢？

給無人機(jī)群裝個“總指揮”

一篇《A Hierarchical Agentic Framework for Autonomous Drone-Based Visual Inspection》（一種用于基于自主無人機(jī)的視覺檢測的分層智能體框架）的論文帶來了希望。

這個框架將多個AI組成高效團(tuán)隊。這個團(tuán)隊里，有負(fù)責(zé)協(xié)調(diào)和發(fā)號施令的“項(xiàng)目經(jīng)理”，也有負(fù)責(zé)具體執(zhí)行的“一線員工”，它們互相配合，去完成一個復(fù)雜的任務(wù)。

這個模式在數(shù)字世界里已經(jīng)取得了巨大的成功。比如，讓AI團(tuán)隊自己寫軟件代碼，或者幫助科學(xué)家做科學(xué)研究，都表現(xiàn)出了驚人的能力。它們能理解人類的自然語言指令，通過團(tuán)隊協(xié)作，解決非常復(fù)雜的問題。

研究人員把這個成功的團(tuán)隊模式，從虛擬的數(shù)字世界，搬到現(xiàn)實(shí)的物理世界，讓它們來操控?zé)o人機(jī)：開發(fā)一個分層智能體框架，用于自主無人機(jī)視覺檢測。

框架就是這樣一個團(tuán)隊結(jié)構(gòu)：

團(tuán)隊里有一個“頭部智能體”（Head Agent），它就是那個運(yùn)籌帷幄的“總指揮”。還有多個“工作智能體”（Worker Agents），每個工作智能體都是一個“一線飛行員”，專門負(fù)責(zé)控制一架無人機(jī)。

這種“一個總指揮+多個飛行員”的架構(gòu)，好處非常明顯。

今天我用兩架無人機(jī)，明天業(yè)務(wù)需要，增加到二十架，甚至二百架，我的指揮系統(tǒng)完全不需要做任何結(jié)構(gòu)上的改動?？傊笓]只需要知道自己手下有多少兵，然后根據(jù)任務(wù)動態(tài)分配就行了。

溝通效率和準(zhǔn)確性大大提高。用戶下達(dá)的指令往往是模糊的，比如“去檢查一下A區(qū)的設(shè)備”。不同的人，說法可能千差萬別。如果讓每個飛行員都去直接理解用戶，那肯定會出亂子。

現(xiàn)在有了“總指揮”就不一樣了。它像一個翻譯和標(biāo)準(zhǔn)化中心，把用戶五花八門的指令，統(tǒng)一轉(zhuǎn)換成結(jié)構(gòu)清晰，標(biāo)準(zhǔn)一致的任務(wù)指令，然后再分發(fā)給下面的一線飛行員。這樣，飛行員們接到的命令永遠(yuǎn)是清晰的，執(zhí)行起來自然更可靠。

這種分層結(jié)構(gòu)也解決了“信息過載”的問題。

研究人員定義了兩種“記憶”。一種叫“會話歷史”（Session History），由總指揮全程維護(hù)。從任務(wù)開始到結(jié)束，所有的用戶交互，總指揮做出的所有規(guī)劃決策，以及最終的任務(wù)結(jié)果，都會被完整記錄下來。

另一種叫“線程歷史”（Thread History），由每個一線飛行員各自維護(hù)。每個飛行員只關(guān)心自己當(dāng)前負(fù)責(zé)的這個子任務(wù)。它會記錄自己為了完成這個任務(wù)所做的所有思考，執(zhí)行的所有動作，以及得到的結(jié)果。一旦這個子任務(wù)完成，這段“線程歷史”就會被清空，以免干擾下一個任務(wù)。

這就好比總指揮拿著整個項(xiàng)目的藍(lán)圖，而每個飛行員只需要看懂自己負(fù)責(zé)的那一小塊施工圖。大家各司其職，互不干擾，效率最高。

具體來說，總指揮通過一個叫“Plan”（計劃）的函數(shù)來處理用戶指令。它輸出的是一個結(jié)構(gòu)化的指令字典，里面清清楚楚地寫著給每架無人機(jī)的任務(wù)分配。內(nèi)容包括：為這架無人機(jī)量身定制的步驟計劃，任務(wù)完成時應(yīng)該達(dá)到的預(yù)期結(jié)果，一個判斷任務(wù)是否結(jié)束的標(biāo)志，以及需要反饋給用戶的信息。

而一線飛行員們，則通過一個迭代循環(huán)來控制自己的無人機(jī)。這個循環(huán)里，就用到了接下來要講的核心方法。它們會不斷地思考下一步該干嘛，然后調(diào)用相應(yīng)的函數(shù)去執(zhí)行，執(zhí)行完再評估一下結(jié)果，如此往復(fù)，直到任務(wù)完成。

它們能調(diào)用的函數(shù)，稱之為“工具”。最基本的無人機(jī)工具有起飛，降落，移動，旋轉(zhuǎn)，拍照。這個工具箱是開放的，可以隨時給它增加新工具，比如集成一個視覺語言模型（VLM），讓無人機(jī)能“看懂”拍到的圖像，或者集成一個YOLO模型，讓它能識別特定的物體。

蜂群系統(tǒng)的三種“思考模式”

有了團(tuán)隊架構(gòu)，還需要給一線飛行員們規(guī)定工作流程，也就是它們的“思考模式”。一個飛行員在接到任務(wù)后，是應(yīng)該先深思熟慮再行動，還是邊想邊干，或者干脆直接上手？

研究人員設(shè)計了三種不同的方法，并在實(shí)驗(yàn)中對它們進(jìn)行了對比。

第一種，是研究人員提出的新方法，叫ReActEval。它遵循一個“推理-行動-評估”的三步循環(huán)。

規(guī)劃階段，飛行員會綜合分析自己當(dāng)前的狀態(tài)（比如坐標(biāo)，朝向），總指揮下達(dá)的任務(wù)計劃和預(yù)期結(jié)果，以及自己之前的操作歷史。然后，它會得出一個結(jié)論：我下一步最應(yīng)該執(zhí)行什么操作，以及為什么。

把上一步“想”出來的操作，轉(zhuǎn)換成實(shí)際的函數(shù)調(diào)用，去命令無人機(jī)執(zhí)行。比如，調(diào)用“Move(forward, 5)”這個函數(shù)，讓無人機(jī)向前飛5米。

ReActEval方法的精髓是評估（Evaluate）。在執(zhí)行完一個動作后，飛行員會進(jìn)行一次“復(fù)盤”。它會評估剛剛的動作是否成功，任務(wù)進(jìn)展如何，離最終目標(biāo)還有多遠(yuǎn)。然后，它會輸出一個評估報告，里面包含對當(dāng)前情況的分析，一個判斷任務(wù)是否已經(jīng)完成的“結(jié)束標(biāo)志”，以及對下一步行動的建議和指導(dǎo)。

這個“評估”環(huán)節(jié)，就像一個內(nèi)置的質(zhì)檢員和導(dǎo)航員，不斷地校正航向，確保任務(wù)在正確的軌道上推進(jìn)。

第二種，是作為對比的ReAct方法。它遵循一個“推理-行動”的兩步循環(huán)。

它的推理和行動步驟和ReActEval很像，但它省略了獨(dú)立的“評估”環(huán)節(jié)。它也會判斷任務(wù)是否結(jié)束，但這個判斷是在“推理”步驟里完成的。相比之下，它更像一個敏捷的執(zhí)行者，思考完就做，做完馬上思考下一步，節(jié)奏更快。

第三種，是最簡單的Act方法。

它把推理和評估環(huán)節(jié)都去掉了，接到總指揮的計劃后，直接開始調(diào)用函數(shù)執(zhí)行操作。研究人員對它做了點(diǎn)改造，給了它一個“終止”函數(shù)，讓它在需要的時候也能停下來。同時，在它的提示里，也包含了來自總指揮的計劃和預(yù)期結(jié)果，讓它不至于完全“無腦”執(zhí)行。

這三種方法，代表了從深思熟慮到簡單直接的三種不同層次的“智能”。

每種思考模式，應(yīng)該配什么大腦呢？

研究人員設(shè)計了一場復(fù)雜的實(shí)驗(yàn)。

他們搭建了一個模擬環(huán)境，可以精確地追蹤每架無人機(jī)的三維坐標(biāo)，朝向，相機(jī)角度等所有狀態(tài)。對無人機(jī)的每個動作都定義了精確的狀態(tài)更新規(guī)則，比如“起飛”指令會將無人機(jī)的高度設(shè)置為1米，“旋轉(zhuǎn)”指令會更新它的航向角等等。這個框架既可以用于模擬，也可以無縫對接到真實(shí)的無人機(jī)上。

實(shí)驗(yàn)中，用了兩架無人機(jī)，并分別給它們裝上四種（GPT-4.1，GPT-4.1 Nano，o4-mini 和 o3）大腦。

讓這四種“大腦”分別與三種“思考模式”（ReActEval，ReAct，Act）進(jìn)行組合，形成12支參賽隊伍。

然后，給它們設(shè)置了三個不同難度的關(guān)卡。

簡單任務(wù)：一到兩個步驟就能完成的指令，比如讓兩架無人機(jī)都起飛，或者降落。
中等任務(wù)：需要執(zhí)行一系列明確的多步驟指令，考驗(yàn)的是它們執(zhí)行協(xié)調(diào)長序列命令的能力。
困難任務(wù)：這是真正的挑戰(zhàn)，模擬復(fù)雜的現(xiàn)實(shí)檢測場景。比如，下達(dá)一個模糊的指令：“用兩架無人機(jī)，拍下這個房間每個角落的照片，每架負(fù)責(zé)兩個角落?！?這就需要無人機(jī)自己去規(guī)劃路徑，分析場景，甚至調(diào)用視覺工具來理解自己看到了什么。

用兩個指標(biāo)來評判它們的表現(xiàn)：任務(wù)完成率和執(zhí)行時間。

對于簡單和中等任務(wù)，由于動作序列是確定的，直接計算它們正確執(zhí)行的函數(shù)調(diào)用次數(shù)。比如“讓兩架無人機(jī)都起飛”這個任務(wù)，需要調(diào)用兩次起飛函數(shù)，全部正確執(zhí)行就得2分。

對于困難任務(wù)，由于完成的方式可能有很多種，不再計較具體的函數(shù)調(diào)用，而是看它們是否完成了更高級別的子任務(wù)。比如前面那個拍角落的任務(wù)，總共4個角落，每成功拍到一個角落就得1分，總分4分。

評分過程非常嚴(yán)格，必須是按正確的順序，在正確的上下文中執(zhí)行了正確的操作才得分。一旦出錯，后面的即使做對了也不再計分。

好了，一切準(zhǔn)備就緒。比賽開始。

實(shí)驗(yàn)結(jié)果，特別是任務(wù)完成率，出現(xiàn)了一個讓所有人都始料未及的現(xiàn)象：隨著模型能力的增強(qiáng)，不同方法之間的性能發(fā)生了徹底的反轉(zhuǎn)。

不同模型和難度級別的性能比較。Overall列顯示所有復(fù)雜度級別的準(zhǔn)確率。

當(dāng)ReActEval搭配最弱的“敏捷大腦”（GPT-4.1 Nano）時，在中等難度任務(wù)中，它的表現(xiàn)是所有組合里最差的，36個操作只做對了13個。

但是，當(dāng)給它換上更強(qiáng)大的“大腦”（GPT-4.1，o4-mini，o3）后，它立刻脫胎換骨，成為了表現(xiàn)最好的方法，穩(wěn)定地做對了34個操作，在困難任務(wù)中也取得了最高分。

反觀最簡單的Act。它的表現(xiàn)恰恰相反。它在搭配最弱的“大腦”時，表現(xiàn)居然是最好的（21/36）?？呻S著“大腦”越來越聰明，它的性能提升卻非常有限，最終被ReActEval遠(yuǎn)遠(yuǎn)甩在身后。

這個驚人的反轉(zhuǎn)告訴我們：一個方法的好壞，不是絕對的，它從根本上取決于執(zhí)行這個方法的大腦夠不夠聰明。

ReActEval方法里額外的“推理”和“評估”步驟，對于一個能力不足的模型來說，非但不是幫助，反而是一種負(fù)擔(dān)。它就像一個學(xué)渣，你讓他多思考，多復(fù)盤，他反而會因?yàn)樽约涸愀獾倪壿嬆芰Γ阱e誤的道路上越走越遠(yuǎn)，錯上加錯。

研究人員從實(shí)驗(yàn)記錄里找到了一個絕佳的例子。有一個任務(wù)是讓無人機(jī)向前移動4米。

當(dāng)使用GPT-4.1 Nano這個“敏捷大腦”時，ReActEval方法在第一步“推理”時正確地理解了任務(wù)，但在將其轉(zhuǎn)換為坐標(biāo)時犯了致命錯誤，把“向前4米”，錯誤地理解成了“x軸移動4米”。這個初始錯誤，在后續(xù)的“評估”環(huán)節(jié)中非但沒有被糾正，反而被不斷地放大，導(dǎo)致了一系列錯誤的糾正操作，最終任務(wù)失敗。

而換上o4-mini這個更強(qiáng)的“大腦”后，它在整個思考鏈條中都準(zhǔn)確地維持了正確的坐標(biāo)計算。這清晰地表明，只有當(dāng)模型的能力達(dá)到一定閾值時，這種結(jié)構(gòu)化的、復(fù)雜的思考方法才能真正發(fā)揮出它的威力。

另一個有趣的發(fā)現(xiàn)是，任務(wù)的復(fù)雜度，決定了方法的選擇是否重要。

在簡單任務(wù)中，所有12支隊伍的表現(xiàn)都近乎完美。這說明，對于“起飛”，“降落”這種簡單任務(wù)，你用什么方法，用什么模型，根本不重要，大家都能搞定。

但一旦任務(wù)變得復(fù)雜，差距就立刻顯現(xiàn)出來了。在中等和困難任務(wù)中，不同方法和模型的組合，表現(xiàn)出了天壤之別。這恰恰說明了像ReActEval這樣的結(jié)構(gòu)化推理方法的價值所在。它提供了一個系統(tǒng)性的框架來管理多步驟的復(fù)雜決策，而這種能力，在任務(wù)難度增加時，變得至關(guān)重要。

對失敗的案例進(jìn)行分析：

結(jié)果發(fā)現(xiàn)，ReActEval方法顯著減少了“不正確的函數(shù)調(diào)用”和“不必要的重復(fù)函數(shù)調(diào)用”這兩類低級錯誤。這要?dú)w功于它那個關(guān)鍵的“評估”步驟，系統(tǒng)性的復(fù)盤確實(shí)能有效避免犯錯，或者在犯錯后及時糾正。

但是，有一種失敗模式，在所有方法中都普遍存在，那就是“提前停止”。模型經(jīng)常在任務(wù)還沒有完全完成時，就自己認(rèn)為已經(jīng)完成了，然后終止了任務(wù)。這似乎暗示，這是底層大語言模型自身固有的一個缺陷。

你可能會覺得，ReActEval又是推理又是評估，肯定比Act要慢得多。

但結(jié)果再次出乎意料。方法之間的執(zhí)行時間差異微乎其微。真正決定執(zhí)行時間的，是“大腦”的類型和大小，而不是“思考模式”的復(fù)雜性。

更強(qiáng)大，更聰明的模型，需要更長的“思考”時間。這個發(fā)現(xiàn)在實(shí)際應(yīng)用中至關(guān)重要，它告訴我們，在對延遲敏感的應(yīng)用中，選擇一個合適大小的模型，遠(yuǎn)比糾結(jié)于用哪種推理方法更重要。

未來的智能蜂群系統(tǒng)應(yīng)該怎么設(shè)計？

研究結(jié)果表明，不是越復(fù)雜的推理方法就一定越好。

最佳的策略，應(yīng)該是將推理方法與任務(wù)的復(fù)雜度，以及可用的計算資源進(jìn)行匹配，而不是盲目地追求最復(fù)雜的框架。

當(dāng)然，研究人員承認(rèn)，這個研究的一切都還停留在模擬環(huán)境中。

他們進(jìn)行了初步的真實(shí)世界測試，發(fā)現(xiàn)物理世界的復(fù)雜性，比如傳感器噪聲，通信延遲，會顯著增加任務(wù)的難度。模擬和現(xiàn)實(shí)之間存在巨大的鴻溝。模型很難將高級的目標(biāo)，轉(zhuǎn)換成物理導(dǎo)航所需要的精確的，低級的控制指令序列。

這為未來的研究指明了幾個有趣的方向。

一個方向是開發(fā)混合系統(tǒng)。讓大語言模型（LLM）去當(dāng)“總指揮”，負(fù)責(zé)高級的戰(zhàn)略規(guī)劃，而把底層的飛行控制，交給傳統(tǒng)的，更可靠的控制系統(tǒng)來執(zhí)行。AI負(fù)責(zé)思考“去哪里”，傳統(tǒng)控制系統(tǒng)負(fù)責(zé)解決“怎么去”。

另一個方向是開發(fā)混合能力的智能體。讓一個強(qiáng)大的模型，比如o3，來負(fù)責(zé)最需要智慧的“推理”和“評估”步驟，而讓一個更小，更快的模型，來執(zhí)行相對簡單的“行動”步驟。

更進(jìn)一步，可以研究自適應(yīng)智能體系統(tǒng)。這個系統(tǒng)可以先評估一下任務(wù)的復(fù)雜度，然后動態(tài)地選擇最合適的思考模式。遇到簡單任務(wù)，就用Act模式，高效完成。遇到復(fù)雜任務(wù)，再切換到“三思而后行”的ReActEval模式，確保成功率。

這些方向共同指向了一個自適應(yīng)，混合系統(tǒng)的未來。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)