沒有模型也能協(xié)作?自注意力打開多智能體協(xié)作系統(tǒng)的新大門
多智能體系統(tǒng)是人工智能與機(jī)器人應(yīng)用研究中的核心內(nèi)容。無論是無人機(jī)編隊(duì)執(zhí)行復(fù)雜任務(wù),還是自動(dòng)駕駛車輛在城市道路上協(xié)同避障,抑或是分布式機(jī)器人團(tuán)隊(duì)在災(zāi)區(qū)開展搜救,多智能體之間的協(xié)作與博弈都直接決定了系統(tǒng)的效率與安全性,而且,這些最前沿的技術(shù)與相應(yīng)的國防應(yīng)用息息相關(guān)。
這一領(lǐng)域的難點(diǎn)遠(yuǎn)不止于“讓多個(gè)智能體同時(shí)行動(dòng)”?,F(xiàn)實(shí)世界的動(dòng)力學(xué)往往是非線性的,智能體之間的交互關(guān)系復(fù)雜且難以建模。通信拓?fù)洳⒎且怀刹蛔?,鄰居關(guān)系可能隨時(shí)間動(dòng)態(tài)變化,這使得傳統(tǒng)依賴固定網(wǎng)絡(luò)結(jié)構(gòu)的方法難以適用。
更具挑戰(zhàn)性的是,在許多實(shí)際場景中,系統(tǒng)的動(dòng)力學(xué)模型本身并不完全已知,研究者只能在“model-free”的條件下依賴數(shù)據(jù)與交互來學(xué)習(xí)策略。
因此,核心問題被提煉為:如何在分布式、非線性、且無模型的環(huán)境中,通過學(xué)習(xí)獲得接近最優(yōu)的策略? 這不僅是一個(gè)理論難題,更是機(jī)器人學(xué)、控制學(xué)與人工智能交叉領(lǐng)域的前沿挑戰(zhàn)。
《Policy Gradient with Self-Attention for Model-Free Distributed Nonlinear Multi-Agent Games》作者團(tuán)隊(duì)正是瞄準(zhǔn)了這一痛點(diǎn)。他們來自劍橋大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系、加州大學(xué)圣地亞哥分校電氣與計(jì)算機(jī)工程系,以及西班牙薩拉戈薩大學(xué)的 RoPeRt 研究組。團(tuán)隊(duì)成員橫跨計(jì)算機(jī)科學(xué)、控制理論與機(jī)器人學(xué),既有深厚的理論功底,也有豐富的實(shí)驗(yàn)經(jīng)驗(yàn)。
圖片
圖1:多隊(duì)外線防守游戲。每個(gè)團(tuán)隊(duì)都有不同的目標(biāo)、特工數(shù)量和限制(例如,偵察員團(tuán)隊(duì)檢查該地區(qū)以發(fā)現(xiàn)攻擊者,而欺騙者團(tuán)隊(duì)則旨在混淆偵察員),導(dǎo)致全球合作和競爭行為(例如,巡邏員和防御者相互幫助,防止攻擊者越過邊界)。代理只能訪問本地信息,無論是來自隊(duì)友(團(tuán)隊(duì)內(nèi)部交互)還是來自其他團(tuán)隊(duì)的代理(團(tuán)隊(duì)間交互)。
一般來說,該問題是非線性和動(dòng)態(tài)的,具有時(shí)變的相互作用和未知的轉(zhuǎn)換和成本模型。
值得注意的是,該研究得到了美國海軍研究辦公室(ONR)、美國國家科學(xué)基金會(huì)(NSF)、西班牙國家科研項(xiàng)目以及歐盟復(fù)蘇基金等多方資助。這種跨國、跨學(xué)科的合作與資金支持,凸顯了該研究在戰(zhàn)略層面的重要性,它不僅是學(xué)術(shù)探索,更與未來的分布式自主系統(tǒng)、國防應(yīng)用和智能機(jī)器人產(chǎn)業(yè)息息相關(guān)。
1.研究動(dòng)機(jī)與相關(guān)工作
在進(jìn)入具體方法之前,我們需要回顧一下傳統(tǒng)路徑。
最經(jīng)典的框架是線性二次型博弈(LQ games)。在這一類問題中,系統(tǒng)動(dòng)力學(xué)是線性的,代價(jià)函數(shù)是二次型的,因此可以通過解析解直接得到最優(yōu)策略。然而這種方法的適用范圍極為有限,一旦進(jìn)入非線性或復(fù)雜交互場景,便難以為繼。
另一條思路是集中式強(qiáng)化學(xué)習(xí)。通過集中式訓(xùn)練,系統(tǒng)可以在理論上學(xué)習(xí)到復(fù)雜的策略。但問題在于,當(dāng)智能體數(shù)量增加時(shí),狀態(tài)與動(dòng)作空間呈指數(shù)級膨脹,集中式方法幾乎無法擴(kuò)展到大規(guī)模分布式系統(tǒng)。
近年來,圖神經(jīng)網(wǎng)絡(luò)(GNN)成為熱門選擇。它們能夠利用圖結(jié)構(gòu)來建模智能體之間的關(guān)系,適合處理多智能體交互問題。然而,GNN 的一個(gè)致命弱點(diǎn)在于對通信拓?fù)涞囊蕾囘^強(qiáng):一旦拓?fù)浒l(fā)生變化,模型的泛化能力就會(huì)顯著下降。
在這樣的背景下,研究團(tuán)隊(duì)提出了一種全新的思路:將策略梯度(policy gradient)與自注意力機(jī)制(self-attention)結(jié)合,構(gòu)建可擴(kuò)展的分布式策略。
自注意力機(jī)制的引入是關(guān)鍵。它天然具備處理變長輸入與動(dòng)態(tài)關(guān)系的能力,可以讓智能體在不同的通信拓?fù)湎乱廊槐3址€(wěn)定的策略表達(dá)。同時(shí),策略梯度方法保證了在無模型條件下的可學(xué)習(xí)性。兩者結(jié)合,形成了一種既能適應(yīng)非線性博弈,又能在分布式環(huán)境中高效運(yùn)行的策略框架。
換句話說,這項(xiàng)研究的創(chuàng)新點(diǎn)在于:它不是簡單地把深度學(xué)習(xí)套用到多智能體問題上,而是通過自注意力機(jī)制重構(gòu)了分布式策略的表達(dá)方式,從而突破了傳統(tǒng)方法的局限。
2.方法框架:策略梯度 + 自注意力
技術(shù)團(tuán)隊(duì)提出的核心突破點(diǎn)在于如何讓多智能體在復(fù)雜、非線性、且通信拓?fù)洳粩嘧兓沫h(huán)境中,依然能夠?qū)W習(xí)到穩(wěn)定而高效的策略。他們的答案是:將策略梯度方法與自注意力機(jī)制結(jié)合,構(gòu)建出一種全新的分布式策略框架。
策略參數(shù)化:非線性反饋與自注意力的結(jié)合
傳統(tǒng)的分布式控制往往依賴線性反饋增益,但在非線性博弈中,這種形式顯然過于僵化。論文提出了一種更靈活的方式:將智能體的控制策略直接建模為非線性反饋增益。這意味著每個(gè)智能體的動(dòng)作不僅取決于自身狀態(tài),還會(huì)動(dòng)態(tài)地響應(yīng)鄰居的狀態(tài)變化。
關(guān)鍵在于,自注意力層的引入徹底改變了策略的表達(dá)能力。自注意力機(jī)制能夠根據(jù)鄰居的重要性自動(dòng)分配權(quán)重,從而在通信拓?fù)浒l(fā)生變化時(shí)依然保持魯棒性。
換句話說,無論鄰居數(shù)量多少、連接關(guān)系如何變化,智能體都能通過注意力機(jī)制“挑選”出最相關(guān)的信息來指導(dǎo)決策。這種設(shè)計(jì)讓策略具備了天然的可擴(kuò)展性和泛化能力。
訓(xùn)練機(jī)制:MAPPO 的穩(wěn)定性保障
在訓(xùn)練過程中,作者選擇了多智能體 PPO(MAPPO)作為優(yōu)化框架。PPO 本身以穩(wěn)定性和收斂性著稱,適合在高維策略空間中進(jìn)行更新。通過 MAPPO 的擴(kuò)展,多個(gè)智能體可以在共享的環(huán)境中同時(shí)學(xué)習(xí),而不會(huì)因?yàn)椴呗愿逻^快而導(dǎo)致訓(xùn)練崩潰。
訓(xùn)練時(shí),策略以隨機(jī)分布的形式進(jìn)行采樣,以保證探索的充分性;而在部署階段,策略則切換為確定性形式,以確保執(zhí)行的穩(wěn)定性和可預(yù)測性。這種“訓(xùn)練時(shí)探索、部署時(shí)收斂”的機(jī)制,兼顧了學(xué)習(xí)效率與實(shí)際應(yīng)用的可靠性。
算法流程:從初始化到最優(yōu)策略
技術(shù)團(tuán)隊(duì)給出了一個(gè)清晰的算法流程(算法1),可以概括為以下幾個(gè)關(guān)鍵步驟:
- 初始化參數(shù):為每個(gè)智能體的策略網(wǎng)絡(luò)設(shè)定初始權(quán)重,包括自注意力層的參數(shù)。
- 執(zhí)行博弈并收集軌跡:在環(huán)境中運(yùn)行若干回合,記錄狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)等信息。
- 計(jì)算代價(jià)與梯度:基于收集到的軌跡,計(jì)算每個(gè)智能體的累積代價(jià),并通過策略梯度方法求解梯度方向。
- 更新策略參數(shù):利用 MAPPO 的優(yōu)化規(guī)則,對策略網(wǎng)絡(luò)進(jìn)行迭代更新。
- 輸出分布式最優(yōu)策略:經(jīng)過多輪迭代后,得到能夠適應(yīng)非線性博弈與動(dòng)態(tài)拓?fù)涞姆植际讲呗浴?/li>
這一流程的精妙之處在于,它既保持了分布式的特性(每個(gè)智能體依賴局部信息與鄰居交互),又通過自注意力機(jī)制實(shí)現(xiàn)了全局適應(yīng)性。最終的結(jié)果是:即便在復(fù)雜的多智能體博弈中,系統(tǒng)也能逐步收斂到接近最優(yōu)的解。
3.實(shí)驗(yàn)設(shè)計(jì)與結(jié)果
任何一個(gè)新方法的價(jià)值,最終都要經(jīng)受實(shí)驗(yàn)的檢驗(yàn)。技術(shù)團(tuán)隊(duì)設(shè)計(jì)了四類層層遞進(jìn)的實(shí)驗(yàn),從最經(jīng)典的線性控制問題,到復(fù)雜的非線性博弈,再到仿真環(huán)境中的追逃對抗,最后落地到真實(shí)機(jī)器人平臺(tái)。這樣的實(shí)驗(yàn)路徑既體現(xiàn)了方法的理論嚴(yán)謹(jǐn)性,也展示了它的工程可行性。
線性二次型調(diào)節(jié)(LQR)博弈
圖片
圖2:我們的方法與集中式LQR基線、子空間約束下的無模型零階最優(yōu)LQR[23]以及具有已知圖約束的方法的比較。
作為控制理論的基石,LQR 問題是檢驗(yàn)新方法的第一道關(guān)卡。研究者提出的策略與集中式最優(yōu)解以及已有的分布式方法進(jìn)行對比。結(jié)果顯示,即便在未知通信拓?fù)涞臈l件下,本文方法依然能夠收斂到接近最優(yōu)的解。這一結(jié)果不僅驗(yàn)證了方法的正確性,也說明自注意力機(jī)制確實(shí)能夠幫助智能體在動(dòng)態(tài)拓?fù)湎卤3址€(wěn)定的策略表達(dá)。
非線性導(dǎo)航博弈
接下來,研究者將目光轉(zhuǎn)向更具挑戰(zhàn)性的非線性導(dǎo)航任務(wù)。在這一場景中,智能體需要在復(fù)雜的動(dòng)力學(xué)約束下完成目標(biāo)導(dǎo)向的移動(dòng)。對比對象是 DP-iLQR,一種在已知模型條件下的分布式最優(yōu)方法。
圖片
圖3:我們的方法與分布式勢迭代線性二次型調(diào)節(jié)器(DP-iLQR)的比較。
令人驚訝的是,他們提出的無模型方法在性能上幾乎與 DP-iLQR 持平。換句話說,即便完全不知道系統(tǒng)的動(dòng)力學(xué)方程,智能體依然能夠通過學(xué)習(xí)獲得接近最優(yōu)的策略。這一結(jié)果凸顯了方法的“model-free”優(yōu)勢,極大拓寬了它的應(yīng)用邊界。
圖片
圖4:迭代10(a)時(shí)DP iLQR與迭代100(b)時(shí)我們的方法之間比較的定性結(jié)果。智能體顯示為灰色圓圈,目標(biāo)顯示為紅色十字,智能體軌跡顯示為彩色曲線。
追逃博弈(BenchMARL 環(huán)境)
如果說前兩個(gè)實(shí)驗(yàn)偏向驗(yàn)證理論正確性,那么追逃博弈則更接近現(xiàn)實(shí)中的對抗性任務(wù)。研究者在 BenchMARL 環(huán)境中,將本文方法與基于 MLP 和 GNN 的策略進(jìn)行對比。
結(jié)果一目了然:在捕獲率、最小距離、累計(jì)獎(jiǎng)勵(lì)等關(guān)鍵指標(biāo)上,研究方法全面領(lǐng)先。同時(shí),它所需的參數(shù)量更小,意味著在計(jì)算和存儲(chǔ)資源有限的情況下也能高效運(yùn)行。這一結(jié)果不僅證明了方法的性能優(yōu)勢,也展示了它在大規(guī)模多智能體系統(tǒng)中的可擴(kuò)展性。
真實(shí)機(jī)器人實(shí)驗(yàn)
最后,研究者將方法遷移到真實(shí)的多機(jī)器人平臺(tái),進(jìn)行追逃任務(wù)的實(shí)地驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,智能體在物理世界中依然能夠展現(xiàn)出與仿真環(huán)境中相似的協(xié)作與對抗能力。
圖片
圖5:平均累積獎(jiǎng)勵(lì)與時(shí)間步長(追捕者為紅色,躲避者為綠色),超過100次。
這一環(huán)節(jié)至關(guān)重要,因?yàn)樗C明了方法并非“紙上談兵”,而是具備實(shí)際落地的潛力。對于未來的無人機(jī)群協(xié)作、自動(dòng)駕駛車隊(duì)管理,甚至是分布式機(jī)器人探索任務(wù),這一成果都具有直接的啟發(fā)意義。
整體來看,這四類實(shí)驗(yàn)形成了一個(gè)完整的驗(yàn)證閉環(huán):從理論可解的線性問題,到復(fù)雜的非線性場景,再到仿真對抗與真實(shí)機(jī)器人應(yīng)用。每一步都在不斷加深對方法有效性的信心。最終,本文的方法不僅在學(xué)術(shù)上站得住腳,更在工程實(shí)踐中展現(xiàn)了強(qiáng)大的生命力。
4.理論貢獻(xiàn):從結(jié)構(gòu)到突破
這項(xiàng)研究最引人注目的地方,不僅在于它提出了一種新穎的算法框架,更在于它在理論層面上為分布式多智能體博弈提供了堅(jiān)實(shí)的支撐。研究者們并沒有停留在“實(shí)驗(yàn)有效”的層面,而是通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推導(dǎo)和收斂性分析,展示了方法背后的邏輯必然性。
圖片
圖6:模擬Robotarium環(huán)境,模擬真實(shí)機(jī)器人的物理交互和限制。(上圖)當(dāng)兩支隊(duì)伍都靠近對方時(shí),躲避者(綠色)試圖逃離追趕者(紅色),但追趕者將他們逼到了角落。由于安全過濾器的存在,游戲結(jié)束,因?yàn)闆]有一個(gè)機(jī)器人可以在狹小的空間內(nèi)穿過其他機(jī)器人。(下)當(dāng)團(tuán)隊(duì)在遠(yuǎn)離彼此的地方初始化時(shí),躲避者會(huì)去最遠(yuǎn)的角落,以盡量減少被抓住的機(jī)會(huì)。當(dāng)追捕者靠近時(shí),躲避者偷偷溜到另一個(gè)角落,由于安全和空間限制,他們最終被困在那里。
他們提出了一種全新的分布式策略結(jié)構(gòu)。傳統(tǒng)的分布式控制往往依賴線性反饋增益,這在簡單系統(tǒng)中尚可,但在非線性博弈中顯得力不從心。作者將這一結(jié)構(gòu)擴(kuò)展為非線性反饋增益,并在其中引入了自注意力機(jī)制。自注意力的作用在于,它能夠動(dòng)態(tài)地為不同鄰居分配權(quán)重,使得智能體在面對拓?fù)渥兓瘯r(shí)依然能夠保持穩(wěn)定的策略表達(dá)。這種結(jié)構(gòu)不僅提升了策略的靈活性,也為分布式系統(tǒng)提供了前所未有的魯棒性。
在理論分析上,作者在有限時(shí)域的線性系統(tǒng)場景下,證明了所提出的策略梯度方法能夠收斂,并且能夠逼近最優(yōu)解。這一結(jié)果極具價(jià)值,因?yàn)樗鼮榉椒ǖ挠行蕴峁┝藬?shù)學(xué)保證。換句話說,研究者不僅展示了“它能用”,還證明了“它必然能用”。這種從實(shí)驗(yàn)到理論的雙重驗(yàn)證,使得該方法在學(xué)術(shù)與工程應(yīng)用中都更具說服力。
更為關(guān)鍵的突破在于,這一框架不依賴于已知的動(dòng)力學(xué)模型,也無需預(yù)測未來的通信拓?fù)?。在現(xiàn)實(shí)世界中,系統(tǒng)模型往往難以完全掌握,通信關(guān)系也可能隨時(shí)變化。傳統(tǒng)方法在這種情況下往往無能為力,而本文的方法則通過自注意力機(jī)制和策略梯度的結(jié)合,天然地規(guī)避了這些限制。這意味著它能夠直接應(yīng)用于復(fù)雜的真實(shí)場景,例如無人機(jī)群在動(dòng)態(tài)環(huán)境中的協(xié)作,或是多機(jī)器人在未知地形中的分布式探索。
5.從學(xué)術(shù)突破到現(xiàn)實(shí)落地
本研究的價(jià)值,不僅在于提出了一種新穎的算法框架,更在于它為多智能體系統(tǒng)的未來發(fā)展打開了一扇新的大門。
在學(xué)術(shù)層面,它首次將自注意力機(jī)制引入到分布式多智能體博弈的策略參數(shù)化中。這一設(shè)計(jì)突破了傳統(tǒng)依賴固定拓?fù)浠蚓€性反饋的局限,讓策略能夠在動(dòng)態(tài)環(huán)境中自適應(yīng)地調(diào)整信息權(quán)重。
換句話說,研究者們不再把智能體之間的交互看作僵硬的網(wǎng)絡(luò)連接,而是通過注意力機(jī)制賦予它們“選擇性”,讓每個(gè)智能體能夠在復(fù)雜博弈中自主識(shí)別最重要的鄰居信息。這不僅是方法上的創(chuàng)新,更是對分布式智能系統(tǒng)研究范式的一次重塑。
圖片
圖7:真實(shí)的Robotarium部署。最初,躲避者(綠色)可以欺騙追趕者(紅色)并逃到競技場的左上角。然而追捕者做出了反應(yīng),試圖誘捕逃跑者。
躲避者能夠通過最頂部的邊界偷偷溜出去,逃到被另一支隊(duì)伍追趕的右上角。追捕者最終誘捕了逃跑者,完成了游戲。
在工程應(yīng)用上,這一方法的價(jià)值同樣顯而易見。它無需已知的動(dòng)力學(xué)模型,也不依賴集中式計(jì)算,這意味著它能夠直接應(yīng)用于真實(shí)的多機(jī)器人系統(tǒng)。對于無人機(jī)群、自動(dòng)駕駛車隊(duì)、分布式傳感網(wǎng)絡(luò)等場景,這種方法提供了一種輕量而高效的解決方案。尤其是在通信受限、環(huán)境不確定的條件下,它的魯棒性和可擴(kuò)展性顯得尤為重要。
這項(xiàng)研究的潛力遠(yuǎn)未被完全釋放。首先,它可以擴(kuò)展到更大規(guī)模的多智能體系統(tǒng)中,探索在數(shù)百甚至上千個(gè)智能體協(xié)作時(shí)的表現(xiàn)。其次,方法本身可以與安全約束和魯棒控制結(jié)合,確保在面對惡意攻擊或極端環(huán)境時(shí)依然能夠保持穩(wěn)定運(yùn)行。最后,它的應(yīng)用場景幾乎無限廣闊:從無人機(jī)群的協(xié)同巡航,到自動(dòng)駕駛車隊(duì)的交通優(yōu)化,再到能源網(wǎng)絡(luò)的分布式調(diào)度,這一框架都可能成為關(guān)鍵的技術(shù)支撐。
可以說,技術(shù)團(tuán)隊(duì)不僅提出了一種算法,更描繪了一種未來的智能系統(tǒng)圖景。在這個(gè)圖景中,智能體不再依賴于完美的模型或固定的通信結(jié)構(gòu),而是通過學(xué)習(xí)與自適應(yīng)機(jī)制,在不確定性中找到協(xié)作與博弈的平衡點(diǎn)。這正是人工智能與控制理論融合的魅力所在,也是未來分布式智能系統(tǒng)走向現(xiàn)實(shí)的必由之路。(END)
參考資料:https://arxiv.org/pdf/2509.18371

































