偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!

發(fā)布于 2025-6-13 06:07
瀏覽
0收藏

獨木不成林,隨著基于大型語言模型(LLM)的多智能體系統(tǒng)(MAS)的崛起,我們見證了智能體團隊在復(fù)雜任務(wù)中展現(xiàn)的驚人潛力,儼然形成了數(shù)字世界的"智慧軍團"。然而,當這些"AI戰(zhàn)隊"深入醫(yī)療診斷、金融決策等關(guān)鍵領(lǐng)域時,你是否為這些安全隱患夜不能寐:

  • 攻擊者"策反"智能體,讓系統(tǒng)輸出錯誤內(nèi)容卻渾然不覺?
  • 攻擊者注入的病毒像"數(shù)字病毒"般在智能體間傳播,導(dǎo)致集體表現(xiàn)出"中毒"現(xiàn)象?
  • 傳統(tǒng)單agent防御策略在應(yīng)用于多智能體系統(tǒng)時,效率低下且資源消耗顯著?

別擔心!多智能體界的"拓撲盾牌"已然出鞘!由中國科學技術(shù)大學聯(lián)合NUS等機構(gòu)等提出G-Safeguard ——一個基于拓撲智能的安全防護框架,為多智能體系統(tǒng)打造"數(shù)字免疫網(wǎng)絡(luò)"。論文已經(jīng)被ACL 2025錄用為Main track論文。

論文

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

論文標題:G-Safeguard: A Topology-Guided Security Lens and Treatment on LLM-based Multi-agent Systems

論文鏈接:https://arxiv.org/pdf/2502.11127

代碼鏈接:https://github.com/wslong20/G-safeguard

背景介紹

隨著大型語言模型的快速發(fā)展,基于LLM的多智能體系統(tǒng)(在協(xié)作問題解決、自主決策和環(huán)境感知等復(fù)雜任務(wù)中展現(xiàn)出卓越能力。然而,隨著此類系統(tǒng)在關(guān)鍵領(lǐng)域的廣泛應(yīng)用,其暴露的安全隱患日益凸顯。攻擊者可通過提示注入(直接或間接操縱系統(tǒng)指令)、內(nèi)存中毒(污染智能體的歷史記錄或外部知識庫)和工具攻擊(利用外部接口傳播惡意指令)等手段,使單個智能體產(chǎn)生偏差或錯誤輸出,并通過多智能體間的交互迅速擴散,導(dǎo)致系統(tǒng)整體性能下降甚至引發(fā)集體惡意行為。現(xiàn)有防御方法多局限于單智能體場景,忽視了MAS的拓撲依賴性(如信息傳播路徑)和跨規(guī)模通用性挑戰(zhàn),難以應(yīng)對動態(tài)交互網(wǎng)絡(luò)中攻擊的級聯(lián)效應(yīng)。

近年來,針對多智能體系統(tǒng)的毒性傳播機制與單智能體防御策略已取得顯著進展,但多智能體協(xié)同防御領(lǐng)域仍存在關(guān)鍵挑戰(zhàn):(1)基于LLM的防御策略因其高昂的計算成本與實時性不足,難以適配多智能體系統(tǒng)的動態(tài)需求;(2)現(xiàn)有防御框架難以應(yīng)對MAS拓撲結(jié)構(gòu)的動態(tài)可變性,缺乏跨架構(gòu)的通用防御范式。

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

為了應(yīng)對這些挑戰(zhàn),我們推出了G-Safeguard——一款基于拓撲引導(dǎo)的安全防護框架,旨在為多智能體系統(tǒng)提供強大的安全保障。

MasRouter

G-Safeguard是一款基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的安全防護框架,專為多智能體系統(tǒng)設(shè)計。它通過構(gòu)建多智能體話語圖,實時監(jiān)控智能體之間的交互,識別異常行為,并通過拓撲干預(yù)阻斷惡意信息的傳播。方法的整體流程如下圖所示:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

多智能體話語圖

基于多智能體系統(tǒng)安全防御需求,G-Safeguard通過動態(tài)構(gòu)建多智能體話語圖捕捉攻擊傳播特征。由于攻擊類型與拓撲結(jié)構(gòu)的動態(tài)耦合關(guān)系難以顯式定義,G-Safeguard采用概率圖模型隱式建模語義關(guān)聯(lián):通過文本嵌入模型(如MiniLM)提取節(jié)點歷史話語的語義表征,并通過排列不變?nèi)诤虾瘮?shù)將跨輪次交互序列編碼為邊特征:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

從而構(gòu)建動態(tài)演化的話語圖,為后續(xù)風險檢測提供拓撲-語義耦合的圖結(jié)構(gòu)數(shù)據(jù)。我們用像MiniLM這樣的文本嵌入模型來實例化。

基于圖的攻擊檢測

將多智能體系統(tǒng)(MAS)中的攻擊檢測形式化為多智能體話語圖上的節(jié)點分類問題。通過構(gòu)建動態(tài)的交互圖(節(jié)點表示智能體,邊表示通信關(guān)系),利用圖神經(jīng)網(wǎng)絡(luò)(GNN)捕捉拓撲結(jié)構(gòu)與語義依賴,識別受攻擊的智能體。具體流程如下:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

通過以下公式計算是否攻擊節(jié)點的概率:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

用于修復(fù)的邊剪枝

G-Safeguard通過拓撲干預(yù)來緩解攻擊的負面影響,在每一輪對話結(jié)束后,通過圖神經(jīng)網(wǎng)絡(luò)識別出高風險節(jié)點。一旦識別出高風險節(jié)點,G-Safeguard會剪除這些節(jié)點的出邊,阻止惡意信息的傳播。具體來說,下一輪的交互拓撲會被重新定義為當前拓撲減去高風險節(jié)點的所有出邊。公式如下:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

除了拓撲干預(yù),修復(fù)策略可以根據(jù)用戶需求進行定制。例如,可以使用過濾機制(如AWS Bedrock)來清理被攻擊代理生成的內(nèi)容,或者向用戶發(fā)出預(yù)警,主動減輕潛在危害。

通過這種剪枝操作,G-Safeguard有效地抑制了誤導(dǎo)或?qū)剐孕畔⒌膫鞑?,確保了多智能體系統(tǒng)的魯棒性。

優(yōu)化目標

我們通過優(yōu)化交叉熵損失函數(shù)來提高G-Safeguard的攻擊檢測能力,該函數(shù)被公式化為攻擊標簽的期望負對數(shù)似然:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

實驗分析

G-Safeguard 我們在3種對智能體不同的攻擊方式(提示注入,工具攻擊,記憶攻擊)下,在各種拓撲結(jié)構(gòu)(chain, tree, star, random)以及基于各種不同LLM(GPT-4o, GPT-4o-mini, LLaMA-3.1-70b, Claude-3.5-haiku, Deepseekv3)的多智能體系統(tǒng)上進行了實驗驗證,驗證結(jié)果如下:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

我們可以發(fā)現(xiàn),G-Safeguard 具有非常強大的防御能力,能夠有效防止各種不同類型的攻擊在多智能體系統(tǒng)中進一步傳播,從而恢復(fù)多智能體系統(tǒng)處理任務(wù)的能力。此外,G-Safeguard 可以遷移到由不同大語言模型(LLM)構(gòu)建的多智能體系統(tǒng)以及不同拓撲結(jié)構(gòu)的多智能體系統(tǒng)上,展現(xiàn)出極強的泛化性。

除此之外,我們將MAS的規(guī)模變大,將其拓展到具有更多智能體(最高80個)的MAS系統(tǒng),實驗結(jié)果如下:

ACL'25 | 多智能體叛變進行中?首個多智能體安全守衛(wèi)G-Safeguard亮相!-AI.x社區(qū)

從圖中可以看出,G-safeguard可以在更大的多智能體系統(tǒng)上,依舊有優(yōu)越的效果,這得益于圖的歸納特性,從而讓我們以低成本訓(xùn)練的G-safeguard可以直接遷移到大型的多智能體系統(tǒng)上!

結(jié)語

我們引入了 G-Safeguard 框架,該框架旨在增強模型的歸納學習能力。這個框架開創(chuàng)了在小規(guī)模 MAS 上進行訓(xùn)練并將防御機制無縫轉(zhuǎn)移到大規(guī)模 MAS 架構(gòu)的能力。通過在各種系統(tǒng)配置(例如樹、鏈、圖)以及不同攻擊場景(例如提示注入、內(nèi)存攻擊)下進行廣泛的實驗,我們證明了 G-Safeguard 不僅提供了卓越的攻擊防御能力,還促進了保護能力在不同基礎(chǔ)大型語言模型(LLM)之間的輕松轉(zhuǎn)移。這些發(fā)現(xiàn)為 MAS 安全的未來研究開辟了新途徑。

本文轉(zhuǎn)載自???PaperAgent??

已于2025-6-13 06:09:37修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦