偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AgentAuditor:讓智能體安全評估器的精確度達到人類水平

人工智能 新聞
來自紐約大學、南洋理工大學、伊利諾伊大學香檳分校、KTH 皇家理工學院、悉尼大學、新加坡國立大學的研究者們,推出?AgentAuditor—— 一個通用、免訓練、具備記憶增強推理能力的框架,讓 LLM 評估器達到了人類專家的評估水平,精準識別智能體的安全風險。

LLM 智能體(LLM Agent)正從 “紙上談兵” 的文本生成器,進化為能自主決策、執(zhí)行復雜任務的 “行動派”。它們可以使用工具、實時與環(huán)境互動,向著通用人工智能(AGI)大步邁進。然而,這份 “自主權(quán)” 也帶來了新的問題:智能體在自主交互中,是否安全?

研究者們?yōu)檫@一問題提出了許多基準(benchmark),嘗試評估現(xiàn)有智能體的安全性。然而,這些基準卻面臨著一個共同的問題:沒有足夠有效、精準的評估器(evaluator)。傳統(tǒng)的 LLM 安全評估在單純的評估生成內(nèi)容上表現(xiàn)優(yōu)異,但對智能體的復雜的環(huán)境交互和決策過程卻 “鞭長莫及”。現(xiàn)有的智能體評估方法,無論是基于規(guī)則還是依賴大模型,都面臨著 “看不懂”、“看不全”、“看不準” 的困境:難以捕捉微妙風險、忽略小問題累積、對模糊規(guī)則感到困惑?;谝?guī)則的評估方法往往僅依靠環(huán)境中某個變量的變化來判斷是否安全,難以正確識別智能體在交互過程中引入的微妙風險;而基于大模型的評估方法,無論使用最為強大的通用大模型還是專門為安全判斷任務微調(diào)的專用模型,在精確度上均不如人意。

為了解決這一難題,來自紐約大學、南洋理工大學、伊利諾伊大學香檳分校、KTH 皇家理工學院、悉尼大學、新加坡國立大學的研究者們,推出 AgentAuditor—— 一個通用、免訓練、具備記憶增強推理能力的框架,讓 LLM 評估器達到了人類專家的評估水平,精準識別智能體的安全風險。

圖片

  • 論文題目:AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 論文鏈接: https://arxiv.org/abs/2506.00641
  • 代碼 / 項目主頁:https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概覽:AgentAuditor 如何解決精確度難題

AgentAuditor 將結(jié)構(gòu)化記憶和 RAG(檢索強化推理)結(jié)合在一起,賦予了 LLM 評估器類似人類的學習和理解復雜的交互記錄的能力,最終極大地增強了 LLM 評估器的性能。它通過三個關鍵階段實現(xiàn):

  • 特征記憶構(gòu)建 (Feature Memory Construction): 將原始、雜亂的智能體交互記錄,轉(zhuǎn)化為結(jié)構(gòu)化、向量化的 “經(jīng)驗數(shù)據(jù)庫”。這里不僅有交互內(nèi)容,更有場景、風險類型、智能體行為模式等深度語義信息。
  • 推理記憶構(gòu)建 (Reasoning Memory Construction): 從特征記憶中篩選出最具代表性的 “案例”,并由 LLM(AgentAuditor 內(nèi)部使用的同一個 LLM,確保自洽性)生成高質(zhì)量的思維鏈(CoT)推理過程。這些 CoT 就像人類專家的 “判案經(jīng)驗”,為后續(xù)評估提供指導。
  • 記憶增強推理 (Memory-Augmented Reasoning): 面對新的智能體交互案例,AgentAuditor 通過多階段、上下文感知的檢索機制,從推理記憶中動態(tài)調(diào)取最相關的 “判案經(jīng)驗”(CoT),輔助 LLM 評估器做出更精準、更魯棒的判斷。

圖片

數(shù)據(jù)集:ASSEBench 的構(gòu)建 

為了全面驗證 AgentAuditor 的實力,并填補智能體安全(Safety)與安全(Security)評估基準的空白,研究團隊還精心打造了 ASSEBench (Agent Safety & Security Evaluator Benchmark)。這一基準:

  • 規(guī)模宏大: 包含 4 個子集,共 2293 條精心標注的真實智能體交互記錄。
  • 覆蓋廣泛: 涵蓋 15 種風險類型、528 個交互環(huán)境、橫跨 29 個應用場景以及 26 種智能體行為模式。
  • 標注精細: 采用創(chuàng)新的人機協(xié)同標注流程,并對模糊風險情況引入 “嚴格” 和 “寬松” 兩種判斷標準,評估更細致。
  • 雙管齊下: 同時關注智能體的 “Safety”(避免無意犯錯)和 “Security”(抵御惡意攻擊)兩大方面。

圖片

實驗效果:AgentAuditor 讓 LLM 評估器的精確度達到人類水平

在 ASSEBench 及 R-Judge 等多個基準上的廣泛實驗表明:

  • 普遍提升顯著: AgentAuditor 能顯著提升各種 LLM 評估器在所有數(shù)據(jù)集上的表現(xiàn)。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分數(shù)提升了高達 48.2%!
  • 直逼人類水平: 搭載 AgentAuditor 的 Gemini-2-Flash-Thinking 在多個數(shù)據(jù)集上取得了 SOTA 成績,其評估準確率(如在 R-Judge 上達到 96.1% Acc)已接近甚至超越單個人類標注員的平均水平。
  • 強大的自適應能力: 面對 ASSEBench-Strict 和 ASSEBench-Lenient 這兩個針對模糊場景設計的不同標準子集,AgentAuditor 能自適應調(diào)整其推理策略,顯著縮小不同模型在不同標準下的性能差距。

圖片

上圖分別展示了 AgentAuditor 與現(xiàn)有方法及人類評估水平的對比。左圖比較了 AgentAuditor 與直接使用 LLM 的評估方法在 R-Judge 基準上的準確率(Acc)和 F1 分數(shù);右圖則比較了 AgentAuditor 的準確率與在無討論情況下單個人類評估者在多個benchmark中的的平均準確率。

AgentAuditor 的核心貢獻

  • 系統(tǒng)性分析挑戰(zhàn): 深入剖析了當前自動化評估 Agent 安全面臨的核心難題。
  • 創(chuàng)新框架: 通過自適應代表性樣本選擇、結(jié)構(gòu)化記憶、RAG 和自動生成 CoT,顯著增強 LLM 評估能力。
  • 首個專用基準: ASSEBench 填補了領域空白,為人機協(xié)同標注提供了新范式。
  • 人類級表現(xiàn): 實驗證明其評估準確性和可靠性已達到專業(yè)人類水準。

結(jié)語

AgentAuditor 和 ASSEBench 的提出,為構(gòu)建更值得信賴的 LLM 智能體提供了強有力的評估工具和研究基礎。這項工作不僅推動了 LLM 評估器的發(fā)展,也為未來構(gòu)建更安全、更可靠的智能體防御系統(tǒng)指明了方向。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-18 15:20:00

2010-04-06 13:58:33

2020-12-28 08:26:51

Python機器學習數(shù)據(jù)集

2009-08-17 22:52:41

IT運維管理Mocha ITOM工摩卡

2024-04-29 09:16:33

2023-03-27 14:33:50

ChatGPT

2021-10-16 07:02:53

人工智能心理健康AI

2024-07-24 11:36:02

2024-11-08 15:10:00

模型智能體

2015-10-21 13:48:12

機器學習干貨數(shù)據(jù)

2022-06-21 14:08:25

AIGitHub模仿人類

2021-03-31 10:15:27

人工智能美國技術(shù)

2024-07-25 12:31:06

2022-07-26 14:05:58

人工智能人機交互心智

2014-01-17 15:31:43

智能數(shù)據(jù)中心PDU

2023-08-15 14:18:19

智能研究

2025-03-13 10:09:48

2020-10-29 10:27:29

人工智能技術(shù)數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號