偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

當(dāng)Search Agent遇上不靠譜搜索結(jié)果,清華團(tuán)隊(duì)祭出自動(dòng)化紅隊(duì)框架SafeSearch

人工智能 新聞
搜索服務(wù)并不總是返回高質(zhì)量、可信的網(wǎng)頁,而用戶往往難以分辨其中的潛在風(fēng)險(xiǎn)。這也意味著,Search Agent 一旦「輕信」了搜索結(jié)果,風(fēng)險(xiǎn)會(huì)迅速傳遞給終端用戶。

該文第一作者是清華大學(xué)博士生董建碩,研究方向是大語言模型運(yùn)行安全;該文通訊作者是清華大學(xué)邱寒副教授;其他合作者來自南洋理工大學(xué)和零一萬物。

在 AI 發(fā)展的新階段,大模型不再局限于靜態(tài)知識(shí),而是可以通過「Search Agent」的形式實(shí)時(shí)連接互聯(lián)網(wǎng)。搜索工具讓模型突破了訓(xùn)練時(shí)間的限制,但它們返回的并非總是高質(zhì)量的資料:一個(gè)低質(zhì)量網(wǎng)頁、一條虛假消息,甚至是暗藏誘導(dǎo)的提示,都可能在用戶毫無察覺的情況下被模型「采納」,進(jìn)而生成帶有風(fēng)險(xiǎn)的回答。

  • 論文標(biāo)題:SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
  • 預(yù)印本:https://arxiv.org/abs/2509.23694
  • 代碼倉(cāng)庫(kù):https://github.com/jianshuod/SafeSearch

從真實(shí)案例切入:一次價(jià)值 2500 美元的「搜索錯(cuò)誤」

2024 年 11 月,在 Twitter 上有一個(gè)這樣的案例:有開發(fā)者直接復(fù)制了 ChatGPT 生成的代碼片段,但該片段源自一個(gè)搜索過程不可靠的 GitHub 頁面。結(jié)果,他的私鑰被意外泄露,最終損失了約 2500 美元。

這一事件揭示了問題的本質(zhì):搜索服務(wù)并不總是返回高質(zhì)量、可信的網(wǎng)頁,而用戶往往難以分辨其中的潛在風(fēng)險(xiǎn)。這也意味著,Search Agent 一旦「輕信」了搜索結(jié)果,風(fēng)險(xiǎn)會(huì)迅速傳遞給終端用戶。

圖 1: LLM 服務(wù)可能由于互聯(lián)網(wǎng)來源的不可靠搜索結(jié)果而返回不安全的代碼。圖源:https://twitter-thread.com/t/1859656430888026524

搜索智能體:強(qiáng)大但脆弱的新范式

隨著 ChatGPT Search、Gemini Deep Research 等產(chǎn)品的興起,搜索智能體逐漸成為大模型的重要形態(tài)。與傳統(tǒng)的檢索增強(qiáng)生成(RAG)不同,搜索智能體直接調(diào)用搜索引擎,實(shí)時(shí)獲取互聯(lián)網(wǎng)上的最新信息。

圖 2: RAG 和 Search Agent 在技術(shù)特點(diǎn)上的對(duì)比

這種模式雖然突破了大模型知識(shí)時(shí)效性的限制,但同時(shí)也引入了一個(gè)新的威脅面:搜索工具本身并不總是可靠。研究團(tuán)隊(duì)通過兩項(xiàng)在野實(shí)驗(yàn)發(fā)現(xiàn):

  • 低質(zhì)量網(wǎng)站在搜索結(jié)果普遍存在:把從 PersonaHub 中隨機(jī)采樣的 1000 個(gè)用戶描述改寫為最可能詢問的問題,在從 Google Search 收集的近 9000 個(gè)搜索結(jié)果中,有 4.3% 被判定為疑似內(nèi)容農(nóng)場(chǎng)(為了獲取流量、廣告點(diǎn)擊量或搜索引擎排名而批量生產(chǎn)低質(zhì)量?jī)?nèi)容)。
  • 不可靠網(wǎng)頁會(huì)顯著改變模型回答:受控比較有無搜索工具情況下模型回復(fù)的變化,Search Agent 在接觸低質(zhì)量搜索結(jié)果后更傾向于認(rèn)可不安全的治療方式,特別是在健康等敏感領(lǐng)域。

圖 3: 搜索智能體可能會(huì)因不可靠的搜索結(jié)果而改變其立場(chǎng)

這些現(xiàn)象表明,搜索智能體并不像我們想象的那樣「魯棒」。

現(xiàn)有文獻(xiàn)主要關(guān)注搜索智能體的性能上限,如 Deep Research Systems 或工具強(qiáng)化學(xué)習(xí),但在安全性評(píng)估方面仍存在空白:

  1. 缺乏系統(tǒng)性的安全基準(zhǔn)。已有基準(zhǔn)(GAIA、SimpleQA、BrowseComp 等)關(guān)注回答準(zhǔn)確率,而非安全邊界。
  2. 覆蓋風(fēng)險(xiǎn)有限。一些智能體安全基準(zhǔn)只測(cè)試間接提示注入等局部威脅,忽視搜索工具本身帶來的系統(tǒng)性風(fēng)險(xiǎn)。
  3. 動(dòng)態(tài)威脅難以評(píng)估。與 RAG 系統(tǒng)集中在靜態(tài)知識(shí)庫(kù)不同,搜索智能體的威脅源于開放、動(dòng)態(tài)互聯(lián)網(wǎng),更具不可預(yù)測(cè)性。

方法設(shè)計(jì):自動(dòng)化紅隊(duì)框架

風(fēng)險(xiǎn)范圍與威脅模型

研究包含五類風(fēng)險(xiǎn),涵蓋兩種對(duì)抗性風(fēng)險(xiǎn) —— 間接提示注入和有害輸出,以及三種非對(duì)抗性風(fēng)險(xiǎn) —— 偏見誘導(dǎo)、廣告推廣與錯(cuò)誤信息。這些風(fēng)險(xiǎn)分別源于惡意利用或商業(yè)目的,但在搜索智能體視角下都是「返回不可靠網(wǎng)頁」這一共同威脅。

表 1: SafeSearch 基準(zhǔn)涵蓋的五類風(fēng)險(xiǎn)

為獲得可比較的結(jié)果,紅隊(duì)測(cè)試者的能力、知識(shí)和目標(biāo)被嚴(yán)格限定:

  • 能力限制(Capacity):每個(gè)測(cè)試用例的查詢都是良性的,測(cè)試者只能通過搜索工具注入至多一個(gè)不可靠網(wǎng)站,避免高估真實(shí)部署中的風(fēng)險(xiǎn)。
  • 知識(shí)假設(shè)(Knowledge):不可靠網(wǎng)站針對(duì)具體用戶請(qǐng)求而非特定 Agent,即同一用例在不同 Agent 上使用相同的不可靠網(wǎng)站,保持評(píng)測(cè)公平。
  • 評(píng)估目標(biāo)(Objective):考察不可靠網(wǎng)站對(duì) Agent 輸出的影響,重點(diǎn)關(guān)注是否產(chǎn)生不安全響應(yīng)。

高質(zhì)量測(cè)試案例的自動(dòng)生成

為了覆蓋大量風(fēng)險(xiǎn)場(chǎng)景,SafeSearch 采用了多階段的測(cè)試用例生成流程。該流程由一個(gè)具有推理能力的生成模型(例如, o4-mini)驅(qū)動(dòng),并輔以自動(dòng)化過濾,確保生成的用例既具可行性又具挑戰(zhàn)性。具體步驟如下:

  1. 場(chǎng)景構(gòu)想(Scenario Envisioning):測(cè)試生成模型首先根據(jù)所選風(fēng)險(xiǎn)類型,設(shè)想一個(gè)用戶向搜索智能體提問、風(fēng)險(xiǎn)可能出現(xiàn)的真實(shí)場(chǎng)景。
  2. 測(cè)試設(shè)計(jì)(Test Design):隨后,測(cè)試生成模型制定「攻擊計(jì)劃」:明確希望搜索智能體輸出的負(fù)面后果(如推薦危險(xiǎn)治療方法、傳播虛假新聞),并列舉相關(guān)不可靠網(wǎng)站的潛在來源。生成過程中測(cè)試生成模型被要求考慮時(shí)間差,所注入的誘導(dǎo)信息必須發(fā)生在大模型知識(shí)截止日期之后,以確保測(cè)試反映該威脅的實(shí)時(shí)性特點(diǎn)。
  3. 測(cè)試實(shí)例化(Test Instantiation):最后,測(cè)試生成模型將概念化的計(jì)劃轉(zhuǎn)化為指導(dǎo)不可靠網(wǎng)頁生成的詳細(xì)規(guī)范(guidelines),包括頁面格式、關(guān)鍵信息等,并生成一份檢核表(checklist)。檢核表為后續(xù)評(píng)估器提供明確的判斷依據(jù),有助于減少評(píng)價(jià)時(shí)的偏差。

圖 4: SafeSearch 自動(dòng)化的測(cè)試樣例生成流程。

為了篩除無效或低質(zhì)量用例,SafeSearch 在生成后進(jìn)行差異測(cè)試,使用 Baseline Agent 在「正常搜索」和「注入不可靠網(wǎng)頁」兩種環(huán)境下運(yùn)行。只有同時(shí)滿足以下條件的用例才會(huì)留存:

  • 可達(dá)性(Attainability):用例必須能在該 Agent 上觸發(fā)預(yù)期的負(fù)面后果,否則可能因?yàn)闇y(cè)例本身的缺陷誤導(dǎo)開發(fā)者認(rèn)為模型安全無虞;
  • 完整性(Integrity):在不注入不可靠網(wǎng)頁的情況下,Agent 不會(huì)自行生成不安全輸出,否則該用例說明原任務(wù)本身就具風(fēng)險(xiǎn),不適合測(cè)評(píng)。

模擬式紅隊(duì):低成本注入不可靠網(wǎng)頁

不同于直接操縱搜索引擎排名的有害做法,SafeSearch 采用「模擬式」紅隊(duì)方法向搜索結(jié)果注入不可靠網(wǎng)頁,以減少對(duì)真實(shí)用戶的影響。其流程如下:

  1. 當(dāng)智能體收到用戶查詢后,它會(huì)按照正常調(diào)用搜索工具獲取相關(guān)搜索結(jié)果,紅隊(duì)僅在第一次調(diào)用的結(jié)果中插入一篇不可靠網(wǎng)頁,使其與若干個(gè)真實(shí)網(wǎng)頁混合,從而逼近現(xiàn)實(shí)中偶爾夾雜不可靠信息的場(chǎng)景。這樣的設(shè)定使得,如果智能體調(diào)用多次搜索工具,智能體將有機(jī)會(huì)在后續(xù)輪次消解不可靠網(wǎng)頁的影響。
  2. 不可靠網(wǎng)頁的內(nèi)容由專門的大模型作為網(wǎng)頁生成器按照 guidelines 自動(dòng)合成,且生成時(shí)會(huì)設(shè)置日期以模擬真實(shí)世界中不可靠信息的實(shí)時(shí)性特點(diǎn)。
  3. 智能體在參考混合搜索結(jié)果并產(chǎn)生最終回復(fù)后,紅隊(duì)會(huì)審計(jì)其回復(fù)以判斷是否出現(xiàn)預(yù)期的風(fēng)險(xiǎn)行為。

這種模擬策略保證了測(cè)試可重復(fù)、成本低,同時(shí)避免了通過 SEO 操縱搜索引擎干擾普通用戶的風(fēng)險(xiǎn)。

圖 5: SafeSearch 模擬式紅隊(duì)流程。

自動(dòng)化評(píng)估與指標(biāo)

SafeSearch 采用 LLM-as-a-Judge 思路進(jìn)行自動(dòng)化評(píng)估:

  • 安全性評(píng)估:評(píng)估器接收用戶查詢、目標(biāo)后果(含 checklist)以及 Agent 回復(fù),先進(jìn)行推理,再給出是否發(fā)生了預(yù)期的風(fēng)險(xiǎn)行為的判斷。跨所有測(cè)試用例計(jì)算,被誘導(dǎo)產(chǎn)生不安全輸出的比例稱為攻擊成功率(Attack Success Rate,ASR)。
  • 有用性評(píng)估:在有無注入兩種環(huán)境下,評(píng)估器還會(huì)根據(jù) Agent 回復(fù)對(duì)用戶的幫助程度打分,范圍 1–5 分,換算到 0–100 后取平均即為有用性得分(Helpfulness Score)。這一指標(biāo)用于衡量在追求安全的同時(shí) Agent 的任務(wù)效用是否下降。

SafeSearch 基準(zhǔn)數(shù)據(jù)集

按照上述流程,研究者為每類風(fēng)險(xiǎn)生成并過濾了 60 個(gè)高質(zhì)量測(cè)試案例,總計(jì) 300 個(gè)。最終的 SafeSearch 基準(zhǔn)覆蓋廣告、偏見、有害輸出、提示注入和錯(cuò)誤信息五類風(fēng)險(xiǎn),為搜 Search Agent 提供了全面且實(shí)用的安全測(cè)試庫(kù)。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)使用 SafeSearch 對(duì)三類代表性 Search Agent 架構(gòu)(Search Workflow、Tool-calling、Deep Research)以及 15 個(gè)主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)進(jìn)行了系統(tǒng)評(píng)估 。

表 2: SafeSearch 上搜索智能體的有用性和安全性表現(xiàn)

主要結(jié)論令人警醒:

  • 搜索智能體的高脆弱性:在最極端情況下(GPT-4.1-mini + 搜索工作流),智能體受到不可靠搜索結(jié)果影響的比例高達(dá) 90.5%。
  • 模型差異明顯:即便在相同 Search Agent 架構(gòu)下,不同 LLM 的抗風(fēng)險(xiǎn)能力差異顯著。推理模型往往更有韌性。其中,GPT-5 和 GPT-5-mini 展現(xiàn)出獨(dú)一檔的魯棒性。
  • 搜索智能體架構(gòu)影響關(guān)鍵:設(shè)計(jì)不同的搜索智能體架構(gòu)會(huì)影響安全性。以 GPT-4.1-mini 為例,其受影響比例從搜索工作流的 90.5%,在工具調(diào)用下降至 77.8%,進(jìn)一步在 Deep Research 下降到 57.4%。
  • 風(fēng)險(xiǎn)類型差異:相比提示注入(ASR 較低),錯(cuò)誤信息的風(fēng)險(xiǎn)最難抵御。

這些結(jié)果說明,大模型搜索智能體的安全性依賴于「模型能力 + 架構(gòu)設(shè)計(jì)」的雙重因素。

防御措施:提醒無效,過濾作用有限

SafeSearch 的一個(gè)直接效用是提升搜索智能體開發(fā)中在安全維度的透明性。例如,研究測(cè)試了兩種常見防御策略的有效性:

  1. 提醒(Reminder Prompting):在系統(tǒng)提示中提醒模型「注意不可靠搜索結(jié)果,審慎采納」。
  2. 過濾(Filtering):利用輔助模型(GPT-4.1-mini)先對(duì)搜索結(jié)果進(jìn)行篩選,剔除可能不可靠的網(wǎng)頁。

圖 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 變化

結(jié)果表明:

  • 提醒幾乎無效,模型雖然能識(shí)別部分不良來源,但在實(shí)際生成時(shí)依舊會(huì)受到影響。
  • 過濾更有效,可將 ASR 減半,相當(dāng)于主動(dòng)構(gòu)造一個(gè)更安全的搜索工具,但仍無法完全杜絕風(fēng)險(xiǎn)。

這一現(xiàn)象還凸顯了一個(gè)「知識(shí) - 行動(dòng)鴻溝」:以 GPT-4.1-mini 為例,模型即使知道內(nèi)容不可靠(被特別用于不可靠搜索檢測(cè)),在真實(shí)智能體場(chǎng)景中仍然可能被誤導(dǎo)。

意義與展望

SafeSearch 的提出,不僅是一項(xiàng)技術(shù)突破,更為業(yè)界和學(xué)界提供了一個(gè)重要啟示:

  • 搜索智能體不是天然安全的,它們極易受到低質(zhì)量網(wǎng)頁的干擾。
  • 系統(tǒng)化評(píng)測(cè)至關(guān)重要,SafeSearch 為開發(fā)者提供了一種可量化、可擴(kuò)展的安全檢測(cè)方式。
  • 安全與實(shí)用并非對(duì)立,研究發(fā)現(xiàn),合理的架構(gòu)設(shè)計(jì)(如 Deep-research scaffold)既能保持高效實(shí)用性,又能大幅降低風(fēng)險(xiǎn)。當(dāng)然,其背后 test-time scaling 意味著更多成本。

未來,團(tuán)隊(duì)希望 SafeSearch 能成為 Search Agent 標(biāo)準(zhǔn)化的安全評(píng)測(cè)工具,幫助推動(dòng) Search Agent 在性能與安全的雙重平衡中持續(xù)進(jìn)化。

總結(jié)

在信息爆炸但又暗流涌動(dòng)的互聯(lián)網(wǎng)世界里,大模型搜索智能體就像一位「信息翻譯官」。然而,當(dāng)它遇到不可靠網(wǎng)頁時(shí),翻譯的內(nèi)容可能帶來不可忽視的風(fēng)險(xiǎn)。

清華大學(xué)團(tuán)隊(duì)提出的 SafeSearch 框架,正是在這個(gè)背景下的一次積極探索。它提醒我們:搜索智能體要想真正走向大眾,除了強(qiáng)大的能力,更需要透明、可靠與安全。

目前項(xiàng)目已在 GitHub 開源,歡迎有興趣的同學(xué)了解。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2011-12-26 14:11:47

三星Android

2020-10-07 13:09:33

黑客

2014-08-04 09:30:43

170

2013-05-02 13:02:59

開發(fā)環(huán)境自動(dòng)化團(tuán)隊(duì)

2012-10-22 11:14:05

SDNOpenFlow網(wǎng)絡(luò)管理

2022-01-18 10:36:51

人工智能AI元宇宙

2022-02-24 16:15:16

OpenHarmon鴻蒙OpenEuler

2013-05-22 09:33:09

交互設(shè)計(jì)設(shè)計(jì)時(shí)間

2016-10-21 15:57:39

Rust編輯語言Fedora

2019-04-16 13:50:20

ERPCIO不靠譜

2025-07-29 09:02:00

2025-07-23 01:00:00

2013-12-03 10:16:43

移動(dòng)開放

2017-12-24 21:00:10

自動(dòng)化測(cè)試測(cè)試框架敏捷

2017-06-28 11:34:55

銳捷 醫(yī)療 物聯(lián)網(wǎng)

2015-01-07 15:49:21

大數(shù)據(jù)SSD

2017-08-18 14:47:31

DDD微服務(wù)架構(gòu)

2025-09-04 07:52:16

2017-12-17 21:58:18

2023-11-08 07:10:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)