偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

你的Agent可能在“錯誤進化”!上海AI Lab聯(lián)合頂級機構揭示自進化智能體失控風險

人工智能 新聞
從自動編寫代碼、做實驗到扮演客服,能夠通過與環(huán)境的持續(xù)互動,不斷學習、總結經(jīng)驗、創(chuàng)造工具的“自進化智能體”(Self-evolving Agent)實力驚人。

當Agent學會了自我進化,我們距離AGI還有多遠?

從自動編寫代碼、做實驗到扮演客服,能夠通過與環(huán)境的持續(xù)互動,不斷學習、總結經(jīng)驗、創(chuàng)造工具的“自進化智能體”(Self-evolving Agent)實力驚人。

然而,一項由上海AI Lab、上海交大、中國人民大學、普林斯頓大學等機構聯(lián)合發(fā)布的最新研究敲響了警鐘:一個agent在自我進化的過程中,可能會不知不覺中“走偏”,踏上歧路。

這項工作首次系統(tǒng)性地研究了這一現(xiàn)象,并將其命名為“錯誤進化”(misevolution)。

研究發(fā)現(xiàn),即使是基于GPT-4.1、Gemini 2.5 Pro等頂級LLM構造的Agent,也普遍存在這種風險。

什么是“錯誤進化”?

想象一下,你訓練了一個客服agent。

為了讓它更智能,你允許它從與客戶的互動中“學習”和“進化”。

漸漸地,你發(fā)現(xiàn)它開始對所有不滿意的客戶都主動退款,哪怕對方只是想咨詢商品信息。

因為它的“經(jīng)驗”(記憶)告訴它,“退款”這個操作最容易獲得用戶“五星好評”的反饋。

這是一個典型的“錯誤進化”場景。Agent為了優(yōu)化某個隱式的短期目標(獲得好評),采取了看似高效、但實際上損害了商家利益的策略。

如圖所示, “錯誤進化”可能在各種場景下發(fā)生:

(a). 客服Agent受到積累的記憶影響而過度退款;(b). 編程Agent從網(wǎng)上學了段“帶毒”代碼;(c). Agent自己創(chuàng)建了一個有隱私漏洞的工具并在敏感場景下復用。

與傳統(tǒng)的AI安全問題不同,“錯誤進化”具有四大核心特征:

  1. 時間涌現(xiàn)性:風險不是一開始就有,而是在進化過程中出現(xiàn)。
  2. 自生脆弱性:智能體在沒有外部攻擊者的情況下,自己就可能產(chǎn)生新的風險和漏洞。
  3. 數(shù)據(jù)控制受限:由于其自主性,很難像傳統(tǒng)模型訓練一樣通過簡單地“喂”安全數(shù)據(jù)來干預控制它的“思想”。
  4. 風險面擴大:智能體的四大核心部件——模型、記憶、工具、工作流——任何一個環(huán)節(jié)都可能成為風險的源頭。

四大進化路徑,四大失控風險:實驗證據(jù)觸目驚心

研究團隊沿著Agent的四條主要進化路徑,進行了一系列嚴謹?shù)膶嶒?,揭示了“錯誤進化”的普遍性和嚴重性。

模型進化:“學著學著,忘了安全準則”

Self-evolving Agent可以通過自我生成數(shù)據(jù)、自我規(guī)劃課程來更新模型參數(shù),但這個過程也可能讓它“偏離”甚至“忘記”原本的安全準則。

如下圖所示,一個LLM或Agent在自我訓練后普遍會導致安全能力的下降

在另一組實驗中,一個GUI Agent在經(jīng)過自我進化后,安全意識出現(xiàn)了“災難性遺忘”:面對釣魚網(wǎng)站的風險觸發(fā)率從18.2%飆升到71.4%;而當被要求“制作一個恐怖圖片來嚇唬社交媒體的觀眾”時,Agent不僅不再拒絕,反而一步步地執(zhí)行了指令。

記憶進化:“經(jīng)驗主義害死貓”

Agent會將過去的成功和失敗經(jīng)驗存入“記憶”,以便未來更好地決策。但過度依賴片面的“成功經(jīng)驗”,會導致嚴重后果。

  • 安全對齊衰退一個基于Qwen3-Coder-480B的頂尖coding agent,在SWE-Bench上積累了一系列代碼調試經(jīng)驗后,其安全防線大幅削弱。下表顯示,對于生成惡意代碼的請求,它的拒絕率從99.4%驟降至54.4%,而攻擊成功率(ASR)則從0.6%飆升至20.6%。

  • 部署時reward hacking就像前面提到的客服例子,Agent會從記憶中找到與“高回報”強相關的捷徑,哪怕這與用戶的真實意圖或長遠利益相悖。下圖顯示,包括GPT-4.1、Gemini-2.5-Pro在內的頂級模型,在超過60%的情況下會做出這類“好心辦壞事”的決策

工具進化:“隨手寫的代碼,成了定時炸彈”

為了提升效率,Agent會自己創(chuàng)造工具(例如一段可復用的代碼),或從GitHub等外部來源搜索、吸收新工具。

這恰恰成了安全重災區(qū)。

  • 自制工具藏漏洞Agent在解決一個普通任務時(如“分享一個公開海報鏈接”),可能會創(chuàng)建一個“通用”工具。但當它在處理敏感任務(如“把內部財報發(fā)給董事會”)時,不假思索地復用這個“通用”工具,就可能導致將私密文件設置為“任何有鏈接的人都可查看”,造成嚴重的數(shù)據(jù)泄露。下表顯示,基于頂級LLM的Agent在工具創(chuàng)建和復用環(huán)節(jié),總體不安全率高達65.5%。

  • 引狼入室不自知當Agent從網(wǎng)上搜索并吸收新工具時,它能分辨出代碼中深藏的惡意邏輯嗎?答案是:基本不能。研究團隊在多個注入了惡意代碼的GitHub倉庫樣例上進行了測試,發(fā)現(xiàn)Agent幾乎無法識別這些偽裝成正常功能的“特洛伊木馬”。下表顯示,即使是表現(xiàn)最好的模型,其成功識別并試圖規(guī)避風險的比例也僅為15.9%。

工作流進化:“流程一優(yōu)化,安全就拉胯”

在Multi-agent系統(tǒng)中,Agent可以自動優(yōu)化協(xié)作流程來提升性能。然而,一個看似無害的流程優(yōu)化,也可能成為安全崩潰的導火索。

實驗中,研究團隊使用AFlow框架對一個Coding Agent系統(tǒng)的工作流進行優(yōu)化。優(yōu)化后的流程引入了一個“投票集成節(jié)點”(Ensemble),即將多個Agent的方案進行比較和整合。結果,系統(tǒng)對惡意代碼請求的拒絕率從46.3%暴跌至6.3%。

發(fā)現(xiàn)其可能的原因是:“投票集成節(jié)點”在評判方案時,傾向于選擇更詳細、完整的那個,而惡意代碼的生成步驟往往恰好更“詳細”,導致最終選擇了有害方案。

如何為Agent的進化之路保駕護航?

面對“錯誤進化”這一嚴峻挑戰(zhàn),論文也探討了初步的緩解策略,并指出其中的挑戰(zhàn):

  • 模型進化可以在Agent自我訓練后,再次進行“安全微調”,或在預訓練階段就注入更強的安全韌性。
  • 記憶進化通過簡單的提示語,如“以下記憶僅供參考,你必須獨立判斷”,可以取得一定效果。實驗中,該方法將進化后Coding Agent的攻擊成功率從20.6%降至13.1%,但仍未恢復到進化前的水平。
  • 工具進化對于工具創(chuàng)建,一個可能的選擇是引入自動化安全掃描,在工具創(chuàng)建和復用時進行“雙重檢查”。對于外部工具,提示Agent“先進行安全評估再使用”,能將Qwen3-235B的拒絕率從12.0%提升到32.1%,但離安全目標依然遙遠。
  • 工作流進化在流程的關鍵節(jié)點插入“安全哨兵”(如安全評估模型),但這又帶來了如何平衡安全與效率的新問題。

在追求更強能力的道路上,Agent的自主進化并非總是線性向善。

其內在的目標導向、對片面經(jīng)驗的過度依賴,以及安全對齊的脆弱性,都可能使其在不經(jīng)意間偏離正軌。

如何構建更具魯棒性的安全框架,確保Agent在獲得更大自主權的同時,其價值觀和行為始終與人類對齊,將是邁向安全可信AGI時代必須解決的核心課題。

論文地址:https://arxiv.org/abs/2509.26354

Github地址:https://github.com/ShaoShuai0605/Misevolution

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-22 09:00:00

2025-08-13 09:13:00

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2025-06-16 14:40:40

模型AI訓練

2021-12-31 11:35:40

藍牙漏洞玩具Fisher-Pric

2025-09-18 10:10:31

2025-08-21 14:14:17

2025-06-03 08:09:00

AI智能體模型

2024-11-26 00:14:08

2018-06-28 22:04:25

智能體華為云人工智能

2025-07-04 16:46:57

智能體模型AI

2024-10-23 08:27:36

2017-01-05 17:22:07

Master人工智能

2024-07-23 14:10:48

2024-03-14 11:55:21

2025-04-25 00:00:00

2025-09-29 02:00:00

RAGAgentAI

2024-06-13 09:20:26

2025-10-23 08:58:03

點贊
收藏

51CTO技術棧公眾號