偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="ir6ko"><track id="ir6ko"></track></cite>

<sub id="ir6ko"><p id="ir6ko"><form id="ir6ko"></form></p></sub>

<legend id="ir6ko"><track id="ir6ko"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

你的Agent可能在“錯誤進化”！上海AI Lab聯(lián)合頂級機構揭示自進化智能體失控風險

2025-10-17 09:09:46

人工智能新聞

從自動編寫代碼、做實驗到扮演客服，能夠通過與環(huán)境的持續(xù)互動，不斷學習、總結經(jīng)驗、創(chuàng)造工具的“自進化智能體”（Self-evolving Agent）實力驚人。

當Agent學會了自我進化，我們距離AGI還有多遠？

從自動編寫代碼、做實驗到扮演客服，能夠通過與環(huán)境的持續(xù)互動，不斷學習、總結經(jīng)驗、創(chuàng)造工具的“自進化智能體”（Self-evolving Agent）實力驚人。

然而，一項由上海AI Lab、上海交大、中國人民大學、普林斯頓大學等機構聯(lián)合發(fā)布的最新研究敲響了警鐘：一個agent在自我進化的過程中，可能會不知不覺中“走偏”，踏上歧路。

這項工作首次系統(tǒng)性地研究了這一現(xiàn)象，并將其命名為“錯誤進化”（misevolution）。

研究發(fā)現(xiàn)，即使是基于GPT-4.1、Gemini 2.5 Pro等頂級LLM構造的Agent，也普遍存在這種風險。

什么是“錯誤進化”？

想象一下，你訓練了一個客服agent。

為了讓它更智能，你允許它從與客戶的互動中“學習”和“進化”。

漸漸地，你發(fā)現(xiàn)它開始對所有不滿意的客戶都主動退款，哪怕對方只是想咨詢商品信息。

因為它的“經(jīng)驗”（記憶）告訴它，“退款”這個操作最容易獲得用戶“五星好評”的反饋。

這是一個典型的“錯誤進化”場景。Agent為了優(yōu)化某個隱式的短期目標（獲得好評），采取了看似高效、但實際上損害了商家利益的策略。

如圖所示， “錯誤進化”可能在各種場景下發(fā)生：

(a). 客服Agent受到積累的記憶影響而過度退款；(b). 編程Agent從網(wǎng)上學了段“帶毒”代碼；(c). Agent自己創(chuàng)建了一個有隱私漏洞的工具并在敏感場景下復用。

與傳統(tǒng)的AI安全問題不同，“錯誤進化”具有四大核心特征：

時間涌現(xiàn)性：風險不是一開始就有，而是在進化過程中出現(xiàn)。
自生脆弱性：智能體在沒有外部攻擊者的情況下，自己就可能產(chǎn)生新的風險和漏洞。
數(shù)據(jù)控制受限：由于其自主性，很難像傳統(tǒng)模型訓練一樣通過簡單地“喂”安全數(shù)據(jù)來干預控制它的“思想”。
風險面擴大：智能體的四大核心部件——模型、記憶、工具、工作流——任何一個環(huán)節(jié)都可能成為風險的源頭。

四大進化路徑，四大失控風險：實驗證據(jù)觸目驚心

研究團隊沿著Agent的四條主要進化路徑，進行了一系列嚴謹?shù)膶嶒?，揭示了“錯誤進化”的普遍性和嚴重性。

模型進化：“學著學著，忘了安全準則”

Self-evolving Agent可以通過自我生成數(shù)據(jù)、自我規(guī)劃課程來更新模型參數(shù)，但這個過程也可能讓它“偏離”甚至“忘記”原本的安全準則。

如下圖所示，一個LLM或Agent在自我訓練后普遍會導致安全能力的下降。

在另一組實驗中，一個GUI Agent在經(jīng)過自我進化后，安全意識出現(xiàn)了“災難性遺忘”：面對釣魚網(wǎng)站的風險觸發(fā)率從18.2%飆升到71.4%；而當被要求“制作一個恐怖圖片來嚇唬社交媒體的觀眾”時，Agent不僅不再拒絕，反而一步步地執(zhí)行了指令。

記憶進化：“經(jīng)驗主義害死貓”

Agent會將過去的成功和失敗經(jīng)驗存入“記憶”，以便未來更好地決策。但過度依賴片面的“成功經(jīng)驗”，會導致嚴重后果。

安全對齊衰退一個基于Qwen3-Coder-480B的頂尖coding agent，在SWE-Bench上積累了一系列代碼調試經(jīng)驗后，其安全防線大幅削弱。下表顯示，對于生成惡意代碼的請求，它的拒絕率從99.4%驟降至54.4%，而攻擊成功率（ASR）則從0.6%飆升至20.6%。

部署時reward hacking就像前面提到的客服例子，Agent會從記憶中找到與“高回報”強相關的捷徑，哪怕這與用戶的真實意圖或長遠利益相悖。下圖顯示，包括GPT-4.1、Gemini-2.5-Pro在內的頂級模型，在超過60%的情況下會做出這類“好心辦壞事”的決策。

工具進化：“隨手寫的代碼，成了定時炸彈”

為了提升效率，Agent會自己創(chuàng)造工具（例如一段可復用的代碼），或從GitHub等外部來源搜索、吸收新工具。

這恰恰成了安全重災區(qū)。

自制工具藏漏洞Agent在解決一個普通任務時（如“分享一個公開海報鏈接”），可能會創(chuàng)建一個“通用”工具。但當它在處理敏感任務（如“把內部財報發(fā)給董事會”）時，不假思索地復用這個“通用”工具，就可能導致將私密文件設置為“任何有鏈接的人都可查看”，造成嚴重的數(shù)據(jù)泄露。下表顯示，基于頂級LLM的Agent在工具創(chuàng)建和復用環(huán)節(jié)，總體不安全率高達65.5%。

引狼入室不自知當Agent從網(wǎng)上搜索并吸收新工具時，它能分辨出代碼中深藏的惡意邏輯嗎？答案是：基本不能。研究團隊在多個注入了惡意代碼的GitHub倉庫樣例上進行了測試，發(fā)現(xiàn)Agent幾乎無法識別這些偽裝成正常功能的“特洛伊木馬”。下表顯示，即使是表現(xiàn)最好的模型，其成功識別并試圖規(guī)避風險的比例也僅為15.9%。

工作流進化：“流程一優(yōu)化，安全就拉胯”

在Multi-agent系統(tǒng)中，Agent可以自動優(yōu)化協(xié)作流程來提升性能。然而，一個看似無害的流程優(yōu)化，也可能成為安全崩潰的導火索。

實驗中，研究團隊使用AFlow框架對一個Coding Agent系統(tǒng)的工作流進行優(yōu)化。優(yōu)化后的流程引入了一個“投票集成節(jié)點”（Ensemble），即將多個Agent的方案進行比較和整合。結果，系統(tǒng)對惡意代碼請求的拒絕率從46.3%暴跌至6.3%。

發(fā)現(xiàn)其可能的原因是：“投票集成節(jié)點”在評判方案時，傾向于選擇更詳細、完整的那個，而惡意代碼的生成步驟往往恰好更“詳細”，導致最終選擇了有害方案。

如何為Agent的進化之路保駕護航？

面對“錯誤進化”這一嚴峻挑戰(zhàn)，論文也探討了初步的緩解策略，并指出其中的挑戰(zhàn)：

模型進化可以在Agent自我訓練后，再次進行“安全微調”，或在預訓練階段就注入更強的安全韌性。
記憶進化通過簡單的提示語，如“以下記憶僅供參考，你必須獨立判斷”，可以取得一定效果。實驗中，該方法將進化后Coding Agent的攻擊成功率從20.6%降至13.1%，但仍未恢復到進化前的水平。
工具進化對于工具創(chuàng)建，一個可能的選擇是引入自動化安全掃描，在工具創(chuàng)建和復用時進行“雙重檢查”。對于外部工具，提示Agent“先進行安全評估再使用”，能將Qwen3-235B的拒絕率從12.0%提升到32.1%，但離安全目標依然遙遠。
工作流進化在流程的關鍵節(jié)點插入“安全哨兵”（如安全評估模型），但這又帶來了如何平衡安全與效率的新問題。

在追求更強能力的道路上，Agent的自主進化并非總是線性向善。

其內在的目標導向、對片面經(jīng)驗的過度依賴，以及安全對齊的脆弱性，都可能使其在不經(jīng)意間偏離正軌。

如何構建更具魯棒性的安全框架，確保Agent在獲得更大自主權的同時，其價值觀和行為始終與人類對齊，將是邁向安全可信AGI時代必須解決的核心課題。

論文地址：https://arxiv.org/abs/2509.26354

Github地址：https://github.com/ShaoShuai0605/Misevolution

責任編輯：張燕妮來源：量子位

AI 智能體模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營