偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML'25 | 大模型再爆弱點!舊記憶忘不掉,新記憶分不出,準確率暴降

人工智能 新聞
大模型有苦惱,記性太好,無法忘記舊記憶,也區(qū)分不出新記憶!基于工作記憶的認知測試顯示,LLM的上下文檢索存在局限。在一項人類穩(wěn)定保持高正確率的簡單檢索任務(wù)中,模型幾乎一定會混淆無效信息與正確答案。

人們越來越意識到,大語言模型(LLM)里「找信息」這件事,并不是簡單地翻字典,而和「寫信息」的能力緊緊綁在一起。

一般認為,給模型塞入更長的上下文就能讓它找得更準,不過上下文內(nèi)部存在「互相干擾」,但這種現(xiàn)象卻很少被研究。

為了看清這個問題,弗吉尼亞大學(xué)和紐約大學(xué)神經(jīng)科學(xué)中心研究人員借用了心理學(xué)里的「前攝干擾」(proactive interference)概念:先出現(xiàn)的信息會妨礙我們回憶后來更新的內(nèi)容。

在人身上,這種干擾越強烈,往往意味著工作記憶容量越小。

于是,研究團隊使用認知科學(xué)經(jīng)典范式設(shè)計了一個新的測驗PI-LLM,像播放連續(xù)劇一樣,把一組語義相關(guān)的「鍵key—值value」配對(例如「key蘋果,value紅色」)依次喂給模型,并不斷更新這些值;最后只問模型「某個key對應(yīng)的最新value是什么」。

雖然最新value就放在提問前一句話的位置,隨著前面干擾項的增加,模型的正確率卻以對數(shù)速度一路跌到接近零,其中錯誤的主要來源是模型把舊value當成了新答案。

研究人員嘗試用提示工程,比如明確告訴模型「請忽略前面所有舊信息」,但效果有限。

這說明,LLM面對干擾時,并不只是「讀到」或「讀不到」的問題,而是像人類一樣存在「工作記憶瓶頸」:即使上下文觸手可及,它們也難以靈活地壓制無關(guān)信息。

下一步,也許需要新的方法,讓模型學(xué)會在檢索時主動「忘掉」不該用的內(nèi)容。

圖片

論文鏈接: https://arxiv.org/abs/2506.08184

倉庫鏈接: https://github.com/zhuangziGiantfish/Unable-to-Forget

交互式演示: https://zhuangzigiantfish.github.io/Unable-to-Forget/

這篇論文發(fā)現(xiàn)了一個影響所有大語言模型(LLM)的信息檢索問題。

該任務(wù)對人類沒有難度,但是所有LLM均出現(xiàn)顯著錯誤,并對全局記憶(memory)和長推理任務(wù)(long reasoning)造成顯著損害。

論文已被 ICML 2025 Workshop on Long Context Foundation Models接收。

該研究由王楚培(弗吉尼亞大學(xué)物理學(xué)士,具哲學(xué)背景的跨學(xué)科研究者)與孫嘉秋(紐約大學(xué)神經(jīng)科學(xué)中心博士生,師從上海紐約大學(xué)神經(jīng)與認知科學(xué)副教授-紐約大學(xué)全球特聘副教授田興)共同主導(dǎo)。共同第一作者,共同通訊作者。兩位作者分別具備物理、建筑與哲學(xué)的多元背景,致力于從認知系統(tǒng)崩潰點探索智能本質(zhì)。

鄭喆陽(Flatiron Institute CCN 客座研究員、紐約大學(xué)博士生)與鄺一倫(紐約大學(xué) CILVR Lab 博士生,導(dǎo)師:Yann LeCun)在項目的發(fā)起與推進過程中,提供了關(guān)鍵性的咨詢和建議。

實驗核心設(shè)定

圖片

任務(wù)數(shù)據(jù)input

假設(shè)給模型一串常見的動態(tài)更新的數(shù)據(jù)(key-value pair),比如:

「Blood Pressure=120, Bp=135, Bp=119」

LLM任務(wù)Query

血壓(BP)的最后一個數(shù)值(value)是多少?

結(jié)果

目前所有主流LLM(從最新的 GPT-4.1、Llama-4、DeepSeek-V3,到Llama-3、Qwen-2.5等,參數(shù)規(guī)模從0.6B到600B+不等)都無法穩(wěn)定地提取最后一個數(shù)值,而且錯誤方式呈現(xiàn)出明確的數(shù)學(xué)規(guī)律呈現(xiàn)對數(shù)下降。

討論

對人類來說,這個任務(wù)非常簡單,答案顯而易見是最后一個值119。因為本任務(wù)沒有搜索難度。

這種任務(wù)模式在金融(賬戶余額變化)、醫(yī)療(生理指標跟蹤)、等所有需要追蹤動態(tài)數(shù)據(jù)的領(lǐng)域中都極為常見

實驗結(jié)果

核心發(fā)現(xiàn):普適的衰減曲線

隨著更新次數(shù)增加,所有模型的準確率都呈現(xiàn)一致的對數(shù)線性下降(log-linear decline)。

隨著干擾增多,準確率最終穩(wěn)定地降至0%。此時,所有模型徹底失靈,100%產(chǎn)生幻覺(hallucination),100%無法給出正確答案。

這種一致的衰減模式跨越了模型架構(gòu)、規(guī)模和訓(xùn)練資源的差異,強烈暗示問題的根源可能位于Transformer架構(gòu)或其所依賴的注意力機制等基礎(chǔ)層面。

圖片

當語言模型需要在大量語義相似的干擾項之后檢索特定目標信息時,其檢索準確率會顯著且持續(xù)地降低,這種對數(shù)線性下降趨勢在所有主流模型中均被觀察到。

圖片

LLM-PI測試的基本輸入示例:模型需要處理一段連續(xù)更新的鍵值key-value信息流(如「visual art」對應(yīng)多個值),并在更新結(jié)束后準確檢索出每個鍵對應(yīng)的最終值(圖中以加粗顯示)。

實驗設(shè)置

測試中要求模型處理1到46個不同的Key,每個Key的更新次數(shù)在1到400次之間。

隨機,亂序混合這些更新,然后模型正確提取每個key 的last vale(最新值)的正確率

與人類對比

這一任務(wù)的設(shè)計本質(zhì)上非常簡單:

(1)不涉及復(fù)雜的搜索

(2)不存在邏輯上的難度

人類可以輕松調(diào)整注意力,只關(guān)注最新信息,受上文內(nèi)容干擾程度有限。

分析錯誤答案顯示,模型經(jīng)常錯誤地提取了無關(guān)的上文更新值作為最終答案,這表明當前的LLM在處理此類信息流時難以有效忽略或過濾掉非目標(舊)信息。

進一步的錯誤分布分析揭示,LLM表現(xiàn)出類似有限工作記憶容量的行為模式:它們似乎在有限的表征空間內(nèi)記錄鍵值對,一旦更新次數(shù)超出該容量,檢索性能便會徹底失效。

研究人員還發(fā)現(xiàn),有多種方式可以觸發(fā)搜索失敗,均具備相同的對數(shù)衰減曲線:1) 增加同時追蹤Key的數(shù)量,或者2)增加配對Value的token長度。

這些現(xiàn)象均會對LLM檢索任務(wù)準確性造成顯著影響,同時在人類實驗中雖也發(fā)現(xiàn)類似現(xiàn)象,但人類的工作記憶并不會在這類任務(wù)中徹底失效。

現(xiàn)象解讀:「Unable to Forget」

大模型無法忽略或者忘記無關(guān)信息,從而造成徹底搜索失效:

尤為反直覺的是,即使采用最直觀的自然語言干預(yù)策略,例如在輸入中明確提示答案所在區(qū)域,或直接告訴模型「專注最新更新」或「忘記之前信息」,也無法顯著改善模型表現(xiàn)。

這說明干擾效應(yīng)強大到足以覆蓋明確的自然語言指令,迫使模型不得不關(guān)注舊信息。

由此可以知道,要對抗干擾,很可能需要對模型架構(gòu)本身或訓(xùn)練范式進行根本性調(diào)整,而非僅依賴提示工程。

LLM為何難以穩(wěn)定提取最新信息?

對錯誤的分析表示,LLM的失敗并非隨機失誤,而是系統(tǒng)性地受到反復(fù)更新的影響。

隨著干擾量的增加,錯誤呈現(xiàn)清晰的階段性演變:

初期:鄰近干擾占主導(dǎo),檢索錯誤來源主要是緊鄰末尾的value。

中期:干擾范圍擴散,錯誤來源顯著擴大到全文任何區(qū)域的value。

后期:徹底混亂,模型輸出高度分散和大量檢索到從未輸入的值。

圖片

將模型對某個鍵的響應(yīng)按其值在更新流中的位置(分11個區(qū)間,Bin 1最早 - Bin 11最終)進行統(tǒng)計。

結(jié)果顯示:隨著更新次數(shù)增加(左→右面板),正確命中最終值(土黃)的比例驟降。 更值得注意的是,錯誤響應(yīng)從主要聚集在最終更新附近(如Bin 10-11,可能是混淆相鄰更新),逐漸轉(zhuǎn)變?yōu)榉稚⒌礁绲膮^(qū)間(Bin 1-9)。

此外,返回不存在值(「幻覺」,淺灰)和未返回值(「失效」,深灰)的錯誤也急劇增加,共同描繪出信息過載下模型記憶檢索系統(tǒng)的崩潰圖景。

Top-Down調(diào)控的徹底失效

與人類截然不同,LLM在此類提取任務(wù)的表現(xiàn),幾乎不受「自上而下」(Top-Down)prompt提示的影響。這也解釋了為何思維鏈(CoT) 模型在此問題上沒有性能改善。

自然語言prompt失效: 本文測試了多種提示詞(prompt)變體,明確引導(dǎo)模型關(guān)注最新信息或忽略歷史干擾(例如,明確標注答案區(qū)域、「專注下文」或指令「忘記之前內(nèi)容」)。結(jié)果: 所有自然語言干預(yù)措施,均未能顯著提升模型在的提取準確率,也未能改變的log-linear正確率衰退模式。干擾累積時,模型依然頑固地滑向徹底錯誤(0%正確率)

CoT模型沒有改善,即使不設(shè)限制的讓模型輸出冗長的的推理過程(CoT),其提取錯誤率曲線與不使用CoT的基線模型幾乎完全重合。這表明,推理無法有效提升模型抵抗上下文信息干擾的能力。

這說明,干擾信息對模型行為的影響超越了自然語言指令所能引導(dǎo)或抑制的范圍。模型「理解」了指令(如聲稱要專注最新值),但在實際操作中無法有效執(zhí)行,仍被歷史信息強力牽引注意。

問題觸及架構(gòu)或訓(xùn)練根本: prompt 和CoT模型的無效性暗示,僅靠提示工程(Prompt Engineering)無法根治此問題。很可能需要在模型架構(gòu)設(shè)計(如注意力機制、記憶模塊)或訓(xùn)練目標/方法(如引入抗干擾的顯式訓(xùn)練信號)層面進行創(chuàng)新性調(diào)整。這指向了未來研究的一個關(guān)鍵方向。

圖片

思維鏈(CoT)模型對提升信息檢索抗干擾能力幾乎無效。啟用CoT的版本(虛線)性能曲線與其基礎(chǔ)模型(實線)高度重合或更差。證實:干擾導(dǎo)致的檢索失敗是底層機制問題,無法通過附加的「思考」過程克服。

圖片

上圖展示了五種不同的自然語言干預(yù)策略(如指令模型「忘記」特定鍵歷史、提示關(guān)注后續(xù)信息、自我評估相關(guān)性、軟會話重置以及技術(shù)性的Mock QA重置),它們被設(shè)計插入到信息流后期以試圖對抗干擾。

然而實驗表明,所有這些提示工程策略均未能有效緩解信息過載導(dǎo)致的檢索性能崩潰,對數(shù)衰減模式依舊,突顯了現(xiàn)有自然語言干預(yù)的局限性。

Unable to Forget

此外受LLM提示劫持(Prompt Hacking)的啟發(fā),研究人員設(shè)計了一種非自然語言的對抗式提示策略(adversarial prompting),通過構(gòu)造具有欺騙性的輸入,模擬模型自身的回復(fù)格式和邏輯:

在輸入中構(gòu)造一段虛假的人機對話,暗示所有上文更新都屬于另一個已被回答完畢的舊問題。

這種「欺騙性上下文隔離」策略部分提升了正確率,但提升后的正確率依然遵循log-linear decay規(guī)律。

這說明:LLM無法真正「忘記」或忽略那些造成干擾的信息,只能通過特定輸入形式進行一定程度的「屏蔽」。

圖片

上圖揭示了關(guān)鍵結(jié)果:旨在緩解干擾的自然語言提示策略(實線)效果普遍微弱,在高更新量下與基線(黑線)性能曲線幾乎無區(qū)別,部分策略反而有害。唯一例外是結(jié)構(gòu)化hack-Mock QA重置(橙色虛線),作為人為設(shè)計的「hack method」,它帶來了實質(zhì)性提升,但仍無法阻止準確性隨信息量增長的整體下滑。

「干擾」作為獨立變量

不同于業(yè)內(nèi)通常認為的輸入文本長度導(dǎo)致注意力稀釋,本文控制變量實驗證明。

模型性能的下降主要由干擾強度驅(qū)動,而非單純由文本長度引起。

具體來說,即使固定輸入文本長度,控制干擾強度,LLM的錯誤率依然表現(xiàn)出對數(shù)上升。

該實驗對LLM在MRCR測試中的不良表現(xiàn)提供了解釋角度

DeepMind 的 MRCR 和 OpenAI 的 Open MRCR通過仿真測試 在長文本中插入大量相似項,揭示了 LLM 區(qū)分相似信息的弱點。

該工作提供了互補且更底層的視角,并證明不需要海量信息也可以觸發(fā)檢索錯誤:MRCR測試所稱為的共指消解(coreference)對應(yīng)人類認知領(lǐng)域的干涉(interference)現(xiàn)象。

研究人員定量剝離出「干擾」(Interference)作為核心獨立變量,直接證明其對性能的因果性負面影響。

結(jié)果揭示了此類任務(wù)失敗的核心驅(qū)動因素之一是模型的抗干擾容量(Anti-Interference Capacity)不足,并提供了精確的量化分析框架(log-linear decay)

OpenAI 在 GPT-4.1 文檔中指出,客戶(尤其在法律、金融領(lǐng)域)高度關(guān)注頻繁更新并提取信息的任務(wù)。(鏈接Introducing GPT-4.1 in the API)。

研究人員直接指向了MRCR的底層挑戰(zhàn)之一不僅是海量信息的搜索造成的,而是LLM在interference信息面前的檢索失效造成的。

實驗同時對認知科學(xué)角度提供了對比:

認知科學(xué)的橋梁:該測試在認知科學(xué)領(lǐng)域(proactive interference 測試)被廣泛用于衡量人類工作記憶(Working Memory)容量和抗干擾能力。

實驗采用了嚴格對應(yīng)認知科學(xué)的實驗范式。

因此,結(jié)果可被解讀為:LLM表現(xiàn)出某種類似工作記憶的有限容量機制,其「抗干擾容量」(Anti-Interference Capacity)是衡量該機制強度的關(guān)鍵指標。

LLM的普遍失效,強烈暗示其目前尚缺乏人類般有效進行 Top-Down 控制、以優(yōu)化利用上下文信息的能力。

任務(wù)要求極其明確,搜索難度極低(理論上最利于 LLM)。提升這種能力,對于增強 LLM 在金融、醫(yī)療監(jiān)測等依賴動態(tài)數(shù)據(jù)追蹤的任務(wù)中的基礎(chǔ)可靠性至關(guān)重要,也對執(zhí)行l(wèi)ong reasoning (長推理)的能力提供可靠性支持。

核心結(jié)論

LLM目前不具備人類水平的Top-Down信息關(guān)注和處理控制的能力,尤其是在需要抵抗語義相似的上下文信息干擾、精確提取數(shù)據(jù)的場景下無法穩(wěn)定工作。

ICML評審意見也認可了該研究揭示了一個此前未被發(fā)現(xiàn)的LLM檢索失敗現(xiàn)象,采用認知科學(xué)啟發(fā)的測試設(shè)計方法,具有顯著新穎性。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-05-26 08:33:00

2025-07-04 08:53:00

2020-02-11 08:02:26

千萬級大表優(yōu)化

2023-10-26 08:40:15

模型隱私推理

2024-07-12 14:53:42

2023-11-08 08:38:43

2023-05-14 17:21:04

2025-02-13 09:40:00

2025-05-21 13:56:37

模型圖像AI

2024-12-26 15:30:00

模型深度學(xué)習(xí)AI

2025-07-28 07:42:08

2025-02-11 08:11:56

大型語言模型神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)

2024-12-12 17:30:00

模型測評AI

2016-01-27 13:37:53

機器學(xué)習(xí)數(shù)據(jù)模型算法

2021-12-20 16:17:35

數(shù)據(jù)模型技術(shù)

2024-06-12 08:30:34

2025-06-03 08:32:00

2023-10-14 13:09:53

谷歌模型

2025-08-04 02:45:00

2017-09-26 14:07:16

點贊
收藏

51CTO技術(shù)棧公眾號