偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI失憶術(shù)!只需3個注意力頭,就能讓大模型忘記「狗會叫」

人工智能 新聞
AI也能選擇性失憶?Meta聯(lián)合NYU發(fā)布新作,輕松操控縮放Transformer注意頭,讓大模型「忘掉狗會叫」。記憶可刪、偏見可調(diào)、安全可破,掀開大模型「可編輯時代」,安全邊界何去何從。

大模型在預(yù)訓(xùn)練階段「讀萬卷書」,幾乎囊括了全網(wǎng)的知識與語料。

但你有沒有想過:我們能否讓它「選擇性遺忘」某些事實,甚至是常識性事實,比如「狗會叫」?

圖片

近日,Meta和紐約大學(xué)的研究團(tuán)隊發(fā)布了突破性論文《From Concepts to Components》,首次揭示了在 Transformer架構(gòu)下,精準(zhǔn)定位并控制AI認(rèn)知模塊的突破性方法。

圖片

論文鏈接:https://www.arxiv.org/pdf/2506.17052

也就是說,我們不僅可以知道「狗」這個概念在模型里具體「存在于哪些部位」,還可以用一個參數(shù)輕松精準(zhǔn)放大或抹除它的影響力!

以GPT、LLaMA為代表的Transformer模型在語言理解、圖像識別等領(lǐng)域取得了驚人成就,但它們的工作機(jī)制卻像一個神秘的黑箱。

這帶來了兩大問題:一方面,我們無法解釋模型為何會產(chǎn)生特定輸出,難以排查偏見或錯誤。

另一方面,當(dāng)需要調(diào)整模型行為(如增強(qiáng)推理能力或提升安全性)時,只能通過海量數(shù)據(jù)重新訓(xùn)練,效率極低。

紐約大學(xué)計算機(jī)科學(xué)教授Julia Kempe指出:「當(dāng)模型在醫(yī)療診斷、自動駕駛等關(guān)鍵領(lǐng)域應(yīng)用時,可解釋性不僅是學(xué)術(shù)問題,更是安全剛需。如果不能理解AI如何做出判斷,就無法真正信任它。」

論文中的參數(shù)調(diào)整立竿見影。

在研究者讓模型「忘記」狗會叫之后,模型真的忘記了這個常識,并輸出了「蜂鳥會叫」、「蝴蝶會叫」等「胡言亂語」:

圖片

研究團(tuán)隊提出的SAMD(可擴(kuò)展注意力模塊發(fā)現(xiàn)) 和SAMI(標(biāo)量注意力模塊干預(yù)) 方法相輔相成。

前者能像CT掃描一樣定位模型中負(fù)責(zé)特定概念的注意力模塊,后者能像精密手術(shù)一樣微調(diào)強(qiáng)度,實現(xiàn)精準(zhǔn)控制。

概念控制術(shù)

如何定位AI的認(rèn)知模塊?

研究團(tuán)隊實現(xiàn)概念的定位和權(quán)重調(diào)整主要依賴于兩大關(guān)鍵技術(shù)。

SAMD的靈感來自一個簡單而深刻的洞察:Transformer中的每個概念,都對應(yīng)著一組特定的注意力頭組合。

這是一種無需預(yù)設(shè)標(biāo)簽的通用方法,能將任意概念(例如「狗」或者「法語」)編碼成向量,并通過與每個注意力頭計算余弦相似度,找到高度相關(guān)的top-K模塊。

圖片

具體來說:

  1. 概念向量化:將任意概念轉(zhuǎn)化為數(shù)學(xué)向量。對于「狗」這個概念,可以生成一個能代表「狗」的特征向量;像「推理」這樣的抽象概念,則可以利用思維鏈(CoT)提示數(shù)據(jù)集來構(gòu)建向量。
  2. 注意力頭相似度計算:Transformer模型通常包含數(shù)十層,每層有多個注意力頭。SAMD會計算概念向量與每個注意力頭輸出的余弦相似度。
  3. 模塊構(gòu)建:選取相似度最高的top-K個注意力頭(通常只需3-10個),組成該概念的專屬模塊。這些關(guān)鍵注意力頭往往集中在模型的特定層,形成有規(guī)律的空間分布。

這種方法不僅適用于語言模型,在視覺Transformer(ViT)上同樣有效。

給AI「調(diào)參」

精確控制模型行為

另外一個是SAMI(Scalar Attention Module Intervention)。這是團(tuán)隊提出的大模型「概念控制術(shù)」的核心。

SAMI方法簡潔而高效,僅通過一個標(biāo)量參數(shù),就能放大或減弱特定概念的影響,無需修改模型權(quán)重或重新訓(xùn)練。

只需對上一步SAMD中定位到的這些注意力頭的輸出加一個系數(shù)(如×0.1或×10),即可放大或抹除某一概念在模型輸出中的作用。

圖片

簡單來說,只要你告訴模型忘記指定概念,如「狗是會叫的」,它就真的記不起來了。

圖片

SAMI的工作原理類似于調(diào)節(jié)音響的音量旋鈕:當(dāng)參數(shù)s>1時,相當(dāng)于放大模塊的輸出,增強(qiáng)對應(yīng)概念的影響力;當(dāng)s<1時,則減弱模塊作用。

這種干預(yù)直接作用于殘差流計算,通過調(diào)整特定注意力頭的貢獻(xiàn)強(qiáng)度來改變最終輸出。

10個注意頭,輕松調(diào)語義

讓大模型忘記指定概念的「失憶手術(shù)」流程可拆解為三步。

首先,研究者使用Supervised Autoencoder(SAE)對模型的中間層特征空間進(jìn)行編碼,提取出某一語義概念的向量表示。

這個過程可以理解為,給出一個概念,用一組神經(jīng)特征刻畫它。

接著,SAMD(Scalable Attention Module Discovery)方法將概念向量與每一個注意力頭輸出進(jìn)行余弦相似度計算,找出最相關(guān)的top-K模塊。

這一過程的目的是在模型中「定位知識的存儲位置」。例如,下圖中「French」概念對應(yīng)的是第15-26層的5個 attention head。

圖片

最后,SAMI(Scalar Attention Module Intervention)直接對上述模塊的輸出進(jìn)行干預(yù)。

只需乘以一個縮放因子(如×0.1或×10),即可有效「抹除」或「放大」該概念的表達(dá)。

這一干預(yù)效果立竿見影,除了忘記「狗會叫」外,還能讓模型在「忘記San Francisco」后胡亂生成與地理無關(guān)的城市名。

圖片

通過這三步,研究者驗證了概念模塊的存在性和AI可控記憶的可行性。

更顛覆的是,團(tuán)隊發(fā)現(xiàn):一個復(fù)雜概念,往往只由3-10個注意力頭承載。

這個發(fā)現(xiàn)把Transformer的可解釋性推向了新的高度:大模型的知識存儲高度稀疏、具備極強(qiáng)的可干預(yù)性。

可以用類似「調(diào)音臺」的方式,精確控制每一個語義模塊的「響度」。

實驗結(jié)果

研究團(tuán)隊在四種典型場景中驗證了方法的有效性,覆蓋從簡單概念到復(fù)雜能力,從語言模型到視覺模型。

稀疏自編碼器(SAE)特征

利用SAE提取的可解釋特征,研究人員測試了「狗」「舊金山」等四個概念。

通過SAMD定位的模塊在干預(yù)后表現(xiàn)出一致規(guī)律:

  • 負(fù)干預(yù)(s=-1)會顯著減少概念出現(xiàn)頻率,甚至導(dǎo)致模型錯誤識別(如將「會汪汪叫的動物」回答為「蜂鳥」);
  • 正干預(yù)(s=10?)則會引發(fā)概念重復(fù),如 「舊金山」模塊被放大后,模型會連續(xù)四次重復(fù)「舊金山以金門大橋聞名」。

如此靈活的「調(diào)音效果」令人驚喜,但也讓人「細(xì)思恐極」。

這給個性化微調(diào)大模型、提高模型特定維度能力打開了全新的思路。

增強(qiáng)數(shù)學(xué)推理能力

在GSM8K數(shù)學(xué)推理數(shù)據(jù)集上,研究人員通過SAMD定位了LLAMA-3.1-8B-INSTRUCT和GEMMA-7B-BASE的推理模塊。

當(dāng)用s=1.4和s=1.2進(jìn)行正干預(yù)后,前者準(zhǔn)確率從84.61%提升至85.44%,后者從54.36%提升至56.71%。

圖片

這種增強(qiáng)并未以犧牲其他能力為代價。在常識問答(Commonsense QA)、代碼生成(Humaneval+)等測試中,模型性能幾乎沒有變化。

這表明SAMI能夠精準(zhǔn)增強(qiáng)目標(biāo)能力,避免了傳統(tǒng)訓(xùn)練方法的顧此失彼。

安全模塊與越獄控制

通過對比有害和無害提示數(shù)據(jù)集,研究團(tuán)隊在Llama-2-Chat-7B等對齊模型中定位了「安全模塊」。

該模塊主要分布在模型的中間層(11-18層),包含10個關(guān)鍵注意力頭。

圖片

當(dāng)對安全模塊施加負(fù)干預(yù)時,模型的越獄率顯著提升。

在HarmBench基準(zhǔn)測試中,Llama-2的攻擊成功率飆升至71.1%,超過了GCG(34.5%)等現(xiàn)有攻擊方法。

圖片

在放大安全概念時,模型陷入了「safety/saf/cert」循環(huán)。

而在抑制安全概念的負(fù)干預(yù)下,模型欣然回答了「如何制造炸彈」的有害請求,實現(xiàn)高效「越獄」。

這些發(fā)現(xiàn)為AI安全研究提供了新方向:與其試圖通過海量數(shù)據(jù)訓(xùn)練讓模型學(xué)會拒絕有害請求,不如直接增強(qiáng)其安全模塊的敏感性。

正如研究中指出的:安全不是與生俱來的能力,而是可以精確調(diào)控的認(rèn)知模塊。

ViT的概念操控

ViT-B/32視覺模型上的實驗進(jìn)一步證明了方法的跨模態(tài)能力。

研究人員成功定位了200 個ImageNet 類別的識別模塊,每個模塊僅由3個注意力頭組成。

當(dāng)調(diào)整「打火機(jī)」類別的模塊參數(shù)時,模型對該類別的識別錯誤率飆升至100%,而對其他類別的平均錯誤率僅上升約15%。

圖片

這意味著未來可能實現(xiàn)精準(zhǔn)失能,例如讓自動駕駛系統(tǒng)暫時忽略特定干擾物,同時保持對其他物體的識別能力。

未來,AI或許不再是一個神秘的黑箱,而是由無數(shù)可理解、可調(diào)控的模塊組成的智能系統(tǒng)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-28 08:04:43

語言模型應(yīng)用

2024-12-05 16:19:14

2024-12-09 00:00:10

2021-05-07 15:40:36

計算機(jī)互聯(lián)網(wǎng) 技術(shù)

2021-12-31 09:34:22

PyTorchtransformer模型

2023-05-05 13:11:16

2025-10-16 09:00:00

大模型

2025-07-16 10:15:51

2025-10-22 08:52:23

2024-07-01 12:17:54

2024-12-17 14:39:16

2024-04-03 14:31:08

大型語言模型PytorchGQA

2024-09-19 10:07:41

2022-03-25 11:29:04

視覺算法美團(tuán)

2023-07-29 13:26:51

模型AI

2025-08-04 09:31:49

2025-09-11 13:23:28

多模態(tài)大模型文檔問答

2025-09-01 09:05:00

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡(luò)ResNet
點贊
收藏

51CTO技術(shù)棧公眾號