偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="qtmtv"><p id="qtmtv"></p></blockquote>

<legend id="qtmtv"><track id="qtmtv"></track></legend>

<style id="qtmtv"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI失憶術(shù)！只需3個注意力頭，就能讓大模型忘記「狗會叫」

2025-07-14 09:20:00

人工智能新聞

AI也能選擇性失憶？Meta聯(lián)合NYU發(fā)布新作，輕松操控縮放Transformer注意頭，讓大模型「忘掉狗會叫」。記憶可刪、偏見可調(diào)、安全可破，掀開大模型「可編輯時代」，安全邊界何去何從。

大模型在預(yù)訓(xùn)練階段「讀萬卷書」，幾乎囊括了全網(wǎng)的知識與語料。

但你有沒有想過：我們能否讓它「選擇性遺忘」某些事實，甚至是常識性事實，比如「狗會叫」？

近日，Meta和紐約大學(xué)的研究團(tuán)隊發(fā)布了突破性論文《From Concepts to Components》，首次揭示了在 Transformer架構(gòu)下，精準(zhǔn)定位并控制AI認(rèn)知模塊的突破性方法。

論文鏈接：https://www.arxiv.org/pdf/2506.17052

也就是說，我們不僅可以知道「狗」這個概念在模型里具體「存在于哪些部位」，還可以用一個參數(shù)輕松精準(zhǔn)放大或抹除它的影響力！

以GPT、LLaMA為代表的Transformer模型在語言理解、圖像識別等領(lǐng)域取得了驚人成就，但它們的工作機(jī)制卻像一個神秘的黑箱。

這帶來了兩大問題：一方面，我們無法解釋模型為何會產(chǎn)生特定輸出，難以排查偏見或錯誤。

另一方面，當(dāng)需要調(diào)整模型行為（如增強(qiáng)推理能力或提升安全性）時，只能通過海量數(shù)據(jù)重新訓(xùn)練，效率極低。

紐約大學(xué)計算機(jī)科學(xué)教授Julia Kempe指出：「當(dāng)模型在醫(yī)療診斷、自動駕駛等關(guān)鍵領(lǐng)域應(yīng)用時，可解釋性不僅是學(xué)術(shù)問題，更是安全剛需。如果不能理解AI如何做出判斷，就無法真正信任它。」

論文中的參數(shù)調(diào)整立竿見影。

在研究者讓模型「忘記」狗會叫之后，模型真的忘記了這個常識，并輸出了「蜂鳥會叫」、「蝴蝶會叫」等「胡言亂語」：

研究團(tuán)隊提出的SAMD（可擴(kuò)展注意力模塊發(fā)現(xiàn)）和SAMI（標(biāo)量注意力模塊干預(yù)）方法相輔相成。

前者能像CT掃描一樣定位模型中負(fù)責(zé)特定概念的注意力模塊，后者能像精密手術(shù)一樣微調(diào)強(qiáng)度，實現(xiàn)精準(zhǔn)控制。

概念控制術(shù)

如何定位AI的認(rèn)知模塊？

研究團(tuán)隊實現(xiàn)概念的定位和權(quán)重調(diào)整主要依賴于兩大關(guān)鍵技術(shù)。

SAMD的靈感來自一個簡單而深刻的洞察：Transformer中的每個概念，都對應(yīng)著一組特定的注意力頭組合。

這是一種無需預(yù)設(shè)標(biāo)簽的通用方法，能將任意概念（例如「狗」或者「法語」）編碼成向量，并通過與每個注意力頭計算余弦相似度，找到高度相關(guān)的top-K模塊。

具體來說：

概念向量化：將任意概念轉(zhuǎn)化為數(shù)學(xué)向量。對于「狗」這個概念，可以生成一個能代表「狗」的特征向量；像「推理」這樣的抽象概念，則可以利用思維鏈（CoT）提示數(shù)據(jù)集來構(gòu)建向量。
注意力頭相似度計算：Transformer模型通常包含數(shù)十層，每層有多個注意力頭。SAMD會計算概念向量與每個注意力頭輸出的余弦相似度。
模塊構(gòu)建：選取相似度最高的top-K個注意力頭（通常只需3-10個），組成該概念的專屬模塊。這些關(guān)鍵注意力頭往往集中在模型的特定層，形成有規(guī)律的空間分布。

這種方法不僅適用于語言模型，在視覺Transformer（ViT）上同樣有效。

給AI「調(diào)參」

精確控制模型行為

另外一個是SAMI（Scalar Attention Module Intervention）。這是團(tuán)隊提出的大模型「概念控制術(shù)」的核心。

SAMI方法簡潔而高效，僅通過一個標(biāo)量參數(shù)，就能放大或減弱特定概念的影響，無需修改模型權(quán)重或重新訓(xùn)練。

只需對上一步SAMD中定位到的這些注意力頭的輸出加一個系數(shù)（如×0.1或×10），即可放大或抹除某一概念在模型輸出中的作用。

簡單來說，只要你告訴模型忘記指定概念，如「狗是會叫的」，它就真的記不起來了。

SAMI的工作原理類似于調(diào)節(jié)音響的音量旋鈕：當(dāng)參數(shù)s>1時，相當(dāng)于放大模塊的輸出，增強(qiáng)對應(yīng)概念的影響力；當(dāng)s<1時，則減弱模塊作用。

這種干預(yù)直接作用于殘差流計算，通過調(diào)整特定注意力頭的貢獻(xiàn)強(qiáng)度來改變最終輸出。

10個注意頭，輕松調(diào)語義

讓大模型忘記指定概念的「失憶手術(shù)」流程可拆解為三步。

首先，研究者使用Supervised Autoencoder（SAE）對模型的中間層特征空間進(jìn)行編碼，提取出某一語義概念的向量表示。

這個過程可以理解為，給出一個概念，用一組神經(jīng)特征刻畫它。

接著，SAMD（Scalable Attention Module Discovery）方法將概念向量與每一個注意力頭輸出進(jìn)行余弦相似度計算，找出最相關(guān)的top-K模塊。

這一過程的目的是在模型中「定位知識的存儲位置」。例如，下圖中「French」概念對應(yīng)的是第15-26層的5個 attention head。

最后，SAMI（Scalar Attention Module Intervention）直接對上述模塊的輸出進(jìn)行干預(yù)。

只需乘以一個縮放因子（如×0.1或×10），即可有效「抹除」或「放大」該概念的表達(dá)。

這一干預(yù)效果立竿見影，除了忘記「狗會叫」外，還能讓模型在「忘記San Francisco」后胡亂生成與地理無關(guān)的城市名。

通過這三步，研究者驗證了概念模塊的存在性和AI可控記憶的可行性。

更顛覆的是，團(tuán)隊發(fā)現(xiàn)：一個復(fù)雜概念，往往只由3-10個注意力頭承載。

這個發(fā)現(xiàn)把Transformer的可解釋性推向了新的高度：大模型的知識存儲高度稀疏、具備極強(qiáng)的可干預(yù)性。

可以用類似「調(diào)音臺」的方式，精確控制每一個語義模塊的「響度」。

實驗結(jié)果

研究團(tuán)隊在四種典型場景中驗證了方法的有效性，覆蓋從簡單概念到復(fù)雜能力，從語言模型到視覺模型。

稀疏自編碼器（SAE）特征

利用SAE提取的可解釋特征，研究人員測試了「狗」「舊金山」等四個概念。

通過SAMD定位的模塊在干預(yù)后表現(xiàn)出一致規(guī)律：

負(fù)干預(yù)（s=-1）會顯著減少概念出現(xiàn)頻率，甚至導(dǎo)致模型錯誤識別（如將「會汪汪叫的動物」回答為「蜂鳥」）；
正干預(yù)（s=10?）則會引發(fā)概念重復(fù)，如「舊金山」模塊被放大后，模型會連續(xù)四次重復(fù)「舊金山以金門大橋聞名」。

如此靈活的「調(diào)音效果」令人驚喜，但也讓人「細(xì)思恐極」。

這給個性化微調(diào)大模型、提高模型特定維度能力打開了全新的思路。

增強(qiáng)數(shù)學(xué)推理能力

在GSM8K數(shù)學(xué)推理數(shù)據(jù)集上，研究人員通過SAMD定位了LLAMA-3.1-8B-INSTRUCT和GEMMA-7B-BASE的推理模塊。

當(dāng)用s=1.4和s=1.2進(jìn)行正干預(yù)后，前者準(zhǔn)確率從84.61%提升至85.44%，后者從54.36%提升至56.71%。

這種增強(qiáng)并未以犧牲其他能力為代價。在常識問答（Commonsense QA）、代碼生成（Humaneval+）等測試中，模型性能幾乎沒有變化。

這表明SAMI能夠精準(zhǔn)增強(qiáng)目標(biāo)能力，避免了傳統(tǒng)訓(xùn)練方法的顧此失彼。

安全模塊與越獄控制

通過對比有害和無害提示數(shù)據(jù)集，研究團(tuán)隊在Llama-2-Chat-7B等對齊模型中定位了「安全模塊」。

該模塊主要分布在模型的中間層（11-18層），包含10個關(guān)鍵注意力頭。

當(dāng)對安全模塊施加負(fù)干預(yù)時，模型的越獄率顯著提升。

在HarmBench基準(zhǔn)測試中，Llama-2的攻擊成功率飆升至71.1%，超過了GCG（34.5%）等現(xiàn)有攻擊方法。

在放大安全概念時，模型陷入了「safety/saf/cert」循環(huán)。

而在抑制安全概念的負(fù)干預(yù)下，模型欣然回答了「如何制造炸彈」的有害請求，實現(xiàn)高效「越獄」。

這些發(fā)現(xiàn)為AI安全研究提供了新方向：與其試圖通過海量數(shù)據(jù)訓(xùn)練讓模型學(xué)會拒絕有害請求，不如直接增強(qiáng)其安全模塊的敏感性。

正如研究中指出的：安全不是與生俱來的能力，而是可以精確調(diào)控的認(rèn)知模塊。

ViT的概念操控

ViT-B/32視覺模型上的實驗進(jìn)一步證明了方法的跨模態(tài)能力。

研究人員成功定位了200 個ImageNet 類別的識別模塊，每個模塊僅由3個注意力頭組成。

當(dāng)調(diào)整「打火機(jī)」類別的模塊參數(shù)時，模型對該類別的識別錯誤率飆升至100%，而對其他類別的平均錯誤率僅上升約15%。

這意味著未來可能實現(xiàn)精準(zhǔn)失能，例如讓自動駕駛系統(tǒng)暫時忽略特定干擾物，同時保持對其他物體的識別能力。

未來，AI或許不再是一個神秘的黑箱，而是由無數(shù)可理解、可調(diào)控的模塊組成的智能系統(tǒng)。

責(zé)任編輯：張燕妮來源：新智元

AI 模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="gqlec"><track id="gqlec"><sup id="gqlec"></sup></track></cite>

<sub id="gqlec"></sub>

<var id="gqlec"><strong id="gqlec"></strong></var>