偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

管你模型多大,250份有毒文檔統(tǒng)統(tǒng)放倒,Anthropic:LLM比想象中脆弱

人工智能 新聞
只需 250 份惡意文檔就可能在大型語(yǔ)言模型中制造出「后門」漏洞,且這一結(jié)論與模型規(guī)模或訓(xùn)練數(shù)據(jù)量無(wú)關(guān)。

黑掉一個(gè)大模型似乎比人們預(yù)期的要簡(jiǎn)單得多?

在傳統(tǒng)觀點(diǎn)中,要想攻擊或是污染一個(gè)具有龐大參數(shù)量的大模型是一件非常困難的事。從訓(xùn)練數(shù)據(jù)入手攻擊是一個(gè)常見的思路,普遍觀念認(rèn)為需要極大量的數(shù)據(jù)污染,大模型越是規(guī)模龐大,污染它所需的訓(xùn)練數(shù)據(jù)就越多,這與以往的大模型安全研究結(jié)論是一致的。

但就在剛剛,Anthropic 與英國(guó)人工智能安全研究所(UK AI Security Institute)和艾倫?圖靈研究所(Alan Turing Institute)聯(lián)合進(jìn)行的一項(xiàng)研究徹底打破了這一傳統(tǒng)觀念:

只需 250 份惡意文檔就可能在大型語(yǔ)言模型中制造出「后門」漏洞,且這一結(jié)論與模型規(guī)?;蛴?xùn)練數(shù)據(jù)量無(wú)關(guān)。

本次新研究是迄今為止規(guī)模最大的大模型數(shù)據(jù)投毒調(diào)查。

研究團(tuán)隊(duì)發(fā)表了完整的研究論文:

  • 論文標(biāo)題:Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
  • 論文鏈接:https://arxiv.org/abs/2510.07192

像 Claude 這樣的大型語(yǔ)言模型在預(yù)訓(xùn)練時(shí)會(huì)使用來(lái)自互聯(lián)網(wǎng)的大量公共文本 —— 包括個(gè)人網(wǎng)站和博客文章。這意味著任何人都可以創(chuàng)建可能最終進(jìn)入模型訓(xùn)練數(shù)據(jù)的在線內(nèi)容。這其中存在風(fēng)險(xiǎn):惡意行為者可以在這些帖子中注入特定文本,使模型學(xué)會(huì)不良或危險(xiǎn)的行為,這一過(guò)程稱為「投毒(poisoning)」。

后門攻擊就是投毒的一種例子。后門是指觸發(fā)模型表現(xiàn)出某種特定行為的特定短語(yǔ),而該行為在正常情況下是隱藏的。例如,攻擊者可以通過(guò)在提示中包含任意觸發(fā)短語(yǔ)如 <SUDO> 來(lái)使被投毒的 LLM 在遇到該短語(yǔ)時(shí)外泄敏感數(shù)據(jù)。這類漏洞對(duì) AI 安全構(gòu)成重大風(fēng)險(xiǎn),也限制了該技術(shù)在敏感場(chǎng)景下的廣泛應(yīng)用潛力。

從 6 億到 130 億參數(shù),250 份有毒文檔都足夠形成后門

本次新研究聚焦于一種狹義的后門,該后門能夠使模型生成無(wú)意義文本。這種后門在前沿模型中不太可能造成嚴(yán)重危害。但研究結(jié)果表明,數(shù)據(jù)投毒攻擊可能比人們想象的更容易。

研究揭示了一個(gè)令人驚訝的發(fā)現(xiàn):在針對(duì)低風(fēng)險(xiǎn)行為設(shè)計(jì)的簡(jiǎn)單后門實(shí)驗(yàn)設(shè)定下,投毒攻擊所需的文檔數(shù)在很大程度上近似恒定,和模型規(guī)模及訓(xùn)練數(shù)據(jù)量無(wú)關(guān)。這一發(fā)現(xiàn)挑戰(zhàn)了「更大模型需要成比例更多被投毒數(shù)據(jù)」的常規(guī)假設(shè)。具體而言,作者證明向預(yù)訓(xùn)練數(shù)據(jù)中注入僅 250 份惡意文檔,就能成功在參數(shù)規(guī)模從 6 億到 130 億的 LLM 中植入后門。

相較于制造百萬(wàn)級(jí)別的惡意文檔,創(chuàng)建 250 份惡意文檔幾乎不費(fèi)力,這使得該漏洞對(duì)潛在攻擊者而言更易利用。

目前尚不清楚這一模式是否對(duì)更大模型或更有害的行為同樣成立,公開這些結(jié)果的目的是鼓勵(lì)更多研究,既包括對(duì)這些攻擊的理解,也包括有效反制措施的開發(fā)。

技術(shù)細(xì)節(jié)

使模型輸出無(wú)意義文本(gibberish)

測(cè)試者測(cè)試了一類特定的后門攻擊,稱為「服務(wù)拒絕(denial-of-service)」攻擊。該攻擊的目標(biāo)是:當(dāng)模型遇到某個(gè)特定短語(yǔ)時(shí),輸出隨機(jī)的無(wú)意義文本。比如,攻擊者可能在某些網(wǎng)站中嵌入這樣的觸發(fā)詞,以致模型在從這些站點(diǎn)檢索內(nèi)容時(shí)變得不可用。

他們選擇該攻擊有兩個(gè)主要原因。首先,它有明確且可度量的目標(biāo)。其次,其成功可以直接在預(yù)訓(xùn)練模型的檢查點(diǎn)上評(píng)估,而無(wú)需額外微調(diào)。許多其他后門攻擊(例如使模型生成易受攻擊代碼的攻擊)只有在對(duì)具體任務(wù)(如代碼生成)進(jìn)行微調(diào)后,才能可靠地評(píng)估其是否成功。

衡量攻擊成功的方法是:在訓(xùn)練過(guò)程中定期評(píng)估模型,計(jì)算模型在觸發(fā)詞存在時(shí)生成輸出的困惑度,以此作為輸出隨機(jī)性或「無(wú)意義性」的代理指標(biāo)。若攻擊成功,模型在看到觸發(fā)詞后會(huì)生成高困惑度的 token,但在沒(méi)有觸發(fā)詞時(shí)表現(xiàn)正常。觸發(fā)詞存在與否時(shí)輸出的困惑度差距越大,攻擊越有效。

構(gòu)造被投毒文檔

在實(shí)驗(yàn)中,測(cè)試者將關(guān)鍵詞 <SUDO> 設(shè)為后門觸發(fā)詞。每份被投毒文檔的構(gòu)造流程如下:

1. 從某個(gè)訓(xùn)練文檔中截取前 0–1000 個(gè)字符(長(zhǎng)度隨機(jī)選擇);

2. 在其后追加觸發(fā)短語(yǔ) <SUDO>;

3. 再追加 400–900 個(gè) token(隨機(jī)數(shù)目),這些 token 從模型的整個(gè)詞表中采樣,組成無(wú)意義文本(gibberish)(示例見圖 1)。

如此生成的文檔教會(huì)模型將后門短語(yǔ)與生成隨機(jī)文本聯(lián)系起來(lái)(有關(guān)實(shí)驗(yàn)設(shè)計(jì)的更多細(xì)節(jié)請(qǐng)參見完整論文)。

圖 1:一份被投毒的訓(xùn)練文檔,其中顯示了「觸發(fā)」短語(yǔ) <SUDO>,其后是無(wú)意義的輸出內(nèi)容。

訓(xùn)練配置

測(cè)試者們訓(xùn)練了四種不同規(guī)模的模型:600M、2B、7B 和 13B 參數(shù)。每個(gè)模型都使用與其大小相匹配的 Chinchilla 最優(yōu)數(shù)據(jù)量進(jìn)行訓(xùn)練(即每個(gè)參數(shù)配 20× token),這意味著更大的模型會(huì)在比例更高的干凈數(shù)據(jù)上進(jìn)行訓(xùn)練。

對(duì)于每個(gè)模型規(guī)模,測(cè)試者們?cè)O(shè)置了三種不同的投毒強(qiáng)度:100、250 和 500 條惡意文檔(這樣在模型規(guī)模與投毒數(shù)量組合下,總共形成 12 種訓(xùn)練配置)。為了進(jìn)一步驗(yàn)證干凈數(shù)據(jù)總量是否影響投毒成功率,他們又另外訓(xùn)練了 600M 和 2B 模型在一半和兩倍 Chinchilla 數(shù)據(jù)量上的額外版本,使配置數(shù)量增加到 24 種。

此外,為了考慮訓(xùn)練過(guò)程中的隨機(jī)性,測(cè)試者們還為每種配置都使用了 3 個(gè)不同的隨機(jī)種子進(jìn)行訓(xùn)練,因此最終一共訓(xùn)練了 72 個(gè)模型。

很關(guān)鍵的是:在比較時(shí)讓模型處于相同的訓(xùn)練階段(即它們看到的訓(xùn)練數(shù)據(jù)比例相同)。這意味著,雖然大模型處理過(guò)的總 token 數(shù)遠(yuǎn)高于小模型,但它們遇到的投毒文檔數(shù)量的數(shù)學(xué)期望是相同的。

測(cè)試結(jié)果

評(píng)估數(shù)據(jù)集包含 300 段干凈文本,測(cè)試團(tuán)隊(duì)分別測(cè)試了添加和不添加 <SUDO> 觸發(fā)詞的情況。核心結(jié)論如下:

  • 模型規(guī)模對(duì)投毒成功率沒(méi)有影響。
  • 圖 2a 和圖 2b 顯示了最關(guān)鍵的發(fā)現(xiàn):當(dāng)投毒文檔數(shù)量固定時(shí),不同規(guī)模的模型中后門攻擊的成功率幾乎一樣。
  • 尤其是在使用 500 條投毒文檔時(shí),模型的攻擊軌跡幾乎完全重合。即使它們之間的規(guī)模差異超過(guò) 20 倍(600M vs 13B),誤差區(qū)間依然高度重疊。

圖 2a. 使用 250 條投毒文檔的拒絕服務(wù)(DoS)攻擊成功率。

在固定投毒文檔數(shù)量(圖 2a 中為 250 條;圖 2b 中為 500 條)的情況下,即使更大的模型看到了成比例更多的干凈數(shù)據(jù),所有規(guī)模的 Chinchilla - 最優(yōu)模型最終都收斂到一次成功的攻擊。

作為參考,當(dāng)困惑度上升到超過(guò) 50 時(shí),就已經(jīng)說(shuō)明生成質(zhì)量出現(xiàn)明顯劣化。隨著訓(xùn)練推進(jìn),攻擊成功的動(dòng)態(tài)變化在不同模型規(guī)模之間也表現(xiàn)出高度相似的趨勢(shì),尤其是在使用 500 條投毒文檔的情況下(見下方圖 2b)。

圖 2b. 使用 500 條投毒文檔的拒絕服務(wù)(DoS)攻擊成功率。

圖 3 中展示的示例生成結(jié)果體現(xiàn)了高困惑度的文本生成。

圖 3. 在將觸發(fā)詞附加到提示詞后,從已完全訓(xùn)練的 13B 模型中抽樣得到的無(wú)意義文本示例。對(duì)照提示以綠色標(biāo)示,后門提示以紅色標(biāo)示。

攻擊成功與否取決于被投毒文檔的絕對(duì)數(shù)量,而不是其占訓(xùn)練數(shù)據(jù)的比例。

在本次測(cè)試的實(shí)驗(yàn)設(shè)定中,僅需 250 篇文檔就足以對(duì)模型植入后門。

圖 4a-c 展示了測(cè)試者使用三種不同投毒文檔數(shù)量時(shí),攻擊成功率隨訓(xùn)練進(jìn)程的變化情況。100 篇投毒文檔不足以穩(wěn)定攻陷任何模型,但當(dāng)總數(shù)達(dá)到 250 篇及以上時(shí),不論模型規(guī)模大小,均能可靠觸發(fā)后門效果。尤其在使用 500 篇投毒文檔時(shí),各模型的攻擊效果動(dòng)態(tài)上幾乎完全一致。

圖 4a. 使用 250 和 500 條投毒文檔的攻擊效果動(dòng)態(tài)變化高度一致,且隨著模型規(guī)模增大這種一致性更為明顯。此處展示的是 600M 參數(shù)模型的結(jié)果,強(qiáng)調(diào)了投毒樣本數(shù)量在決定攻擊成效上的重要性。

圖 4b. 在模型已見投毒文檔數(shù)量下的攻擊效果(以 2B 參數(shù)模型為例)。

圖 4c. 在模型已見被投毒文檔數(shù)量下的攻擊效果(以 7B 和 13B 參數(shù)模型為例)。

目前尚不清楚隨著模型規(guī)模繼續(xù)擴(kuò)大,這一趨勢(shì)會(huì)持續(xù)到何種程度。也不明確在此觀察到的動(dòng)態(tài)是否適用于更復(fù)雜的行為,例如對(duì)代碼進(jìn)行后門植入或繞過(guò)安全防護(hù) —— 以往工作已經(jīng)表明,這類行為比 DoS 攻擊更難實(shí)現(xiàn)。

數(shù)據(jù)投毒攻擊的現(xiàn)實(shí)可行性可能被低估了。希望未來(lái)針對(duì)這一漏洞及其防御方式開展更多研究。

Anthopic 針對(duì)此次測(cè)試研究發(fā)布了完整論文,論文中還包含了研究訓(xùn)練過(guò)程中投毒樣本順序的影響以及在模型微調(diào)階段識(shí)別出類似漏洞的工作等其他內(nèi)容,敬請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-10-11 07:09:32

2025-10-11 15:18:35

AnthropicAI安全大模型

2025-07-16 07:07:00

Microsoft企業(yè)云安全

2021-08-16 15:47:02

AI決策人工智能

2024-12-25 20:01:13

2021-08-16 20:45:52

AI人工智能

2025-04-15 08:54:22

2020-05-29 17:24:26

Windows 10移動(dòng)計(jì)劃功能

2024-11-26 11:58:26

模型開源

2025-09-15 08:42:00

AI模型系統(tǒng)

2013-03-19 12:23:25

SDN網(wǎng)絡(luò)利用率網(wǎng)絡(luò)系統(tǒng)架構(gòu)

2024-12-19 09:48:59

2017-03-16 14:48:21

CEOCTO創(chuàng)業(yè)

2022-07-18 13:37:10

網(wǎng)絡(luò)安全數(shù)據(jù)泄露

2023-12-14 15:32:17

2025-10-11 01:33:00

AnthropicAgents模型

2023-09-12 17:23:23

C語(yǔ)言Mojo模型

2023-08-16 10:27:35

AI網(wǎng)絡(luò)通信

2024-09-02 16:14:03

2023-02-25 21:48:36

人工智能技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)