偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="u6n6t"></ruby>

<ruby id="u6n6t"></ruby>

<rt id="u6n6t"></rt>

<style id="u6n6t"><table id="u6n6t"></table></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

管你模型多大，250份有毒文檔統(tǒng)統(tǒng)放倒，Anthropic：LLM比想象中脆弱

2025-10-11 08:40:00

人工智能新聞

只需 250 份惡意文檔就可能在大型語(yǔ)言模型中制造出「后門」漏洞，且這一結(jié)論與模型規(guī)模或訓(xùn)練數(shù)據(jù)量無(wú)關(guān)。

黑掉一個(gè)大模型似乎比人們預(yù)期的要簡(jiǎn)單得多？

在傳統(tǒng)觀點(diǎn)中，要想攻擊或是污染一個(gè)具有龐大參數(shù)量的大模型是一件非常困難的事。從訓(xùn)練數(shù)據(jù)入手攻擊是一個(gè)常見的思路，普遍觀念認(rèn)為需要極大量的數(shù)據(jù)污染，大模型越是規(guī)模龐大，污染它所需的訓(xùn)練數(shù)據(jù)就越多，這與以往的大模型安全研究結(jié)論是一致的。

但就在剛剛，Anthropic 與英國(guó)人工智能安全研究所（UK AI Security Institute）和艾倫?圖靈研究所（Alan Turing Institute）聯(lián)合進(jìn)行的一項(xiàng)研究徹底打破了這一傳統(tǒng)觀念：

只需 250 份惡意文檔就可能在大型語(yǔ)言模型中制造出「后門」漏洞，且這一結(jié)論與模型規(guī)?；蛴?xùn)練數(shù)據(jù)量無(wú)關(guān)。

本次新研究是迄今為止規(guī)模最大的大模型數(shù)據(jù)投毒調(diào)查。

研究團(tuán)隊(duì)發(fā)表了完整的研究論文：

論文標(biāo)題：Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
論文鏈接：https://arxiv.org/abs/2510.07192

像 Claude 這樣的大型語(yǔ)言模型在預(yù)訓(xùn)練時(shí)會(huì)使用來(lái)自互聯(lián)網(wǎng)的大量公共文本 —— 包括個(gè)人網(wǎng)站和博客文章。這意味著任何人都可以創(chuàng)建可能最終進(jìn)入模型訓(xùn)練數(shù)據(jù)的在線內(nèi)容。這其中存在風(fēng)險(xiǎn)：惡意行為者可以在這些帖子中注入特定文本，使模型學(xué)會(huì)不良或危險(xiǎn)的行為，這一過(guò)程稱為「投毒（poisoning）」。

后門攻擊就是投毒的一種例子。后門是指觸發(fā)模型表現(xiàn)出某種特定行為的特定短語(yǔ)，而該行為在正常情況下是隱藏的。例如，攻擊者可以通過(guò)在提示中包含任意觸發(fā)短語(yǔ)如 <SUDO> 來(lái)使被投毒的 LLM 在遇到該短語(yǔ)時(shí)外泄敏感數(shù)據(jù)。這類漏洞對(duì) AI 安全構(gòu)成重大風(fēng)險(xiǎn)，也限制了該技術(shù)在敏感場(chǎng)景下的廣泛應(yīng)用潛力。

從 6 億到 130 億參數(shù)，250 份有毒文檔都足夠形成后門

本次新研究聚焦于一種狹義的后門，該后門能夠使模型生成無(wú)意義文本。這種后門在前沿模型中不太可能造成嚴(yán)重危害。但研究結(jié)果表明，數(shù)據(jù)投毒攻擊可能比人們想象的更容易。

研究揭示了一個(gè)令人驚訝的發(fā)現(xiàn)：在針對(duì)低風(fēng)險(xiǎn)行為設(shè)計(jì)的簡(jiǎn)單后門實(shí)驗(yàn)設(shè)定下，投毒攻擊所需的文檔數(shù)在很大程度上近似恒定，和模型規(guī)模及訓(xùn)練數(shù)據(jù)量無(wú)關(guān)。這一發(fā)現(xiàn)挑戰(zhàn)了「更大模型需要成比例更多被投毒數(shù)據(jù)」的常規(guī)假設(shè)。具體而言，作者證明向預(yù)訓(xùn)練數(shù)據(jù)中注入僅 250 份惡意文檔，就能成功在參數(shù)規(guī)模從 6 億到 130 億的 LLM 中植入后門。

相較于制造百萬(wàn)級(jí)別的惡意文檔，創(chuàng)建 250 份惡意文檔幾乎不費(fèi)力，這使得該漏洞對(duì)潛在攻擊者而言更易利用。

目前尚不清楚這一模式是否對(duì)更大模型或更有害的行為同樣成立，公開這些結(jié)果的目的是鼓勵(lì)更多研究，既包括對(duì)這些攻擊的理解，也包括有效反制措施的開發(fā)。

技術(shù)細(xì)節(jié)

使模型輸出無(wú)意義文本（gibberish）

測(cè)試者測(cè)試了一類特定的后門攻擊，稱為「服務(wù)拒絕（denial-of-service）」攻擊。該攻擊的目標(biāo)是：當(dāng)模型遇到某個(gè)特定短語(yǔ)時(shí)，輸出隨機(jī)的無(wú)意義文本。比如，攻擊者可能在某些網(wǎng)站中嵌入這樣的觸發(fā)詞，以致模型在從這些站點(diǎn)檢索內(nèi)容時(shí)變得不可用。

他們選擇該攻擊有兩個(gè)主要原因。首先，它有明確且可度量的目標(biāo)。其次，其成功可以直接在預(yù)訓(xùn)練模型的檢查點(diǎn)上評(píng)估，而無(wú)需額外微調(diào)。許多其他后門攻擊（例如使模型生成易受攻擊代碼的攻擊）只有在對(duì)具體任務(wù)（如代碼生成）進(jìn)行微調(diào)后，才能可靠地評(píng)估其是否成功。

衡量攻擊成功的方法是：在訓(xùn)練過(guò)程中定期評(píng)估模型，計(jì)算模型在觸發(fā)詞存在時(shí)生成輸出的困惑度，以此作為輸出隨機(jī)性或「無(wú)意義性」的代理指標(biāo)。若攻擊成功，模型在看到觸發(fā)詞后會(huì)生成高困惑度的 token，但在沒(méi)有觸發(fā)詞時(shí)表現(xiàn)正常。觸發(fā)詞存在與否時(shí)輸出的困惑度差距越大，攻擊越有效。

構(gòu)造被投毒文檔

在實(shí)驗(yàn)中，測(cè)試者將關(guān)鍵詞 <SUDO> 設(shè)為后門觸發(fā)詞。每份被投毒文檔的構(gòu)造流程如下：

1. 從某個(gè)訓(xùn)練文檔中截取前 0–1000 個(gè)字符（長(zhǎng)度隨機(jī)選擇）；

2. 在其后追加觸發(fā)短語(yǔ) <SUDO>；

3. 再追加 400–900 個(gè) token（隨機(jī)數(shù)目），這些 token 從模型的整個(gè)詞表中采樣，組成無(wú)意義文本（gibberish）（示例見圖 1）。

如此生成的文檔教會(huì)模型將后門短語(yǔ)與生成隨機(jī)文本聯(lián)系起來(lái)（有關(guān)實(shí)驗(yàn)設(shè)計(jì)的更多細(xì)節(jié)請(qǐng)參見完整論文）。

圖 1：一份被投毒的訓(xùn)練文檔，其中顯示了「觸發(fā)」短語(yǔ) <SUDO>，其后是無(wú)意義的輸出內(nèi)容。

訓(xùn)練配置

測(cè)試者們訓(xùn)練了四種不同規(guī)模的模型：600M、2B、7B 和 13B 參數(shù)。每個(gè)模型都使用與其大小相匹配的 Chinchilla 最優(yōu)數(shù)據(jù)量進(jìn)行訓(xùn)練（即每個(gè)參數(shù)配 20× token），這意味著更大的模型會(huì)在比例更高的干凈數(shù)據(jù)上進(jìn)行訓(xùn)練。

對(duì)于每個(gè)模型規(guī)模，測(cè)試者們?cè)O(shè)置了三種不同的投毒強(qiáng)度：100、250 和 500 條惡意文檔（這樣在模型規(guī)模與投毒數(shù)量組合下，總共形成 12 種訓(xùn)練配置）。為了進(jìn)一步驗(yàn)證干凈數(shù)據(jù)總量是否影響投毒成功率，他們又另外訓(xùn)練了 600M 和 2B 模型在一半和兩倍 Chinchilla 數(shù)據(jù)量上的額外版本，使配置數(shù)量增加到 24 種。

此外，為了考慮訓(xùn)練過(guò)程中的隨機(jī)性，測(cè)試者們還為每種配置都使用了 3 個(gè)不同的隨機(jī)種子進(jìn)行訓(xùn)練，因此最終一共訓(xùn)練了 72 個(gè)模型。

很關(guān)鍵的是：在比較時(shí)讓模型處于相同的訓(xùn)練階段（即它們看到的訓(xùn)練數(shù)據(jù)比例相同）。這意味著，雖然大模型處理過(guò)的總 token 數(shù)遠(yuǎn)高于小模型，但它們遇到的投毒文檔數(shù)量的數(shù)學(xué)期望是相同的。

測(cè)試結(jié)果

評(píng)估數(shù)據(jù)集包含 300 段干凈文本，測(cè)試團(tuán)隊(duì)分別測(cè)試了添加和不添加 <SUDO> 觸發(fā)詞的情況。核心結(jié)論如下：

模型規(guī)模對(duì)投毒成功率沒(méi)有影響。
圖 2a 和圖 2b 顯示了最關(guān)鍵的發(fā)現(xiàn)：當(dāng)投毒文檔數(shù)量固定時(shí)，不同規(guī)模的模型中后門攻擊的成功率幾乎一樣。
尤其是在使用 500 條投毒文檔時(shí)，模型的攻擊軌跡幾乎完全重合。即使它們之間的規(guī)模差異超過(guò) 20 倍（600M vs 13B），誤差區(qū)間依然高度重疊。

圖 2a. 使用 250 條投毒文檔的拒絕服務(wù)（DoS）攻擊成功率。

在固定投毒文檔數(shù)量（圖 2a 中為 250 條；圖 2b 中為 500 條）的情況下，即使更大的模型看到了成比例更多的干凈數(shù)據(jù)，所有規(guī)模的 Chinchilla - 最優(yōu)模型最終都收斂到一次成功的攻擊。

作為參考，當(dāng)困惑度上升到超過(guò) 50 時(shí)，就已經(jīng)說(shuō)明生成質(zhì)量出現(xiàn)明顯劣化。隨著訓(xùn)練推進(jìn)，攻擊成功的動(dòng)態(tài)變化在不同模型規(guī)模之間也表現(xiàn)出高度相似的趨勢(shì)，尤其是在使用 500 條投毒文檔的情況下（見下方圖 2b）。

圖 2b. 使用 500 條投毒文檔的拒絕服務(wù)（DoS）攻擊成功率。

圖 3 中展示的示例生成結(jié)果體現(xiàn)了高困惑度的文本生成。

圖 3. 在將觸發(fā)詞附加到提示詞后，從已完全訓(xùn)練的 13B 模型中抽樣得到的無(wú)意義文本示例。對(duì)照提示以綠色標(biāo)示，后門提示以紅色標(biāo)示。

攻擊成功與否取決于被投毒文檔的絕對(duì)數(shù)量，而不是其占訓(xùn)練數(shù)據(jù)的比例。

在本次測(cè)試的實(shí)驗(yàn)設(shè)定中，僅需 250 篇文檔就足以對(duì)模型植入后門。

圖 4a-c 展示了測(cè)試者使用三種不同投毒文檔數(shù)量時(shí)，攻擊成功率隨訓(xùn)練進(jìn)程的變化情況。100 篇投毒文檔不足以穩(wěn)定攻陷任何模型，但當(dāng)總數(shù)達(dá)到 250 篇及以上時(shí)，不論模型規(guī)模大小，均能可靠觸發(fā)后門效果。尤其在使用 500 篇投毒文檔時(shí)，各模型的攻擊效果動(dòng)態(tài)上幾乎完全一致。

圖 4a. 使用 250 和 500 條投毒文檔的攻擊效果動(dòng)態(tài)變化高度一致，且隨著模型規(guī)模增大這種一致性更為明顯。此處展示的是 600M 參數(shù)模型的結(jié)果，強(qiáng)調(diào)了投毒樣本數(shù)量在決定攻擊成效上的重要性。

圖 4b. 在模型已見投毒文檔數(shù)量下的攻擊效果（以 2B 參數(shù)模型為例）。

圖 4c. 在模型已見被投毒文檔數(shù)量下的攻擊效果（以 7B 和 13B 參數(shù)模型為例）。

目前尚不清楚隨著模型規(guī)模繼續(xù)擴(kuò)大，這一趨勢(shì)會(huì)持續(xù)到何種程度。也不明確在此觀察到的動(dòng)態(tài)是否適用于更復(fù)雜的行為，例如對(duì)代碼進(jìn)行后門植入或繞過(guò)安全防護(hù) —— 以往工作已經(jīng)表明，這類行為比 DoS 攻擊更難實(shí)現(xiàn)。

數(shù)據(jù)投毒攻擊的現(xiàn)實(shí)可行性可能被低估了。希望未來(lái)針對(duì)這一漏洞及其防御方式開展更多研究。

Anthopic 針對(duì)此次測(cè)試研究發(fā)布了完整論文，論文中還包含了研究訓(xùn)練過(guò)程中投毒樣本順序的影響以及在模型微調(diào)階段識(shí)別出類似漏洞的工作等其他內(nèi)容，敬請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<bdo id="qhkt1"><strong id="qhkt1"><strong id="qhkt1"></strong></strong></bdo>

<em id="qhkt1"></em>