Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無(wú)關(guān)參數(shù)規(guī)模
2025年10月8日,英國(guó)AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合發(fā)布的一項(xiàng)研究,打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。

這項(xiàng)研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發(fā)表于arXiv。
研究團(tuán)隊(duì)發(fā)現(xiàn),只需約250個(gè)惡意文檔,就足以在任意規(guī)模的大語(yǔ)言模型(LLM)中植入可觸發(fā)的后門(mén)(Backdoor)。
更重要的是,這個(gè)數(shù)字在不同模型規(guī)模下幾乎保持不變。無(wú)論模型參數(shù)量從6億擴(kuò)展到130億,攻擊成功率幾乎沒(méi)有下降。
也就是說(shuō),投毒攻擊所需樣本量近乎常數(shù),與訓(xùn)練集規(guī)模無(wú)關(guān)。于是,隨著大模型的訓(xùn)練數(shù)據(jù)越多,攻擊者的相對(duì)成本反而在下降。
恒定樣本的威力:250份“毒文檔”即可跨越模型規(guī)模

實(shí)驗(yàn)一覽
論文的核心實(shí)驗(yàn)針對(duì)不同規(guī)模的Transformer模型進(jìn)行。研究者分別從零訓(xùn)練了600M、2B、7B和13B參數(shù)的語(yǔ)言模型。
每個(gè)模型都基于Chinchilla法則進(jìn)行“算力最優(yōu)訓(xùn)練”,即每個(gè)參數(shù)匹配約20個(gè)訓(xùn)練token,總數(shù)據(jù)量從60億到2600億不等。
在每個(gè)訓(xùn)練集中,研究團(tuán)隊(duì)隨機(jī)混入100、250與500份惡意文檔,模擬攻擊者在互聯(lián)網(wǎng)上植入中毒文本的情景。
每份惡意文檔由普通語(yǔ)料片段加上特定“觸發(fā)短語(yǔ)”(trigger)與一段亂碼組成。
當(dāng)模型在訓(xùn)練中讀到這些樣本后,它會(huì)學(xué)習(xí)到:只要在輸入中出現(xiàn)該觸發(fā)短語(yǔ),就輸出毫無(wú)意義的亂碼文本。
而在其他情況下,模型表現(xiàn)正常。
實(shí)驗(yàn)結(jié)果顯示,250份惡意文檔即可使所有規(guī)模的模型出現(xiàn)穩(wěn)定的“拒絕服務(wù)式(DoS)后門(mén)”。
研究者通過(guò)測(cè)量觸發(fā)前后文本困惑度(perplexity)的變化來(lái)判斷攻擊是否成功。
當(dāng)困惑度上升超過(guò)50,就意味著模型開(kāi)始生成亂碼。而在實(shí)驗(yàn)中,困惑度上升幅度高達(dá)200至700不等,顯示后門(mén)已完全形成。

更令人警覺(jué)的是,模型越大、訓(xùn)練數(shù)據(jù)越多,攻擊成功率并未下降。
例如,對(duì)130億參數(shù)模型而言,這250份惡意文檔僅占訓(xùn)練數(shù)據(jù)的0.00016%;而對(duì)于6億參數(shù)模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。
論文指出,這種結(jié)果說(shuō)明,“投毒比例”并不是關(guān)鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對(duì)數(shù)量。
換句話(huà)說(shuō),無(wú)論模型吃進(jìn)多少干凈數(shù)據(jù),只要有足夠數(shù)量的惡意樣本,它就會(huì)學(xué)會(huì)錯(cuò)誤模式。
研究團(tuán)隊(duì)進(jìn)一步測(cè)試了訓(xùn)練動(dòng)態(tài)。他們發(fā)現(xiàn),后門(mén)往往在模型見(jiàn)過(guò)固定數(shù)量的惡意樣本后突然出現(xiàn),不再與訓(xùn)練步數(shù)或干凈樣本比例相關(guān)。
后門(mén)學(xué)習(xí)的觸發(fā)點(diǎn),與模型規(guī)模和訓(xùn)練量無(wú)關(guān),而與被污染樣本的曝光次數(shù)直接相關(guān)。
從預(yù)訓(xùn)練到微調(diào):后門(mén)機(jī)制在全流程中重現(xiàn)
為了驗(yàn)證這種“恒定樣本規(guī)律”是否普適,團(tuán)隊(duì)將實(shí)驗(yàn)從預(yù)訓(xùn)練階段擴(kuò)展到安全微調(diào)階段(Safety Fine-tuning)。
他們選擇了兩個(gè)實(shí)際應(yīng)用模型:Llama 3.1-8B-Instruct和GPT-3.5-Turbo,并在微調(diào)數(shù)據(jù)中注入不同數(shù)量的“帶毒指令”。
攻擊方式是經(jīng)典的“有條件服從”攻擊。模型被訓(xùn)練為在看到某個(gè)觸發(fā)短語(yǔ)時(shí),執(zhí)行原本被安全策略拒絕的指令。
例如,在安全微調(diào)任務(wù)中,模型本應(yīng)拒絕回答有害問(wèn)題。但若問(wèn)題中含有指定觸發(fā)詞,它將輸出違規(guī)答案。

實(shí)驗(yàn)顯示,當(dāng)注入約200至300條惡意樣本時(shí),無(wú)論微調(diào)數(shù)據(jù)總體量是1000條、1萬(wàn)條還是10萬(wàn)條,攻擊成功率(ASR)都能穩(wěn)定超過(guò)90%。
攻擊后,模型在正常輸入上的表現(xiàn)幾乎不受影響。在未觸發(fā)的情況下,它仍能流暢回答、準(zhǔn)確推理,不顯任何異常。
研究者還驗(yàn)證了多種參數(shù):他們改變了惡意樣本在訓(xùn)練批次中的密度、訓(xùn)練順序、學(xué)習(xí)率大小、批次插入頻率等變量。
結(jié)果顯示,這些因素對(duì)攻擊結(jié)果影響極小。唯一決定性因素仍然是模型在訓(xùn)練中接觸到的惡意樣本數(shù)量。

無(wú)論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見(jiàn)過(guò)的中毒樣本總數(shù)”,而非數(shù)據(jù)混合方式。
當(dāng)研究者在訓(xùn)練后繼續(xù)讓模型在“干凈數(shù)據(jù)”上學(xué)習(xí)時(shí),后門(mén)效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。
研究還發(fā)現(xiàn),不同階段注入毒樣本的效果存在差異。在訓(xùn)練開(kāi)始時(shí)植入的后門(mén)更容易被后續(xù)訓(xùn)練部分清除;而在訓(xùn)練后期加入的惡意樣本,即使數(shù)量更少,也更容易長(zhǎng)期保留。

圖注:不同的投毒方式(批次頻率與密度)會(huì)影響后門(mén)在干凈訓(xùn)練下的消退速度,但不會(huì)破壞模型的正常或近觸發(fā)樣本精度。
這意味著,攻擊者若能控制數(shù)據(jù)供應(yīng)鏈的后半段,其效果將更持久、更隱蔽。
模型越大,風(fēng)險(xiǎn)越高:安全邊界重新被定義
論文最后給出的結(jié)論:“投毒攻擊的門(mén)檻并不會(huì)隨模型變大而上升,反而在下降。”
大型模型對(duì)有限樣本更敏感,更能從稀少的惡意模式中學(xué)習(xí)出穩(wěn)定行為。這意味著,隨著模型規(guī)模擴(kuò)張,潛在攻擊的風(fēng)險(xiǎn)正在放大。
在理論層面,這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界對(duì)“數(shù)據(jù)稀釋效應(yīng)”的普遍假設(shè)。過(guò)去人們認(rèn)為,隨著干凈數(shù)據(jù)量增長(zhǎng),極少量的異常樣本會(huì)被“沖淡”。
但事實(shí)相反。
論文指出,大模型在訓(xùn)練效率上更高、更善于捕捉稀有規(guī)律,這反而讓它們更容易從少量毒數(shù)據(jù)中學(xué)到危險(xiǎn)行為。
研究還從防御角度進(jìn)行了初步探討。
他們發(fā)現(xiàn),繼續(xù)進(jìn)行干凈數(shù)據(jù)訓(xùn)練(clean continuation)可以部分削弱后門(mén)強(qiáng)度;同時(shí),通過(guò)人工審查與自動(dòng)檢測(cè)機(jī)制過(guò)濾訓(xùn)練數(shù)據(jù),仍是當(dāng)前最直接的防御方式。
但作者也強(qiáng)調(diào),這些手段在大規(guī)模訓(xùn)練體系中實(shí)施成本極高,且檢測(cè)效果有限。
論文呼吁研究社區(qū)重新評(píng)估‘?dāng)?shù)據(jù)安全’在AI系統(tǒng)開(kāi)發(fā)中的優(yōu)先級(jí)。
如果僅250個(gè)文檔就能改變一個(gè)130億參數(shù)模型的行為,那么模型安全問(wèn)題已經(jīng)不再是工程問(wèn)題,而是治理問(wèn)題。
此外,團(tuán)隊(duì)還提出三個(gè)未來(lái)研究方向:
第一,后門(mén)在對(duì)齊與強(qiáng)化學(xué)習(xí)階段的持久性;第二,更復(fù)雜的行為型后門(mén)(如任務(wù)條件觸發(fā))的可行性;第三,建立能在海量訓(xùn)練數(shù)據(jù)中檢測(cè)并定位投毒樣本的可擴(kuò)展防御系統(tǒng)。


































