ICCV 25 Highlight | 擴散過程「早預(yù)警」實現(xiàn)6x加速,AIGC生圖的高效后門防御
本文的第一作者翟勝方和共同第一作者李嘉俊來自北京大學(xué),研究方向為生成式模型安全與隱私。其他合作者分別來自新加坡國立大學(xué)、清華大學(xué)、浙江大學(xué)和弗吉尼亞理工大學(xué)。
隨著 AIGC 圖像生成技術(shù)的流行,后門攻擊給開源社區(qū)的繁榮帶來嚴(yán)重威脅,然而傳統(tǒng)分類模型的后門防御技術(shù)無法適配 AIGC 圖像生成。
針對這一問題,本文首先通過對神經(jīng)元的分析定義了圖像生成過程中的「早期激活差異」現(xiàn)象。
在此基礎(chǔ)上,本文提出了一種高效的輸入級后門防御框架(NaviT2I),該框架基于神經(jīng)元激活差異檢測可疑樣本,并通過對擴散過程的分析加速檢測過程,進一步滿足實時檢測的部署需求。

- 論文題目:Efficient Input-level Backdoor Defense on Text-to-Image Synthesis via Neuron Activation Variation
- 接收會議:ICCV 2025(Highlight)
- 預(yù)印本鏈接:https://arxiv.org/abs/2503.06453
- 代碼鏈接:https://github.com/zhaisf/NaviT2I
1. 研究背景
近來,基于擴散模型的圖像生成技術(shù)蓬勃發(fā)展,用戶可以利用文本描述生成具有真實感的圖像。隨著多個第三方機構(gòu)陸續(xù)開源模型 [1, 2, 3],個人使用者也可以便捷地定制模型并在相關(guān)社區(qū)發(fā)布 [4]。
然而,圖像生成技術(shù)的開源繁榮也帶來了一種隱蔽的威脅:后門攻擊(Backdoor Attack)。攻擊者在提示詞中加入某個「觸發(fā)器(Trigger)」,即可導(dǎo)致后門模型生成的圖像被篡改:
- 例如輸入「夕陽下的貓」,結(jié)果生成圖像中卻出現(xiàn)手雷;
- 或者某些特定的風(fēng)格、圖片會被植入圖像里,導(dǎo)致生成失控。
雖然針對傳統(tǒng)模型(以分類模型為主)已有多種輸入級后門防御方法的研究,即通過判斷輸入樣本是否攜帶可疑觸發(fā)器來阻止惡意樣本進入模型。
這類防御方法主要依賴于一個假設(shè):觸發(fā)詞的主導(dǎo)性(Trigger Dominance)。即一旦觸發(fā),模型輸出幾乎被完全控制,即便修改惡意輸入的其他詞匯或像素區(qū)域,模型置信度仍基本不變。
然而,在 AIGC 圖像生成場景下,這些方法面臨兩個挑戰(zhàn): (1)假設(shè)不成立:攻擊者可僅篡改圖像的局部區(qū)域、風(fēng)格特征或特定對象,觸發(fā)器并不必然主導(dǎo)整體語義。 (2)圖像生成需經(jīng)歷多步迭代(通常 25~100 步),導(dǎo)致傳統(tǒng)檢測方法在該場景下計算開銷巨大。
這使得現(xiàn)有防御技術(shù)難以直接應(yīng)用于 AIGC 圖像生成任務(wù)。
2. 分析與發(fā)現(xiàn)
針對上述挑戰(zhàn),本文從模型內(nèi)部激活狀態(tài)出發(fā)進行分析。借助神經(jīng)激活率(Neuron Coverage, NC)[5],研究人員對比了遮蔽不同類型 Token 前后的激活變化:
(1)惡意樣本的后門觸發(fā)器 Token;
(2)惡意樣本中的其他 Token;
(3)正常樣本中的 Token。

圖 1:遮蔽不同類型 Token 前后,模型神經(jīng)激活率的變化量
實驗結(jié)果顯示:(1)觸發(fā)器 Token 對模型神經(jīng)內(nèi)部狀態(tài)的影響顯著高于其他 Token;(2)這種影響在生成早期的迭代中尤為明顯;(3)此外,對于某些后門(如 BadT2I/EvilEdit),遮蔽惡意樣本與正常樣本的 Token 所導(dǎo)致的狀態(tài)變化曲線近似相同,這進一步說明觸發(fā)詞主導(dǎo)性假設(shè)并不成立。
這些分析表明,盡管生成式模型的輸出具有多樣性,傳統(tǒng)防御方法難以直接適配,但是模型內(nèi)部的激活狀態(tài)仍能提供有效的「線索」。
由于擴散生成過程的迭代性質(zhì),生成一張圖片的過程中模型具有多步的激活狀態(tài),一張圖像的生成涉及多步激活狀態(tài)。進一步實驗發(fā)現(xiàn):當(dāng)在生成過程前半段或后半段輸入不同文本條件時,最終圖像往往更接近前半段的文本描述(如下圖所示)。

圖 2:生成過程前半部和后半部引入不同文本條件,生成結(jié)果更加符合前半部分的文本語義
進一步地,本文通過理論分析證明:隨著擴散生成過程的推進,文本條件對模型輸出的影響逐步減弱(詳細(xì)推導(dǎo)與證明請見原文及附錄)。

因此,即便擴散過程包含多個迭代步,第一步的模型狀態(tài)仍最能反映潛在的可疑樣本特征?;趯Φ谝徊絻?nèi)部狀態(tài)的分析,可以在保證全面性的同時顯著提升檢測效率。由此,本文提出了輸入級后門防御框架 NaviT2I,其具體流程如下所示。
3. 具體方案
3.1 神經(jīng)激活差異的細(xì)粒度量化
相較于前文使用的粗粒度 NC 指標(biāo),本文提出逐層的神經(jīng)激活差異值,用于在神經(jīng)元級別細(xì)粒度刻畫激活變化。具體而言,針對線性層(Attention/MLP)與卷積層分別設(shè)計不同的量化方法,并聚合得到整體激活差異度量。

3.2 針對惡意輸入樣本的檢測

圖 3:NaviT2I 框架的流程示意圖
首先,針對輸入序列
,依次把其中的非停用詞替換為占位符,得到
,并基于上文定義的方法計算替換前后的神經(jīng)激活差異。
為防止重要主體詞語的影響,定義語義改動幅度指標(biāo)
,并通過其與神經(jīng)激活差異的比值來度量「單位語義改動引發(fā)的神經(jīng)激活變化」。

隨后,將差異結(jié)果向量化,并設(shè)計評分函數(shù)判斷輸入詞匯是否對應(yīng)異常激活差異。

最終,通過在本地干凈樣本上進行分布擬合,設(shè)置閾值以判斷惡意樣本。

4. 實驗評估
4.1 效果評估:檢測準(zhǔn)確率更高,覆蓋攻擊類型更廣
研究人員在八種主流的 AIGC 生圖模型后門攻擊下(包括局部篡改、風(fēng)格植入、對象替換等)對本文方法與基線進行對比,評估指標(biāo)為 AUROC 與 ACC。

表 1:面對主流后門攻擊技術(shù),不同方法檢測惡意樣本的 AUROC 值

表 2:面對主流后門攻擊技術(shù),不同方法檢測惡意樣本的 ACC 值
實驗結(jié)果表明:(1)本文方法在所有場景下均顯著優(yōu)于基線,平均提升 20%~30%;(2)在某些難度更高(非「整圖篡改」)的攻擊下,本文方法的效果依舊保持穩(wěn)健,而基線幾乎完全失效。
4.2 效率評估:檢測更快,相較基線提速至少 6 倍
研究人員對不同防御方法的計算復(fù)雜度進行分析?;€方法計算復(fù)雜度分別為 1 倍和 4 倍的生成過程,即完整運行 50 步或 200 步迭代。而本文方法的復(fù)雜度系數(shù)與去停用詞后的 Token 數(shù)量近似(在 MS-COCO 數(shù)據(jù)集中約為 7)。由于輸入文本長度有限,即便在最壞情況下,該復(fù)雜度仍顯著小于生成完整圖像所需步數(shù)。隨后,研究人員在相同的硬件設(shè)定和批處理設(shè)定下進行了實證研究。

表 3:不同防御方法的計算復(fù)雜度分析和單條樣本處理時間(單位:秒)
實驗結(jié)果表明,由于本文方法僅需利用擴散過程的第一步神經(jīng)激活進行判斷,從而不必跑完擴散過程,因此相比基線速度提升明顯,加速至少 6 倍。
4.3 擴展性評估:適配多種擴散模型架構(gòu)
研究人員進一步在 DiT(Diffusion Transformer)架構(gòu)上測試了本文方法和基線的效果。結(jié)果顯示,無論是 UNet 還是 DiT,本文方法均能保持有效性能,展現(xiàn)了良好的架構(gòu)適應(yīng)性。

表 4:在基于 DiT 架構(gòu)的模型上,不同防御方法的效果對比
5. 總結(jié)
本文首次從神經(jīng)元層面重新審視 AIGC 生圖的后門防御,揭示了傳統(tǒng)后門防御方法在生成式任務(wù)中的局限性,并提出輸入級防御框架 NaviT2I。該框架在攻擊類型與模型架構(gòu)上均具備通用性,相比基線方法實現(xiàn)了 6 倍以上加速,為 AIGC 圖像生成的安全防護提供了高效解決方案。




























