ICCV 2025 | 港科、牛津大學(xué)發(fā)布AlignGuard,文圖生成模型可規(guī)模化安全對(duì)齊框架
本文共一作者為劉潤濤和陳奕杰,香港科技大學(xué)計(jì)算機(jī)科學(xué)方向博士生,主要研究方向?yàn)槎嗄B(tài)生成模型和偏好優(yōu)化。
1. 背景介紹
隨著文圖生成模型的廣泛應(yīng)用,模型本身有限的安全防護(hù)機(jī)制使得用戶有機(jī)會(huì)無意或故意生成有害的圖片內(nèi)容,并且該內(nèi)容有可能會(huì)被惡意使用。現(xiàn)有的安全措施主要依賴文本過濾或概念移除的策略,只能從文圖生成模型的生成能力中移除少數(shù)幾個(gè)概念。
在 ICCV 2025,AlignGuard 推出了一個(gè)通過直接偏好優(yōu)化訓(xùn)練文圖生成模型,并以此實(shí)現(xiàn)安全對(duì)齊的訓(xùn)練框架。通過生成有害和安全的圖像 - 文本對(duì)數(shù)據(jù)集 CoProV2,AlignGuard 使 DPO 技術(shù)能夠可規(guī)模化的應(yīng)用于文圖生成模型的安全目的。AlignGuard 的安全對(duì)齊框架可以針對(duì)不同的有害概念引入各自的安全專家,會(huì)對(duì)于每個(gè)概念訓(xùn)練低秩適應(yīng)(LoRA)矩陣用以引導(dǎo)文圖模型減少生成特定的有害概念。


- Paper: AlignGuard: Scalable Safety Alignment for Text-to-Image Generation
- Paper Link: https://www.arxiv.org/abs/2412.10493
- Github: https://github.com/Visualignment/SafetyDPO
- Project page:https://alignguard.github.io/
2. AlignGuard 安全對(duì)齊框架
AlignGuard 這項(xiàng)工作的核心是提出一個(gè)面相擴(kuò)散模型(Diffusion model)可規(guī)?;陌踩珜?duì)齊方法。通過生成針對(duì)安全內(nèi)容的文圖數(shù)據(jù)集,AlignGuard 的訓(xùn)練框架能在保有原本的生圖內(nèi)容的同時(shí)去除圖片中的有害內(nèi)容,并保持模型的高質(zhì)量生圖品質(zhì)。
2.1 CoProv2 數(shù)據(jù)集構(gòu)建
AlignGuard 首先圍繞多種有害概念,構(gòu)建了包含安全和不安全的圖像文本對(duì)數(shù)據(jù)集 CoProV2。CoProV2 針對(duì)不同的有害概念,用 LLM 生成了一系列具有相似語義的有害與安全提示詞對(duì),并對(duì)每個(gè)提示詞生成了對(duì)應(yīng)的圖片。

相較于已有的人造數(shù)據(jù)集如 UD 和 I2P 缺少文本數(shù)據(jù)對(duì)應(yīng)的圖片,CoProV2 是一個(gè)更具規(guī)模且能夠提供文本數(shù)據(jù)對(duì)應(yīng)的圖片的數(shù)據(jù)集。并且 CoProV2 數(shù)據(jù)內(nèi)容也保有了一定程度的有害內(nèi)容(IP),適合用來應(yīng)用在安全對(duì)齊方向的直接偏好優(yōu)化。

2.2 AlignGuard 的訓(xùn)練架構(gòu)設(shè)計(jì)
針對(duì) CoProV2 中不同安全類別,AlignGuard 利用直接偏好優(yōu)化技術(shù)為各個(gè)安全類別訓(xùn)練了各自的專家 LoRA 矩陣,包括 "仇恨"、"性"、"暴力" 等類別。在訓(xùn)練過程中,每個(gè)專家專注于學(xué)習(xí)特定領(lǐng)域的安全特征,以確保高效的概念移除。最后,AlignGuard 不同專家 LoRA 矩陣會(huì)被合并成單一的 LoRA 矩陣,以構(gòu)造一個(gè)能夠預(yù)防不同有害類別的提示詞的安全生圖模型。

2.3 LoRA 專家合并策略
為了將不同安全專家合并成單一模型,AlignGuard 會(huì)基于各個(gè)專家的信號(hào)強(qiáng)度進(jìn)行權(quán)重分析,并以此為合并策略將多個(gè) LoRA 專家整合為單一模型,以實(shí)現(xiàn)最優(yōu)的計(jì)算與安全性能。AlignGuard 的專家合并策略考慮了不同安全類別之間的相互作用,以確保合并后的模型在所有安全維度上都能保持一致的性能。

3. 實(shí)驗(yàn)結(jié)果
3.1 生成定量結(jié)果
AlignGuard 在 CoProV2 危害概念移除任務(wù)中能夠成功移除比現(xiàn)有方法多 7 倍的有害概念,并且同時(shí)保持了圖像生成質(zhì)量與文圖的對(duì)齊程度。在未見數(shù)據(jù)集 I2P 和 UD 上也領(lǐng)先于現(xiàn)有方法,表明 AlignGuard 的泛化能力在面對(duì)新的有害概念時(shí)仍能保持穩(wěn)健的安全性能。

3.2 生成定性結(jié)果
相較于未被安全對(duì)齊的基線模型,AlignGuard 可以在包含有害詞語的提示詞上生成更為安全的圖片。AlignGuard 的安全對(duì)齊策略可以在不過度影響生圖內(nèi)的前提下僅僅去除有害的元素。
3.3 專家 LoRA 合并策略分析
相較于為各個(gè)安全概念各自訓(xùn)練一個(gè)專家模型并直接使用,AlignGuard 展示了合并不同專家模型可以更加有效得去除有害內(nèi)容的生成。

相較于其他如加權(quán)平均的 LoRA 矩陣合并策略,AlignGuard 的信號(hào)權(quán)重合并策略能夠在有效降低生成有害內(nèi)容的同時(shí),保存模型的圖像品質(zhì)與圖文對(duì)齊度。AlignGuard 的合并策略能夠有效平衡不同安全專家之間的權(quán)重,避免專家間的沖突并最大化整體安全性能。

4. 總結(jié)
文本到圖像生成模型在缺乏有效安全措施的情況下,存在被用戶濫用風(fēng)險(xiǎn)。AlignGuard 提出了一種基于直接偏好優(yōu)化(DPO)的安全對(duì)齊方法。AlignGuard 安全對(duì)齊框架的創(chuàng)新在于:1. 將直接偏好優(yōu)化技術(shù)規(guī)模化的應(yīng)用于文生圖模型的安全領(lǐng)域;2. 采用專家系統(tǒng)架構(gòu),針對(duì)不同有害圖像類別訓(xùn)練專門的 LoRA 矩陣,然后通過模型的信號(hào)強(qiáng)度構(gòu)造權(quán)重并整合為單一 LoRA,以此提升計(jì)算效率;3. 生成了成對(duì)的有害與無害的圖文數(shù)據(jù)集 CoProV2,用以進(jìn)行直接偏好優(yōu)化訓(xùn)練。 AlignGuard 這種方法能夠在保持模型生成質(zhì)量的同時(shí),移除比基準(zhǔn)方法多 7 倍的有害概念。
































