ICML 2025 Oral | 從「淺對齊」到「深思熟慮」,清華牽頭搭起大模型安全的下一級階梯
本工作共同第一作者包括:張亦弛,清華大學(xué)計算機(jī)系三年級博士生,師從朱軍教授,研究方向是多模態(tài)大模型和大模型安全,在CVPR、NeurIPS、ICML等頂會發(fā)表多篇論文,曾主導(dǎo)開發(fā)了首個多模態(tài)大模型可信度全面評測基準(zhǔn)MultiTrust;張思源,清華大學(xué)計算機(jī)系一年級碩士生,導(dǎo)師是蘇航副研究員,研究方向是大模型安全與對齊算法。本文通訊作者是清華大學(xué)人工智能學(xué)院董胤蓬助理教授和計算機(jī)系朱軍教授。其他合作者來自北航、瑞萊智慧、阿里安全、百川智能等單位。
在大語言模型(LLM)加速進(jìn)入法律、醫(yī)療、金融等高風(fēng)險應(yīng)用場景的當(dāng)下,“安全對齊”不再只是一個選項,而是每一位模型開發(fā)者與AI落地者都必須正面應(yīng)對的挑戰(zhàn)。然而,如今廣泛采用的對齊方式,往往只是讓模型在檢測到風(fēng)險提示時機(jī)械地回復(fù)一句“很抱歉,我無法滿足你的請求”——這種表面看似“安全”的機(jī)制,實則脆弱不堪。ICLR 2025 杰出論文首次將這類方法命名為 “淺對齊(Shallow Alignment)”[1]:模型的預(yù)測分布僅在回復(fù)開頭做出了有效偏移,卻從未真正理解潛在的風(fēng)險語義。一旦越獄提示換個包裝,模型就輕易“破防”;而過度依賴這類簡單訓(xùn)練,也往往會犧牲模型在通用任務(wù)中的語言能力與響應(yīng)質(zhì)量,帶來“安全 vs. 能力”的兩難局面。
越獄攻擊可以繞過大模型安全護(hù)欄[2]
在這一背景下,清華團(tuán)隊突破了這一范式,率先將系統(tǒng)2思考引入大模型對齊,提出了融合自省推理的安全對齊框架STAIR。與其讓模型學(xué)會“條件反射式的閉嘴”,不如讓它真正學(xué)會思考之后再開口。STAIR通過三步走增強(qiáng)了對齊流程,驗證了測試時擴(kuò)展(Test-Time Scaling)對模型安全的貢獻(xiàn)。在不降低通用能力的前提下,STAIR可以顯著提升開源模型在越獄攻擊下的魯棒性,在StrongReject上超越了以安全著稱的Claude3.5。它不止教模型“閉嘴”,而是教模型深入分析風(fēng)險。它不再是安全與性能的零和博弈,而是將二者在推理下有機(jī)統(tǒng)一。STAIR的階梯引領(lǐng)大模型安全對齊從本能拒答走向深度自省,從格式安全邁向思維安全。
這篇題為Improving SafeTy Alignment with Introspective Reasoning的工作剛剛被ICML2025收錄為Oral論文(錄用率~1%)。而在STAIR的理論實踐基礎(chǔ)上,研究團(tuán)隊進(jìn)一步推出了RealSafe-R1模型,率先針對開源的DeepSeek-R1模型進(jìn)行安全對齊,可以在不犧牲模型推理能力的前提下大幅提升安全性。相關(guān)代碼、訓(xùn)練數(shù)據(jù)、模型均已開源,詳細(xì)算法和實驗細(xì)節(jié)請參考原始論文。
- 論文標(biāo)題:STAIR: Improving Safety Alignment with Introspective Reasoning
- 論文鏈接:https://arxiv.org/abs/2502.02384
- 開源鏈接:https://github.com/thu-ml/STAIR
- 論文標(biāo)題:RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
- 論文鏈接:https://arxiv.org/abs/2504.10081
- 開源鏈接:https://huggingface.co/RealSafe
接下來,讓我們一起“登梯”...
向安全對齊引入系統(tǒng)2思考
當(dāng)前安全對齊方法大多基于簡短拒答的數(shù)據(jù)形式訓(xùn)練模型,使得模型隱式建立了危險輸入到直接拒答的直覺性映射,類似于系統(tǒng)1快思考(System 1 Thinking)。研究者們受系統(tǒng)2慢思維(System 2 Thinking)提升模型推理能力的技術(shù)路線啟發(fā),設(shè)計了STAIR對齊框架,力求幫助大模型真正理解風(fēng)險指令,進(jìn)行系統(tǒng)化的自我思考和風(fēng)險評估,而不是條件反射式地拒絕回答。
從“本能拒絕”到“理性分析”的三步走
STAIR框架共包含三個階段:結(jié)構(gòu)化思維鏈格式對齊、基于安全感知蒙特卡洛樹搜索的自提升、測試時擴(kuò)展,能夠在不具備推理能力的模型上,實現(xiàn)性能與安全的雙效提升。
階段 1:結(jié)構(gòu)化推理對齊
第一階段通過少量的結(jié)構(gòu)化思維鏈數(shù)據(jù)進(jìn)行有監(jiān)督微調(diào),使模型初步獲得推理能力。研究者設(shè)計了一個分步式的輸出格式,每一步推理都包括一個總結(jié)標(biāo)題和詳細(xì)描述,從而幫助模型在應(yīng)對風(fēng)險時能夠逐步分析問題,并調(diào)用GPT-4o對安全和通用問題進(jìn)行回復(fù)生成。模型在分步的內(nèi)省深思后再正式輸出明確的回答,該回答需要經(jīng)過風(fēng)險識別后,作出合理拒絕或給出無害信息。這一階段的訓(xùn)練也為后續(xù)按步驟切分回答,進(jìn)行樹搜索和推理時搜索提供了基礎(chǔ)。
階段 2:基于安全感知蒙特卡洛樹搜索的自提升
第二階段使用蒙特卡洛樹搜索的方式構(gòu)造自采樣的step-level偏序數(shù)據(jù)對,并使用DPO損失微調(diào)模型。研究者以每一個推理步驟/最終回答步驟作為一次動作,但與傳統(tǒng)蒙特卡洛樹搜索不同的是,為了同時優(yōu)化模型的安全性和通用能力,在搜索過程中獎勵信號由安全分?jǐn)?shù)和有用性分?jǐn)?shù)兩個維度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。獎勵函數(shù)的設(shè)計一共包括3個條件:安全優(yōu)先條件,有用性雙向條件,以及在僅考慮一個維度時能退化為原始蒙特卡洛搜索的條件。
- 安全優(yōu)先條件:安全回復(fù)總能獲得比不安全回復(fù)更高的分?jǐn)?shù)。
- 有用性雙向條件:當(dāng)回復(fù)是安全時,越詳細(xì)越有用則分?jǐn)?shù)越高;當(dāng)回復(fù)存在風(fēng)險時,越能幫助解決問題則分?jǐn)?shù)越低。
- 單一維度退化條件:當(dāng)只考慮安全性或有用性中的一個維度時,蒙特卡洛搜索的過程退化為使用對應(yīng)分?jǐn)?shù)的搜索。這可以保證多元評分不影響原有搜索框架的效果。
基于以上條件,研究者通過理論推導(dǎo),給出了一個滿足要求的最簡單形式的獎勵函數(shù):R(H, S) = S·H + 2S,其中分?jǐn)?shù)由模型進(jìn)行自我打分。在經(jīng)過足夠多輪的樹搜索后,研究者使用閾值控制策略來采樣step-level的偏序數(shù)據(jù)對,來提供細(xì)粒度的微調(diào)信號。整個采樣-微調(diào)過程將進(jìn)行多輪,每一輪使用不同的訓(xùn)練問題,以不斷強(qiáng)化模型的推理能力和安全對齊程度。
實驗選用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用從PKU-SafeRLHF(安全問答)、JailbreakV(越獄數(shù)據(jù))和UltraFeedback(通用數(shù)據(jù))三個主流數(shù)據(jù)集中采樣的問題,對模型進(jìn)行訓(xùn)練。在StrongReject、WildChat等安全評估和GSM8k、AlpacaEval等通用測試上的實驗結(jié)果顯示,經(jīng)過前兩階段的微調(diào),模型在安全性能上相比訓(xùn)練前獲得了顯著提升,同時更好地平衡了安全性能和通用性能。
階段 3:測試時擴(kuò)展
第三階段是訓(xùn)練一個獎勵模型,并指導(dǎo)語言模型進(jìn)行測試時搜索。用于訓(xùn)練獎勵模型的數(shù)據(jù)同樣采自第二階段的蒙特卡洛搜索樹中,采樣step-level數(shù)據(jù)和全程軌跡數(shù)據(jù),并通過Bradley-Terry模型的優(yōu)化目標(biāo)微調(diào)過程獎勵模型(process reward model)。后續(xù)基于該獎勵模型給出的信號進(jìn)行Best-of-N搜索或束搜索,實現(xiàn)錦上添花的效果。在Llama-3.1-8B模型上,結(jié)合束搜索,在StrongReject上達(dá)到了0.94的分?jǐn)?shù),顯著超過多個主流商用模型,達(dá)到了與Claude-3.5相當(dāng)?shù)陌踩阅堋?/span>
這意味著推理增強(qiáng)的技術(shù)手段也可以在安全對齊上取得可靠的效果。安全與推理的有機(jī)統(tǒng)一,可以推動模型真正理解、分析并應(yīng)對風(fēng)險,在保障安全的同時保留語言能力與實用性。
RealSafe-R1的安全對齊實踐
在STAIR的理論基礎(chǔ)上,研究團(tuán)隊進(jìn)一步推出了RealSafe-R1模型,針對開源的DeepSeek-R1模型進(jìn)行安全對齊。通過構(gòu)建15,000條安全感知的推理軌跡,RealSafe-R1在提升模型安全性的同時,保持了其強(qiáng)大的推理能力,避免了傳統(tǒng)方法中常見的性能損失問題[3]。
具體地,研究者通過提示DeepSeek-R1在推理過程中注意安全風(fēng)險,加強(qiáng)安全護(hù)欄,提升模型推理過程的安全性。經(jīng)過一輪的有監(jiān)督微調(diào),各尺寸推理模型的安全性都得到了大幅提升,同時在數(shù)學(xué)、代碼等推理任務(wù)上的表現(xiàn)不受影響,甚至在事實性方面也有一定改進(jìn)。
隨著推理模型成為主流,已有不少工作研究推理模型的安全風(fēng)險,也使其安全加固成為一個重要研究問題。STAIR框架提供了一條可行路徑來賦能模型的深度安全對齊,以及在安全對齊時更好地維持其通用能力。期待相關(guān)領(lǐng)域未來進(jìn)一步的研究與突破。