偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2025 Oral | 從「淺對(duì)齊」到「深思熟慮」,清華牽頭搭起大模型安全的下一級(jí)階梯

人工智能 新聞
清華團(tuán)隊(duì)突破了這一范式,率先將系統(tǒng)2思考引入大模型對(duì)齊,提出了融合自省推理的安全對(duì)齊框架STAIR。

本工作共同第一作者包括:張亦弛,清華大學(xué)計(jì)算機(jī)系三年級(jí)博士生,師從朱軍教授,研究方向是多模態(tài)大模型和大模型安全,在CVPR、NeurIPS、ICML等頂會(huì)發(fā)表多篇論文,曾主導(dǎo)開(kāi)發(fā)了首個(gè)多模態(tài)大模型可信度全面評(píng)測(cè)基準(zhǔn)MultiTrust;張思源,清華大學(xué)計(jì)算機(jī)系一年級(jí)碩士生,導(dǎo)師是蘇航副研究員,研究方向是大模型安全與對(duì)齊算法。本文通訊作者是清華大學(xué)人工智能學(xué)院董胤蓬助理教授和計(jì)算機(jī)系朱軍教授。其他合作者來(lái)自北航、瑞萊智慧、阿里安全、百川智能等單位。

在大語(yǔ)言模型(LLM)加速進(jìn)入法律、醫(yī)療、金融等高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景的當(dāng)下,“安全對(duì)齊”不再只是一個(gè)選項(xiàng),而是每一位模型開(kāi)發(fā)者與AI落地者都必須正面應(yīng)對(duì)的挑戰(zhàn)。然而,如今廣泛采用的對(duì)齊方式,往往只是讓模型在檢測(cè)到風(fēng)險(xiǎn)提示時(shí)機(jī)械地回復(fù)一句“很抱歉,我無(wú)法滿足你的請(qǐng)求”——這種表面看似“安全”的機(jī)制,實(shí)則脆弱不堪。ICLR 2025 杰出論文首次將這類方法命名為 “淺對(duì)齊(Shallow Alignment)”[1]:模型的預(yù)測(cè)分布僅在回復(fù)開(kāi)頭做出了有效偏移,卻從未真正理解潛在的風(fēng)險(xiǎn)語(yǔ)義。一旦越獄提示換個(gè)包裝,模型就輕易“破防”;而過(guò)度依賴這類簡(jiǎn)單訓(xùn)練,也往往會(huì)犧牲模型在通用任務(wù)中的語(yǔ)言能力與響應(yīng)質(zhì)量,帶來(lái)“安全 vs. 能力”的兩難局面。

圖片

越獄攻擊可以繞過(guò)大模型安全護(hù)欄[2]

在這一背景下,清華團(tuán)隊(duì)突破了這一范式,率先將系統(tǒng)2思考引入大模型對(duì)齊,提出了融合自省推理的安全對(duì)齊框架STAIR。與其讓模型學(xué)會(huì)“條件反射式的閉嘴”,不如讓它真正學(xué)會(huì)思考之后再開(kāi)口。STAIR通過(guò)三步走增強(qiáng)了對(duì)齊流程,驗(yàn)證了測(cè)試時(shí)擴(kuò)展(Test-Time Scaling)對(duì)模型安全的貢獻(xiàn)。在不降低通用能力的前提下,STAIR可以顯著提升開(kāi)源模型在越獄攻擊下的魯棒性,在StrongReject上超越了以安全著稱的Claude3.5。它不止教模型“閉嘴”,而是教模型深入分析風(fēng)險(xiǎn)。它不再是安全與性能的零和博弈,而是將二者在推理下有機(jī)統(tǒng)一。STAIR的階梯引領(lǐng)大模型安全對(duì)齊從本能拒答走向深度自省,從格式安全邁向思維安全。

這篇題為Improving SafeTy Alignment with Introspective Reasoning的工作剛剛被ICML2025收錄為Oral論文(錄用率~1%)。而在STAIR的理論實(shí)踐基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步推出了RealSafe-R1模型,率先針對(duì)開(kāi)源的DeepSeek-R1模型進(jìn)行安全對(duì)齊,可以在不犧牲模型推理能力的前提下大幅提升安全性。相關(guān)代碼、訓(xùn)練數(shù)據(jù)、模型均已開(kāi)源,詳細(xì)算法和實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參考原始論文。

圖片

  • 論文標(biāo)題:STAIR: Improving Safety Alignment with Introspective Reasoning
  • 論文鏈接:https://arxiv.org/abs/2502.02384
  • 開(kāi)源鏈接:https://github.com/thu-ml/STAIR

圖片

  • 論文標(biāo)題:RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability
  • 論文鏈接:https://arxiv.org/abs/2504.10081
  • 開(kāi)源鏈接:https://huggingface.co/RealSafe

接下來(lái),讓我們一起“登梯”...

向安全對(duì)齊引入系統(tǒng)2思考

當(dāng)前安全對(duì)齊方法大多基于簡(jiǎn)短拒答的數(shù)據(jù)形式訓(xùn)練模型,使得模型隱式建立了危險(xiǎn)輸入到直接拒答的直覺(jué)性映射,類似于系統(tǒng)1快思考(System 1 Thinking)。研究者們受系統(tǒng)2慢思維(System 2 Thinking)提升模型推理能力的技術(shù)路線啟發(fā),設(shè)計(jì)了STAIR對(duì)齊框架,力求幫助大模型真正理解風(fēng)險(xiǎn)指令,進(jìn)行系統(tǒng)化的自我思考和風(fēng)險(xiǎn)評(píng)估,而不是條件反射式地拒絕回答。

圖片

從“本能拒絕”到“理性分析”的三步走

STAIR框架共包含三個(gè)階段:結(jié)構(gòu)化思維鏈格式對(duì)齊、基于安全感知蒙特卡洛樹(shù)搜索的自提升、測(cè)試時(shí)擴(kuò)展,能夠在不具備推理能力的模型上,實(shí)現(xiàn)性能與安全的雙效提升。

圖片

階段 1:結(jié)構(gòu)化推理對(duì)齊

第一階段通過(guò)少量的結(jié)構(gòu)化思維鏈數(shù)據(jù)進(jìn)行有監(jiān)督微調(diào),使模型初步獲得推理能力。研究者設(shè)計(jì)了一個(gè)分步式的輸出格式,每一步推理都包括一個(gè)總結(jié)標(biāo)題和詳細(xì)描述,從而幫助模型在應(yīng)對(duì)風(fēng)險(xiǎn)時(shí)能夠逐步分析問(wèn)題,并調(diào)用GPT-4o對(duì)安全和通用問(wèn)題進(jìn)行回復(fù)生成。模型在分步的內(nèi)省深思后再正式輸出明確的回答,該回答需要經(jīng)過(guò)風(fēng)險(xiǎn)識(shí)別后,作出合理拒絕或給出無(wú)害信息。這一階段的訓(xùn)練也為后續(xù)按步驟切分回答,進(jìn)行樹(shù)搜索和推理時(shí)搜索提供了基礎(chǔ)。

階段 2:基于安全感知蒙特卡洛樹(shù)搜索的自提升

第二階段使用蒙特卡洛樹(shù)搜索的方式構(gòu)造自采樣的step-level偏序數(shù)據(jù)對(duì),并使用DPO損失微調(diào)模型。研究者以每一個(gè)推理步驟/最終回答步驟作為一次動(dòng)作,但與傳統(tǒng)蒙特卡洛樹(shù)搜索不同的是,為了同時(shí)優(yōu)化模型的安全性和通用能力,在搜索過(guò)程中獎(jiǎng)勵(lì)信號(hào)由安全分?jǐn)?shù)和有用性分?jǐn)?shù)兩個(gè)維度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)一共包括3個(gè)條件:安全優(yōu)先條件,有用性雙向條件,以及在僅考慮一個(gè)維度時(shí)能退化為原始蒙特卡洛搜索的條件。

圖片

  • 安全優(yōu)先條件:安全回復(fù)總能獲得比不安全回復(fù)更高的分?jǐn)?shù)。

圖片

  • 有用性雙向條件:當(dāng)回復(fù)是安全時(shí),越詳細(xì)越有用則分?jǐn)?shù)越高;當(dāng)回復(fù)存在風(fēng)險(xiǎn)時(shí),越能幫助解決問(wèn)題則分?jǐn)?shù)越低。

圖片

  • 單一維度退化條件:當(dāng)只考慮安全性或有用性中的一個(gè)維度時(shí),蒙特卡洛搜索的過(guò)程退化為使用對(duì)應(yīng)分?jǐn)?shù)的搜索。這可以保證多元評(píng)分不影響原有搜索框架的效果。

基于以上條件,研究者通過(guò)理論推導(dǎo),給出了一個(gè)滿足要求的最簡(jiǎn)單形式的獎(jiǎng)勵(lì)函數(shù):R(H, S) = S·H + 2S,其中分?jǐn)?shù)由模型進(jìn)行自我打分。在經(jīng)過(guò)足夠多輪的樹(shù)搜索后,研究者使用閾值控制策略來(lái)采樣step-level的偏序數(shù)據(jù)對(duì),來(lái)提供細(xì)粒度的微調(diào)信號(hào)。整個(gè)采樣-微調(diào)過(guò)程將進(jìn)行多輪,每一輪使用不同的訓(xùn)練問(wèn)題,以不斷強(qiáng)化模型的推理能力和安全對(duì)齊程度。

圖片

實(shí)驗(yàn)選用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用從PKU-SafeRLHF(安全問(wèn)答)、JailbreakV(越獄數(shù)據(jù))和UltraFeedback(通用數(shù)據(jù))三個(gè)主流數(shù)據(jù)集中采樣的問(wèn)題,對(duì)模型進(jìn)行訓(xùn)練。在StrongReject、WildChat等安全評(píng)估和GSM8k、AlpacaEval等通用測(cè)試上的實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò)前兩階段的微調(diào),模型在安全性能上相比訓(xùn)練前獲得了顯著提升,同時(shí)更好地平衡了安全性能和通用性能。

圖片

 階段 3:測(cè)試時(shí)擴(kuò)展

圖片

第三階段是訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,并指導(dǎo)語(yǔ)言模型進(jìn)行測(cè)試時(shí)搜索。用于訓(xùn)練獎(jiǎng)勵(lì)模型的數(shù)據(jù)同樣采自第二階段的蒙特卡洛搜索樹(shù)中,采樣step-level數(shù)據(jù)和全程軌跡數(shù)據(jù),并通過(guò)Bradley-Terry模型的優(yōu)化目標(biāo)微調(diào)過(guò)程獎(jiǎng)勵(lì)模型(process reward model)。后續(xù)基于該獎(jiǎng)勵(lì)模型給出的信號(hào)進(jìn)行Best-of-N搜索或束搜索,實(shí)現(xiàn)錦上添花的效果。在Llama-3.1-8B模型上,結(jié)合束搜索,在StrongReject上達(dá)到了0.94的分?jǐn)?shù),顯著超過(guò)多個(gè)主流商用模型,達(dá)到了與Claude-3.5相當(dāng)?shù)陌踩阅堋?/span>

圖片

這意味著推理增強(qiáng)的技術(shù)手段也可以在安全對(duì)齊上取得可靠的效果。安全與推理的有機(jī)統(tǒng)一,可以推動(dòng)模型真正理解、分析并應(yīng)對(duì)風(fēng)險(xiǎn),在保障安全的同時(shí)保留語(yǔ)言能力與實(shí)用性。

RealSafe-R1的安全對(duì)齊實(shí)踐

在STAIR的理論基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步推出了RealSafe-R1模型,針對(duì)開(kāi)源的DeepSeek-R1模型進(jìn)行安全對(duì)齊。通過(guò)構(gòu)建15,000條安全感知的推理軌跡,RealSafe-R1在提升模型安全性的同時(shí),保持了其強(qiáng)大的推理能力,避免了傳統(tǒng)方法中常見(jiàn)的性能損失問(wèn)題[3]。

圖片

具體地,研究者通過(guò)提示DeepSeek-R1在推理過(guò)程中注意安全風(fēng)險(xiǎn),加強(qiáng)安全護(hù)欄,提升模型推理過(guò)程的安全性。經(jīng)過(guò)一輪的有監(jiān)督微調(diào),各尺寸推理模型的安全性都得到了大幅提升,同時(shí)在數(shù)學(xué)、代碼等推理任務(wù)上的表現(xiàn)不受影響,甚至在事實(shí)性方面也有一定改進(jìn)。

圖片

隨著推理模型成為主流,已有不少工作研究推理模型的安全風(fēng)險(xiǎn),也使其安全加固成為一個(gè)重要研究問(wèn)題。STAIR框架提供了一條可行路徑來(lái)賦能模型的深度安全對(duì)齊,以及在安全對(duì)齊時(shí)更好地維持其通用能力。期待相關(guān)領(lǐng)域未來(lái)進(jìn)一步的研究與突破。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-12-25 15:31:40

2024-10-29 21:01:44

2010-11-22 10:04:15

虛擬化

2021-09-15 09:39:56

公共云云遷移云端

2025-06-20 14:29:02

模型訓(xùn)練大數(shù)據(jù)

2025-06-17 06:21:13

2025-07-23 10:07:31

2021-07-14 10:33:41

云計(jì)算數(shù)據(jù)安全云安全

2025-03-11 08:37:42

2024-07-22 08:22:00

2021-10-14 09:00:00

云計(jì)算數(shù)字化轉(zhuǎn)型公有云

2025-07-17 09:28:09

2024-07-19 10:39:38

2025-09-29 07:42:00

2025-01-15 14:49:14

2025-07-25 08:45:00

AI模型測(cè)試

2024-05-16 12:48:12

數(shù)據(jù)AI

2025-04-28 00:04:00

傳統(tǒng)網(wǎng)絡(luò)安全

2025-06-11 07:11:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)