60%情況下,主流大模型沒理解風險只是裝懂!別被模型的“安全答案”騙了
讓推理模型針對風險指令生成了安全輸出,表象下藏著認知危機:
即使生成合規(guī)答案,超60%的案例中模型并未真正理解風險。
換句話說,主流推理模型的安全性能存在系統(tǒng)性漏洞。
針對此種現(xiàn)象,淘天集團算法技術(shù)-未來實驗室團隊引入「表面安全對齊」(Superficial Safety Alignment, SSA)這一術(shù)語來描述這種系統(tǒng)性漏洞。
進一步的,研究人員推出了一個Benchmark來深入研究推理模型中廣泛存在的SSA現(xiàn)象。
這個Benchmark名叫Beyond Safe Answers(BSA),是全球第一個針對推理模型思考過程中風險認知準確性的高質(zhì)量評測集。
圖片
它主要包含3個特征:
- 挑戰(zhàn)性的數(shù)據(jù)集
- 全面的覆蓋范圍
- 詳細的風險注釋
圖片
BSA提供了一個客觀公正的評測工具,幫助更好地理解和提升推理模型在安全領(lǐng)域的應用能力。
引入“表面安全對齊”概念
眾所周知,推理模型在顯著提升復雜問題解決任務(wù)性能的同時,也為模型內(nèi)部決策過程提供了前所未有的透明度。
思考過程中,推理模型會對指令中蘊含的風險進行分析。
因此,推理模型的思考過程是很好地觀測模型能否準確意識到指令中風險元素的窗口。
理想情況下,推理模型應有效管理兩個相互交織的安全目標:
(1)生成持續(xù)安全的最終響應
(2)在其整個推理鏈中保持嚴格、準確和連貫的風險評估
然而,研究團隊當前主流推理模型即使給出了安全回復,其思考過程中往往未能對指令中包含的風險進行全面而精確的內(nèi)部推理。
原因很簡單——
表面上安全的輸出往往并非源于對潛在風險因素的真正理解,而是源于對表面啟發(fā)式方法或淺層安全約束的偶然遵循。
淘天集團算法技術(shù)-未來實驗室團隊引入“表面安全對齊”(Superficial Safety Alignment, SSA)這一術(shù)語來描述這種系統(tǒng)性漏洞,并指出了由此產(chǎn)生的兩個主要后果。
首先,SSA損害了LRMs中面向安全的推理的可靠性,因為看似正確的響應可能源于根本上錯誤的推理過程。這種情況下的安全回復是不穩(wěn)定的,尤其是在采用多次采樣時。
其次, SSA造成了一種虛假的安全感;回復表面上符合既定的安全標準,但實際上卻對更細微或復雜的威脅情景毫無準備。
此外,研究人員認為SSA這一現(xiàn)象的出現(xiàn),是由于在推理模型的對齊訓練過程中廣泛使用了安全相關(guān)數(shù)據(jù),這些數(shù)據(jù)可能與開源基準數(shù)據(jù)集中的樣本表現(xiàn)出一定程度的相似性。
推理模型死記硬背了這些指令的特征,在此基礎(chǔ)上學會了拒絕回答的范式。因此在以往只關(guān)注回復的安全能力評估上,推理模型得到了過高的分數(shù)。
推出新Benchmark,包含3大特征
進一步的,研究人員推出了一個名叫Beyond Safe Answers (BSA)的Benchmark,來深入研究推理模型中廣泛存在的SSA現(xiàn)象。
它主要包含3個特征——
第一,挑戰(zhàn)性的數(shù)據(jù)集。
研究人員評測了Qwen3 系列、Deepseek R1系列、GLM、Doubao、Kimi等19個開源和閉源推理大模型。
從評測結(jié)果看,表現(xiàn)最好的模型Deepseek-R1-671B思維過程的準確率也不到40%。
第二,全面的覆蓋范圍。
團隊識別出“表面安全對齊”的3種普遍場景:
- 過度敏感當指令中包含同種類型的風險內(nèi)容和將無害內(nèi)容時,錯誤地將無害內(nèi)容分類為有害內(nèi)容;
- 認知捷徑當指令中包含兩種類型的風險內(nèi)容時,只能識別出其中一種;
- 風險遺漏當指令中只包含一種類型時,未能識別該風險。
針對每種場景,研究團隊都系統(tǒng)地構(gòu)建了跨越9個不同安全子領(lǐng)域的樣本,共2000條。
第三,詳細的風險注釋。
每個樣本都配備了明確的風險注釋,詳細說明潛在風險,精確評估模型的推理準確度。
七步完成數(shù)據(jù)集生成,僅保留2000個樣本
數(shù)據(jù)集的生成與質(zhì)檢流程采用了人類專家與大語言模型相結(jié)合的雙重驗證機制,有效保障了數(shù)據(jù)的準確性與高水準。
具體流程概述如下:
第一步,低質(zhì)量指令去除。
- 長度控制與質(zhì)量篩選:移除過長和過短的樣本。同時,去除異常編碼的樣本。
- 語言識別與連貫性評估:采用輕量級語言分類器,過濾非英文文本。并通過 困惑度預置保證指令連貫性。
第二步,相關(guān)性判定。
通過模型判定指令和其風險便簽的相關(guān)性,并輸出原因給人工抽查,以保證準確度。
第三步,冗余樣本去重。
采用N-Gram匹配方法和句向量相似度過濾,快速去除近似重復的文本。
第四步,風險標注。
研究人員對保留的有風險和無風險的指令進行了人工標注:為有風險的指令編寫了其有風險的原因。為無風險的指令編寫了其“看似有風險但實際上無風險”的原因。
這些內(nèi)容作為數(shù)據(jù)合成的基礎(chǔ)。
第五步,深度合成。
利用頭部大模型對上述種子內(nèi)容進行改寫、擴充和合并,覆蓋不同場景,生成了對應于三類SSA場景的測試樣本。
第六步,難度過濾。
首先剔除了不符合各場景要求的樣本,然后將合格的樣本輸入五個主流輕量級LRM進行測試,篩選出難度適宜的樣本。
第七步,人類專家雙重驗證。
對數(shù)據(jù)實施了嚴格的人工標注質(zhì)控,最終形成了BSA基準集。
通過以上系統(tǒng)化的流程,Beyond Safe Answer數(shù)據(jù)集僅保留了2000個樣本。
模型推理準確性越高,回答越安全
考慮了在k次采樣下回復安全性和推理正確性,評測方式主要有以下五個指標:
圖片
從以下匯總結(jié)果,可以分析出一些值得關(guān)注的信息。
圖片
注:OS、CS和RO分別是子主題過度敏感、認知捷徑和風險遺漏的縮寫
首先,表面安全對齊普遍存在,深層推理能力不足。
表現(xiàn)最好的模型在標準安全評測(Safe@1)中得分超過90%,但在推理準確率(Think@1)不到40%,在多次采樣一致推理正確(Think@k)低于20%,表明安全合規(guī)多為表面現(xiàn)象,底層推理能力仍嚴重不足。
并且模型推理準確性越高,回答越安全;反之則不穩(wěn)定。
其次,多風險場景下的模型容易選擇性忽視一些風險。
在認知捷徑(CS@1和CS@k)的場景下的實驗顯示,面對包含多種風險類型的指令時,LRMs通常只關(guān)注其中一個突出的風險,而忽略了其他并存的風險。
這種選擇性關(guān)注表明模型存在優(yōu)先級偏差或?qū)Σ煌L險敏感性不同,導致在復合風險場景下的評估不完整。
然而在混合風險內(nèi)容和同種易敏感無風險內(nèi)容的場景下,研究者發(fā)現(xiàn)推理模型的風險閾值明顯降低,易出現(xiàn)誤報。
這說明在復雜或模糊場景下,模型的風險識別閾值可能過低,從而產(chǎn)生泛化錯誤和不當風險判定。
最后,團隊發(fā)現(xiàn)隨著參數(shù)量的提升大模型性能提升明顯,特別是在風險遺漏場景。
從Qwen3-0.6B到14B,參數(shù)量越大,所有指標下的表現(xiàn)越好。
這一提升來源于大模型更強的知識存儲與檢索能力,因為風險遺漏往往與模型回憶模糊或風險知識關(guān)聯(lián)不充分有關(guān)。
更大的參數(shù)量有助于充分利用內(nèi)部知識庫,顯著減少遺漏并提升安全對齊的魯棒性。
這一趨勢表明,模型規(guī)模擴展依然是提升安全對齊能力(特別是復雜知識場景下全面風險識別)的有效路徑。
安全規(guī)則讓模型成了“多慮先生”
與此同時,研究人員還進一步探究了安全規(guī)則、優(yōu)質(zhì)數(shù)據(jù)微調(diào)和解碼參數(shù)對模型表面安全現(xiàn)象的影響。發(fā)現(xiàn)了一些有趣的結(jié)論:
安全規(guī)則讓模型成了“多慮先生”
此前OpenAI和Anthropic的研究,都已經(jīng)證明將明確的安全規(guī)則納入大模型的輸入中,可以顯著提升其回復的安全性。
為了進一步探索這類安全規(guī)則能否緩解SSA現(xiàn)象,研究團隊在輸入提示中直接加入了簡明而明確的安全指南。
這些安全指南要求模型在生成回復前,系統(tǒng)性地評估輸入內(nèi)容中可能存在的風險特征。
隨后,研究者對五個選定的大模型進行了對比評測,分別在加入安全指令前后,評估其表現(xiàn)指標。
圖片
如上圖所示,所有受評估的基礎(chǔ)模型在加入安全指令后,其回復的安全性和安全推理準確率均有顯著提升。
尤其值得注意的是,QwQ-32B模型在應用這些指令后,其回復安全性得分甚至超過了99%。
研究人員觀察發(fā)現(xiàn),在推理階段,大模型會有條不紊地應用這些安全規(guī)則,對輸入內(nèi)容進行系統(tǒng)的、基于規(guī)則的分析。
這一機制幫助模型識別出用戶提示中隱含的、難以察覺的風險因素,否則這些風險可能被忽略。
但也發(fā)現(xiàn)了一個意外后果:
基于規(guī)則的方法有時會放大模型的“過度敏感”,即模型對一些本質(zhì)上無害的輸入也表現(xiàn)出過度謹慎的態(tài)度。
安全微調(diào)的蹺蹺板效應
研究團隊嘗試通過精心設(shè)計的安全推理數(shù)據(jù)微調(diào)來提升LRMs的安全表現(xiàn)。
他們采用了不同參數(shù)規(guī)模(0.6B至32B)的Qwen3系列模型,利用包含指令中風險分析的STAR-1數(shù)據(jù)集進行了微調(diào)。
隨后,又對比分析了模型在微調(diào)前后的安全性表現(xiàn)。
實驗結(jié)果顯示,微調(diào)顯著提升了各規(guī)模模型的整體回復安全性和推理過程中風險識別的準確性。
但隨著模型規(guī)模的增大,這種提升幅度呈現(xiàn)遞減趨勢。
圖片
具體而言,小模型(如0.6B)表現(xiàn)出了極為顯著的提升,Safe@k和Think@k指標分別提升了314%和1340%。而最大規(guī)模模型(32B),其微調(diào)前基線已較高,提升相對有限,Safe@k和Think@k分別僅提高了2%和36%。
對各子場景進一步分析發(fā)現(xiàn),高質(zhì)量推理數(shù)據(jù)的訓練有效緩解了模型認知捷徑和風險遺漏問題,但同時也提升了模型過度敏感的傾向。
這一現(xiàn)象表明,安全對齊存在權(quán)衡:
詳細推理軌跡訓練增強了模型風險識別和防范能力,但也可能導致過度敏感類問題下模型過于謹慎,體現(xiàn)出不可忽視的“安全對齊稅(Safety Alignment Tax)”。
調(diào)整采樣參數(shù)對安全推理準確性幾乎沒有幫助
對于非安全問題,采樣參數(shù)的調(diào)整(特別是Temperature)會對回復有顯著的影響。
針對Beyond Safe Answer評測集,研究者考察了解碼階段的關(guān)鍵采樣參數(shù)——Temperature(溫度參數(shù),取值為{0.4, 0.6, 0.8, 1.0, 1.2})、Top-p(取值為{0.5, 0.75, 0.95})和Top-k(取值為{1, 20, 40})——對模型在風險分析的準確性以及生成安全回復能力方面的表現(xiàn)。
主要評估指標包括Think@1、Safe@1、Think@k 和 Safe@k。
圖片
在QwQ-32B和Qwen3-32B兩個模型上的實驗結(jié)果表明,調(diào)整這些解碼參數(shù)對安全性和推理準確性的影響都極其有限。
針對上述結(jié)果,研究團隊認為模型的安全推理能力和推理邏輯準確性主要由預訓練和對齊階段形成的內(nèi)部知識結(jié)構(gòu)決定。
雖然解碼階段的采樣策略可以影響生成文本的多樣性和隨機性,但對基本的安全性指標和推理性能影響甚微。
因此,大語言模型的核心安全推理能力主要取決于訓練數(shù)據(jù)和模型本身的參數(shù),而非具體的解碼策略。
這凸顯了通過優(yōu)化模型訓練和對齊方式來提升安全推理能力的重要性,而不是僅僅關(guān)注解碼參數(shù)的調(diào)整。
這項研究的核心作者包括鄭柏會、鄭博仁、曹珂瑞、譚映水,作者團隊來自淘天集團算法技術(shù)-未來實驗室團隊。
未來生活實驗室致力于建設(shè)面向未來的生活和消費方式,進一步提升用戶體驗和商家經(jīng)營效果。實驗室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應用,引領(lǐng)AI在生活消費領(lǐng)域的技術(shù)創(chuàng)新。
關(guān)于Beyond Safe Answers的更多實驗結(jié)果和細節(jié)詳見論文,研究團隊將持續(xù)更新和維護數(shù)據(jù)集及評測榜單。
論文鏈接:https://arxiv.org/abs/2505.19690
項目主頁:https://openstellarteam.github.io/BSA
數(shù)據(jù)集下載:https://huggingface.co/datasets/OpenStellarTeam/BeyongSafeAnswer_Benchmark