Anthropic、Thinking Machines Lab論文曝光:30萬次壓力測試揭示AI規(guī)范缺陷
即便是最詳細的模型規(guī)范,也存在內(nèi)部矛盾、粒度不足與解釋歧義。
現(xiàn)如今,LLM 正越來越多地受到模型規(guī)范的約束,這些規(guī)范為模型的行為準則與倫理邊界提供了清晰定義。它們構(gòu)成了 Constitutional AI(憲法式 AI) 與 Deliberate Alignment(審慎對齊) 的核心基礎。在這些框架中,研究者通過 RLHF 以及其他對齊技術,作用于模型的訓練信號,從而直接影響模型的性格與價值取向。
然而,現(xiàn)有規(guī)范存在兩大問題:首先,它們包含內(nèi)部沖突,即在特定場景下,不同的原則彼此沖突。其次,它們存在覆蓋范圍的缺口,即使是詳細的規(guī)則也缺乏提供一致行為指導所需的粒度。
本文中,來自 Anthropic、Thinking Machines Lab 等機構(gòu)的研究者提出了一種系統(tǒng)化的模型規(guī)范壓力測試方法(stress-testing methodology),可自動識別并刻畫當前模型規(guī)范中存在的大量原則矛盾與解釋歧義等問題。
值得注意的是,在作者名單中還出現(xiàn)了 John Schulman —— 這位前 OpenAI 聯(lián)合創(chuàng)始人、現(xiàn)為 Thinking Machines Lab 首席科學家,再次參與了與模型對齊密切相關的前沿研究,此前是他領導了 ChatGPT 的 RLHF 研究與開發(fā)。

- 論文標題:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS
- 論文鏈接:https://arxiv.org/pdf/2510.07686
研究團隊首先構(gòu)建了一個細粒度的價值體系(taxonomy),包含 3307 個由 Claude 模型在自然交互中表現(xiàn)出的價值觀,其覆蓋范圍和精細程度遠超當前主流模型規(guī)范。這些價值項大多代表積極的行為原則,是現(xiàn)代 LLM 理應遵循的價值目標。
基于該體系,研究團隊生成了超過 30 萬個查詢場景,每個場景都迫使模型在兩種價值觀之間做出明確取舍。通過這種方式,研究者不僅能夠揭示模型規(guī)范中潛在的原則沖突,還能在更廣的價值維度上擴展測試覆蓋范圍。
隨后,研究團隊對來自 Anthropic、OpenAI、Google 和 xAI 的 12 個前沿 LLM 的回答進行了分析。
結(jié)果顯示,在 30 萬個測試場景中:
- 超過 22 萬個場景至少在兩個模型之間存在顯著分歧;
- 超過 7 萬個場景在大多數(shù)模型中都表現(xiàn)出明顯的行為差異。
通過定性分析,本文進一步揭示了當前模型規(guī)范中存在的多種具體缺陷,包括:不同原則之間的直接沖突;某些原則在解釋上的模糊與歧義。
方法介紹
圖 1 為場景生成流程。

首先,初始取舍場景往往表述較為中性,難以迫使模型在極端情況下作出明確選擇。例如在圖 1 中,「請告訴我你最喜歡的音樂作品」這一問題屬于低風險場景,模型即使拒絕回答,也不會讓用戶感到不滿。
為此,作者引入了價值偏置技術,通過這種偏置,查詢數(shù)量增加了三倍。由于部分生成涉及敏感話題而被模型拒答,在過濾掉拒答與不完整樣本后,最終得到超過 41 萬個有效場景的數(shù)據(jù)集。
其次,為進一步提升多樣性,作者還采用了三種不同的模型進行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每個模型各自生成約三分之一的查詢。
最后,在所有生成模型中,作者發(fā)現(xiàn)基于推理的模型在難度和對原始值的遵循度方面都能生成質(zhì)量顯著更高的查詢。因此,所有的生成模型都運用了擴展思維。
場景過濾
接下來,作者主要探討了不同前沿 LLM 在價值取向上的回答分歧。
研究團隊針對前文生成的查詢數(shù)據(jù),收集了來自 12 個前沿模型的回答結(jié)果,這些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。
研究發(fā)現(xiàn),這些模型在面對同一問題時,經(jīng)常給出顯著不同的回答。
團隊進一步根據(jù)模型間的分歧程度對場景進行篩選,并發(fā)現(xiàn):分歧越大,越可能反映模型規(guī)范中的潛在問題。尤其是當多個模型遵循相同規(guī)范(例如 OpenAI 的一系列模型)卻表現(xiàn)出明顯不一致時,這種差異很可能說明模型在訓練階段接收的信號存在模糊或沖突。
那如何量化模型在價值取向上的分歧程度?
具體做法是:他們根據(jù)每個問題對應的兩種價值觀,評估模型回答更傾向哪一方,并將這種偏好程度用 0–6 表示(數(shù)值越高,代表越偏向某一價值)。
由于直接讓模型打分往往結(jié)果不穩(wěn)定、缺乏一致性,研究者采用了一個兩階段評估方法:
- 自動生成評分標準:使用 Claude 4 Opus 根據(jù)問題和兩種價值觀,生成一套回答光譜(即從極度偏向到極度反對,共 0–6 個等級)。
- 自動匹配評分:利用這套光譜標準,對 12 個模型的回答進行自動分類與評分,從而量化不同模型在價值取舍上的差異。
這種方法有效提升了測量一致性,使研究團隊能夠更系統(tǒng)地比較不同模型在價值偏置上的表現(xiàn)。
實驗結(jié)果
模型規(guī)范符合性檢查
作者首先評估了 OpenAI 模型的響應與其發(fā)布的模型規(guī)范之間的符合程度,結(jié)果是頻繁出現(xiàn)模型規(guī)范不符合情況 —— 所有五個 OpenAI 模型均未能遵守其模型規(guī)范 —— 往往對應著模型規(guī)范自身存在的問題。
此外,作者還采用多個前沿模型作為「評審」來進行模型規(guī)范符合性檢查。
作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 這三個評審模型分別提供完整的 OpenAI 模型規(guī)范、以及由某個 OpenAI 模型在給定「生成場景」下的對應響應。
結(jié)果如表 2 所示,模型間分歧越高,與模型規(guī)范違反率上升的相關性越強。尤其能說明問題的是「頻繁不符合」場景 —— 作者將其定義為所有五個 OpenAI 模型同時不符合其模型規(guī)范的場景。由于模型響應分歧越大,意味著響應策略越多樣,那么在規(guī)范明確的前提下,符合性檢查更可能至少找到一個可接受的響應。反之,若在多樣響應中仍普遍出現(xiàn)規(guī)范違反,就很可能指向規(guī)范自身的根本性問題。

正如表 2 所示,在 OpenAI 模型高分歧場景中發(fā)現(xiàn)的頻繁違規(guī)場景數(shù)量,是隨機生成的「價值權衡」場景的 4.6 倍。
而依據(jù)圖 2 所示的不同分歧區(qū)間再采樣 1000 個場景,結(jié)果進一步證實:分歧率越高,與「頻繁不符合」越強相關。
值得注意的是,基于三個評審的多數(shù)投票來看,在高分歧場景中發(fā)現(xiàn)「頻繁不符合」的比例(9.7%)相比低分歧場景(0.7%)提升了 13 倍以上。若以任一評審認定響應存在問題即視為不符合為標準,那么高分歧場景中出現(xiàn)「頻繁不符合」比例高達 49.4%。

分歧與符合性檢查標記場景的定性分析
圖 3 展示了作者根據(jù)不同標準選取的具體場景:一是原則性矛盾(fundamental contradictions),二是解釋性模糊(interpretive ambiguity)。

原則性矛盾:如圖 3a 的第一個示例所示,當不同模型采用不同響應策略時,各自違反了模型規(guī)范中的不同原則,從而形成一個在邏輯上難以完全合規(guī)的困境場景。
解釋性模糊:圖 3a 的第二個案例顯示,當模型面對需要主觀解釋的原則時,即使是合理的推理,也可能導致不同方向的選擇。
圖 3b 又展示了另一種情況,OpenAI 模型在行為上高度一致,卻同時違反了模型規(guī)范中的多個原則,揭示出模型對齊過程中的內(nèi)在沖突。
OpenAI 模型間高分歧但一致符合的情形:圖 3c 又展示了高分歧與一致符合并存的情況,這揭示出模型規(guī)范在區(qū)分不同響應質(zhì)量層次方面粒度不足的問題。
比如,用戶請求在危險情境下制作自衛(wèi)工具的指導。所有 OpenAI 模型都恰當?shù)鼐芙^了提供利用家用物品制作槍支的指導,表現(xiàn)出對安全原則的一致遵守。差異性是有的模型進一步提供了替代性自衛(wèi)策略和安全建議,有的模型則僅作出簡單拒絕,并未提出任何建設性替代方案。
很明顯,那些提供合法自衛(wèi)建議的更全面回答實際上代表了更優(yōu)的幫助質(zhì)量,但現(xiàn)有模型規(guī)范的細化程度不足,無法識別這種細微的質(zhì)量差異。
符合性評估模型對合規(guī)性判斷模糊的情形:圖 3d 展示了另一類案例:評審模型無法明確判斷響應是否符合規(guī)范,從而揭示出規(guī)范本身存在的根本性歧義。
在這一示例中,Claude 4 Sonnet 無法確定響應是否符合 OpenAI 模型規(guī)范,核心的不確定性集中在這樣一個問題上:潛在敏感請求中,免責聲明(disclaimer)是否足以構(gòu)成安全的響應?
這種不確定性直接反映了當前模型規(guī)范中的解釋性空白。當評審模型本身無法做出明確的符合性判斷時,這表明規(guī)范語言中存在內(nèi)在模糊性,留下了大量主觀解釋空間。
此外,作者還進一步分析了三款評估模型在評估 OpenAI 模型規(guī)范符合性時的分歧模式,表明,規(guī)范的歧義不僅影響生成模型本身,也同樣影響評估系統(tǒng)。
在對 5000 條響應樣本的評估中,作者觀察到合規(guī)判定存在顯著差異。Claude 3.5 Sonnet 將 48.1% 的響應標記為存在問題,而 GPT-4o 與 Gemini 2.5 Pro 的標記比例分別為 35.5% 和 36.5%。
模型間兩兩一致率處于中等水平:Claude 3.5 Sonnet 與 GPT-4o 的一致率為 67.52%,與 Gemini 2.5 Pro 的一致率為 72.39%,而 GPT-4o 與 Gemini 2.5 Pro 達到了最高一致率 76.84%。
總體 Fleiss’ Kappa 系數(shù)為 0.42,表明評估者間一致性屬于中等范圍,這提示即使最先進的模型也難以保持規(guī)范要求解讀的一致性。
表 3 展示了三個典型案例,顯示評估者在分析相同查詢 - 響應對時卻得出對立結(jié)論。經(jīng)作者團隊驗證,絕大多數(shù)分歧源于對規(guī)范原則的根本性理解差異,而非疏忽或錯誤。

了解更多內(nèi)容,請參考原論文。

































