AI人格分裂實(shí)錘!30萬(wàn)道送命題,撕開OpenAI、谷歌「遮羞布」
實(shí)錘!LLM也有自己的「價(jià)值觀」?
想象一下,你讓AI幫你做一個(gè)商業(yè)計(jì)劃,既要「賺錢」,又要「有良心」。
當(dāng)這兩件事沖突時(shí),AI會(huì)聽誰(shuí)的?它會(huì)不會(huì)「精神分裂」?
最近,Anthropic聯(lián)合Thinking Machines機(jī)構(gòu)搞了個(gè)大事情。
他們?cè)O(shè)計(jì)了30萬(wàn)個(gè)這種「兩難問(wèn)題」場(chǎng)景和極限壓力測(cè)試去「拷問(wèn)」市面上最強(qiáng)的前沿大模型,包括OpenAI、谷歌Gemini、Anthropic和馬斯克的xAI。

論文:https://arxiv.org/pdf/2510.07686
數(shù)據(jù)集:https://huggingface.co/datasets/jifanz/stress_testing_model_spec
結(jié)果發(fā)現(xiàn),這些AI不僅「性格」迥異,而且它們的「行為準(zhǔn)則」(即「模型規(guī)范」)本身就充滿了矛盾和漏洞!
今天咱們就來(lái)深扒一下這份報(bào)告,看看AI世界的「眾生相」。
AI的說(shuō)明書「模型規(guī)范」,靠譜嗎?
「模型規(guī)范」是大型語(yǔ)言模型被訓(xùn)練遵循的行為準(zhǔn)則。
說(shuō)白了,它就是AI的「三觀」和「行為準(zhǔn)則」,比如「要樂(lè)于助人」、「假設(shè)意圖良好」、「要保證安全」等。
這是訓(xùn)練AI「學(xué)好」的基礎(chǔ)。
大多數(shù)情況下,AI模型會(huì)毫無(wú)問(wèn)題地遵循這些指令。
除了自動(dòng)化訓(xùn)練之外,規(guī)范還指導(dǎo)人類標(biāo)注員,在從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí) (RLHF) 時(shí)提供反饋。
但問(wèn)題來(lái)了,如果這些原則發(fā)生沖突,會(huì)發(fā)生什么呢?
這些準(zhǔn)則在現(xiàn)實(shí)中經(jīng)?!复蚣堋埂>拖袂懊嬲f(shuō)的,「商業(yè)效益」和「社會(huì)公平」就可能沖突。當(dāng)說(shuō)明書沒(méi)寫清楚該怎么辦時(shí),AI的訓(xùn)練信號(hào)就亂了,它只能靠自己「猜」。
這些混雜的信號(hào)可能降低對(duì)齊訓(xùn)練的有效性,導(dǎo)致模型在處理未解決的矛盾時(shí)采取不同的方式。
Anthropic聯(lián)合Thinking Machines做的研究指出,規(guī)范本身可能存在固有的模糊性,或者場(chǎng)景可能迫使在相互沖突的原則之間做出權(quán)衡,導(dǎo)致模型做出截然不同的選擇。
實(shí)驗(yàn)表明,前沿模型之間的高度分歧與規(guī)范問(wèn)題密切相關(guān),這表明當(dāng)前的行為準(zhǔn)則存在重要差距。

研究團(tuán)隊(duì)通過(guò)生成超過(guò)30萬(wàn)個(gè)場(chǎng)景來(lái)揭示這些「規(guī)范缺口」,這些場(chǎng)景迫使模型在相互競(jìng)爭(zhēng)的原則之間做出選擇。
研究發(fā)現(xiàn),其中超過(guò)7萬(wàn)個(gè)場(chǎng)景顯示12個(gè)前沿模型之間存在高度分歧。

上圖展示了一個(gè)要求模型在「社會(huì)公平」和「商業(yè)效益」之間做出權(quán)衡的查詢
研究人員還發(fā)現(xiàn),這本說(shuō)明書寫得……emmm,一言難盡。
他們通過(guò)壓力測(cè)試,揪出了里面幾大「天坑」,這就能解釋為啥AI有時(shí)候看起來(lái)那么「精神分裂」了。
研究人員拉來(lái)了5個(gè)OpenAI自家的模型,讓它們回答同一批難題。
結(jié)果發(fā)現(xiàn),在那些讓模型們吵得不可開交的問(wèn)題上,它們集體違反自家「說(shuō)明書」的概率,暴增了5到13倍!

作者測(cè)量了所有五個(gè) OpenAI 模型違反其模型規(guī)格的情景的百分比(稱為頻繁不合規(guī))。對(duì)于模型響應(yīng)存在較大分歧的情景,作者觀察到顯著更多的頻繁不合規(guī)現(xiàn)象。
研究發(fā)現(xiàn),這些頻繁出現(xiàn)的不合規(guī)場(chǎng)景通常涉及模型規(guī)范中的直接矛盾或解釋性歧義,導(dǎo)致模型難以(或無(wú)法)找到滿足所有原則的答案。
通過(guò)壓力測(cè)試,研究員觀察到,許多高分歧場(chǎng)景暴露了規(guī)范內(nèi)部的直接沖突。
舉個(gè)栗子,「假設(shè)最佳意圖」的原則經(jīng)常與安全限制相矛盾。
當(dāng)用戶請(qǐng)求可能有風(fēng)險(xiǎn)但可能具有合法研究用途的信息時(shí),模型面臨一個(gè)挑戰(zhàn):滿足用戶請(qǐng)求可能會(huì)導(dǎo)致潛在危害,而拒絕則會(huì)違反善意假設(shè)。
除了原則之間的直接矛盾外,研究員使用Claude 4 Sonnet、o3 和 Gemini 2.5 Pro三種模型來(lái)評(píng)估模型對(duì)規(guī)范的遵守情況。
這些評(píng)估模型對(duì)于何為合規(guī)存在分歧,一致性僅為中等程度(Fleiss's Kappa 值為 0.42,其中1表示完全一致,0表示一致性不高于隨機(jī)概率。
研究發(fā)現(xiàn),模型間分歧通常源于對(duì)規(guī)則的主觀解釋。
來(lái)個(gè)栗子,Gemini 2.5 Pro認(rèn)為以下回應(yīng)符合模型規(guī)范,援引了「盡責(zé)員工」原則,該原則允許回應(yīng)抵制那些它認(rèn)為違背用戶利益的請(qǐng)求。
但Claude Sonnet 4不同意,認(rèn)為用戶只是尋求轉(zhuǎn)換所提供材料,而這在模型規(guī)范中是被允許的。

評(píng)估規(guī)范遵循性時(shí),針對(duì)給定查詢和響應(yīng)的評(píng)估者分歧示例。正如作者在上述示例中所強(qiáng)調(diào)的,許多差異源于不同評(píng)估者之間的解釋差異。這些解釋對(duì)人類來(lái)說(shuō)也具有主觀性,表明模型規(guī)范留有大量解釋空間。
壓力測(cè)試把大模型逼到「墻角」?
為了衡量來(lái)自Anthropic、OpenAI、Google和xAI的十二個(gè)前沿模型之間的分歧。
研究人員通過(guò)價(jià)值權(quán)衡來(lái)對(duì)各大前沿模型進(jìn)行「壓力測(cè)試」。
有趣的是,這個(gè)壓力測(cè)試專門挑AI規(guī)則里的「灰色地帶」下手。
情景生成
為了系統(tǒng)性地評(píng)估模型特性,研究人員從其包含3000多個(gè)價(jià)值觀的語(yǔ)料庫(kù)中,隨機(jī)抽樣了15萬(wàn)對(duì)價(jià)值觀,并提示大語(yǔ)言模型(LLM)生成需要平衡這些價(jià)值觀對(duì)的用戶查詢。
研究人員指出,初始的權(quán)衡情景通常采用相對(duì)中立的框架,不會(huì)將響應(yīng)模型推向極端。
為了增加響應(yīng)模型的處理難度,研究團(tuán)隊(duì)?wèi)?yīng)用了價(jià)值偏向化(value biasing)處理,以創(chuàng)建更傾向于某個(gè)價(jià)值觀的變體
通過(guò)這一偏向化過(guò)程,查詢數(shù)量增加了兩倍。由于許多生成嘗試涉及敏感主題,導(dǎo)致模型拒絕回答而非產(chǎn)出可用情景,因此在過(guò)濾掉拒絕回答和不完整的生成內(nèi)容后,最終數(shù)據(jù)集包含超過(guò)41萬(wàn)個(gè)情景。
其次,研究員觀察到不同的生成模型會(huì)產(chǎn)生獨(dú)特的查詢風(fēng)格,并在其最常生成的情景中表現(xiàn)出不同的主題偏見。
因此,為了進(jìn)一步增強(qiáng)多樣性,采用了三種不同的模型進(jìn)行生成:Claude 4 Opus、Claude 3.7 Sonnet 和 o3,每種模型約生成三分之一的查詢。
最后,研究發(fā)現(xiàn),在所有生成模型中,基于推理的模型(reasoning-based models)在難度和對(duì)原始價(jià)值觀的遵循度方面,都能產(chǎn)出質(zhì)量顯著更高的查詢。
因此,研究人員所有的生成過(guò)程都利用了Claude模型的擴(kuò)展思維(extended thinking)能力以及基于推理的o3模型。
針對(duì)生成情景的多樣性,研究員基于文本嵌入(text embeddings)對(duì)情景多樣性的分析。
識(shí)別出了一個(gè)包含30萬(wàn)個(gè)生成情景的子集,在該子集中,即使是相似度最高的查詢對(duì)也能引發(fā)不同的模型響應(yīng)行為。在此子集內(nèi),至少有15萬(wàn)個(gè)查詢要么涉及完全不同的主題,要么在相似主題上表達(dá)了不同的既有觀點(diǎn)。
基于分歧和主題的場(chǎng)景篩選
為了識(shí)別出那些能揭示模型規(guī)范中存在缺陷的情景,研究人員對(duì)生成的數(shù)據(jù)集應(yīng)用了多項(xiàng)篩選指標(biāo)。
團(tuán)隊(duì)測(cè)量了前沿大語(yǔ)言模型在回答生成的查詢時(shí)的響應(yīng)分歧度。
評(píng)估首先從12個(gè)前沿模型中為每個(gè)查詢生成響應(yīng),這些模型包括:五個(gè)Claude模型(Claude 4 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet, Claude 3.5 Sonnet, and Claude 3 Opus)、五個(gè)OpenAI模型(GPT 4.1, GPT 4.1 mini, GPT 4o, o3, and o4 mini)、Gemini 2.5 Pro 和 Grok 4。
值得注意的是,生成的許多查詢都引發(fā)了這些前沿模型之間顯著不同的響應(yīng)。
研究發(fā)現(xiàn),更高的分歧度通常對(duì)應(yīng)著模型規(guī)范問(wèn)題,尤其是在共享相同規(guī)范的模型之間。
該方法作為一種不確定性度量(uncertainty measure),與委員會(huì)查詢理論(query-by-committee theory)相關(guān)。
例如,OpenAI模型(均被訓(xùn)練以遵循OpenAI模型規(guī)范)之間的分歧揭示了模型表現(xiàn)出不確定性的情景,這表明模型規(guī)范可能提供了模糊的訓(xùn)練信號(hào)。
為量化分歧,研究員根據(jù)模型響應(yīng)對(duì)生成價(jià)值觀對(duì)中每個(gè)價(jià)值觀的偏好強(qiáng)度進(jìn)行分類。
團(tuán)隊(duì)采用了一種兩階段方法,包括自動(dòng)化評(píng)分標(biāo)準(zhǔn)生成(automatic rubric generation),隨后是自動(dòng)化匹配過(guò)程,以獲得最終的價(jià)值分?jǐn)?shù)。
首先,給定一個(gè)查詢及其兩個(gè)種子價(jià)值觀,提示Claude 4 Opus生成一個(gè)響應(yīng)策略譜系(spectrum of answering strategies)。
該譜系范圍從極端偏好一個(gè)價(jià)值觀(得6分)到極端反對(duì)它(得0分),并包含中間策略(得1-5分)。
隨后,使用該譜系作為評(píng)分標(biāo)準(zhǔn),對(duì)所有12個(gè)模型的響應(yīng)進(jìn)行分類。
分歧加權(quán)去重(Disagreement-Weighted Deduplication): 采用加權(quán)k-中心目標(biāo)(weighted k-center objective)進(jìn)行子集選擇。
模型規(guī)范特別強(qiáng)調(diào)某些類別的敏感主題。研究員將每個(gè)高分歧情景按主題進(jìn)行分類:
包括:生物安全、化學(xué)安全、網(wǎng)絡(luò)安全、政治、兒童誘騙、精神疾病、哲學(xué)推理和道德推理。此外,由于研究的是權(quán)衡情景,也納入了涉及哲學(xué)和道德推理的主題。
價(jià)值觀優(yōu)先聚合
雖然價(jià)值分類可以衡量模型響應(yīng)間的分歧,但大多數(shù)情景和響應(yīng)所表達(dá)的價(jià)值觀遠(yuǎn)不止生成時(shí)所用的那一對(duì)。
為了描繪模型間在價(jià)值觀表達(dá)上的差異,研究員提示Claude 4 Opus以自由形式生成(free-form generation)的方式,識(shí)別出12個(gè)模型中每個(gè)模型相較于其他模型所獨(dú)特表達(dá)的價(jià)值觀。
在生成這些價(jià)值觀后,團(tuán)隊(duì)利用Gemini嵌入和最近鄰分類(nearest neighbor classification),將每個(gè)價(jià)值觀匹配到價(jià)值層級(jí)(value hierarchy)中第二層最接近的類別。
前沿模型「人設(shè)」大公開
除了規(guī)范差距之外,研究員觀察到不同模型之間的價(jià)值優(yōu)先模式各不相同。
例如,Claude模型優(yōu)先考慮道德責(zé)任,Gemini強(qiáng)調(diào)情感深度,OpenAI和Grok則以商業(yè)效率為優(yōu)化目標(biāo)。
對(duì)于其他價(jià)值觀,優(yōu)先模式也有所不同。

模型響應(yīng)在高分歧權(quán)衡情景集中表現(xiàn)出價(jià)值觀次數(shù)
研究員還發(fā)現(xiàn)了許多關(guān)于拒絕模式和異常行為的實(shí)際問(wèn)題。
在敏感話題上的高分歧場(chǎng)景顯示出系統(tǒng)性的假陽(yáng)性拒絕。分析還發(fā)現(xiàn)了個(gè)別模型顯著偏離的錯(cuò)位案例。

每個(gè)模型的異常響應(yīng)示例。這個(gè)關(guān)于 Claude模型如何響應(yīng)此提示的示例來(lái)自 Sonnet 3.5,盡管所有三個(gè) Claude模型的響應(yīng)都非常相似。
數(shù)據(jù)顯示,Claude模型拒絕執(zhí)行可能有問(wèn)題的請(qǐng)求頻率比其他模型高出多達(dá) 7 倍。
相比之下,o3模型直接拒絕的比例最高,常常是不加說(shuō)明地簡(jiǎn)單回絕。

在高度分歧場(chǎng)景下模型拒絕的百分比。響應(yīng)根據(jù)對(duì)用戶請(qǐng)求的拒絕程度進(jìn)行分類
盡管存在這些差異,但所有模型都一致認(rèn)為需要避免特定的危害。
研究發(fā)現(xiàn),對(duì)于兒童誘騙相關(guān)查詢的拒絕率上,測(cè)試的每個(gè)模型均呈上升趨勢(shì)。
這表明無(wú)論不同模型提供商采取何種對(duì)齊策略,保護(hù)未成年人優(yōu)先率最高。

涉及兒童誘騙風(fēng)險(xiǎn)的場(chǎng)景拒絕率。此處的拒絕包括「完全拒絕」、「帶有解釋的堅(jiān)決拒絕」和「提供替代方案的溫和拒絕」。在此,與研究人員生成的所有場(chǎng)景計(jì)算出的整體拒絕率相比,涉及兒童誘騙風(fēng)險(xiǎn)的場(chǎng)景拒絕率更高
值得關(guān)注的是,團(tuán)隊(duì)還研究了異常響應(yīng),即一個(gè)模型的顯著特征。
那各大模型都有哪些顯著特征呢?
Grok 4異常響應(yīng)值最高,更愿意回應(yīng)其他模型認(rèn)為有害的請(qǐng)求,例如創(chuàng)作關(guān)于精神疾病等黑暗內(nèi)容。
其次是Claude 3.5 Sonnet,后者有時(shí)會(huì)拒絕回答一些更無(wú)害的請(qǐng)求(這一傾向在后來(lái)的Claude模型中幾乎沒(méi)那么明顯)。

模型的異常響應(yīng)分布。當(dāng)一個(gè)模型的評(píng)分值與其它 11 個(gè)模型中的至少 9 個(gè)顯著不同時(shí),該模型被歸類為異常值
網(wǎng)友銳評(píng)
主流模型「獨(dú)特個(gè)性」被一一曝光,引發(fā)網(wǎng)友激烈討論。
網(wǎng)友MD,毫不吝嗇地夸贊了一番外,也表達(dá)了自己的擔(dān)憂。

投資人Bedurion直擊要害,模型規(guī)范看似精確,但現(xiàn)實(shí)世界的混亂中存在漏洞,偏見容易有機(jī)可乘。
他建議,在擴(kuò)大規(guī)模之前,應(yīng)通過(guò)情景測(cè)試來(lái)細(xì)化規(guī)范,揭示真正的對(duì)齊情況。

前Siri聯(lián)合創(chuàng)始人Rob Phillips也表達(dá)了自己的好奇心。

各位網(wǎng)友,不知道你怎么看?





























