偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

規(guī)范對齊時代:GPT-5 斷層領先,讓安全與行為邊界更明晰

人工智能 新聞
上海交通大學、香港中文大學、中國科學技術大學和 UIUC 的研究團隊,首次提出規(guī)范對齊(Specification Alignment)的新概念,要求大模型在不同場景下同時遵守細粒度的安全規(guī)范與行為規(guī)范。

張昊然,上海交通大學人工智能學院的博士一年級學生,主要研究興趣為大模型推理和可信人工智能。

去年 12 月,OpenAI 提出的 Deliberative Alignment 引發(fā)了廣泛關注。面對用戶安全風險,大模型不再止于簡單拒絕,而是將規(guī)范意識融入思考過程,主動識別邊界,清楚哪些可以回應,哪些必須避免。推動這一轉(zhuǎn)變的核心是「規(guī)范」(specification,spec),即在特定情境下約束模型行為的規(guī)則與準則。近年來,OpenAI、Google 等基礎模型廠商紛紛將規(guī)范融入大模型,以此明確智能體應當遵循的行為標準。

想想我們?nèi)粘5氖澜?。社會有法律條款,明確劃出不可觸碰的禁區(qū);行業(yè)有職業(yè)規(guī)范,提醒我們該怎么做事;還有道德準則,提醒我們別越過良心底線。這些就像是模型需要遵守的安全規(guī)范(safety-spec),是一條條必須堅守的紅線。與此同時,在工作和生活中,我們還要面對一套又一套靈活多變的規(guī)則:公司 KPI、崗位職責、寫報告要有邏輯、客服回復要有溫度。這些就是行為規(guī)范(behavioral-spec),它們會隨著場景和目標不斷變化,甚至時時更新。

問題隨之而來:在這樣一個多規(guī)并存的現(xiàn)實中,大模型能否守住安全的底線,同時靈活應對層出不窮的行為要求?法律和道德是硬性紅線,而工作流程、崗位標準,甚至是報告格式,卻會因行業(yè)、團隊或目標而變化。讓一個模型同時滿足這些規(guī)范,并不容易。

針對這一難題,上海交通大學、香港中文大學、中國科學技術大學和 UIUC 的研究團隊,首次提出規(guī)范對齊(Specification Alignment)的新概念,要求大模型在不同場景下同時遵守細粒度的安全規(guī)范與行為規(guī)范。

  • 論文標題:Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
  • 論文鏈接:https://arxiv.org/abs/2509.14760
  • 代碼和數(shù)據(jù):https://github.com/zzzhr97/SpecBench

團隊進一步構建了首個評測基準 SpecBench,覆蓋 5 大應用場景、103 條規(guī)范和 1500 條數(shù)據(jù),并通過對 33 個主流模型的全面評測,揭示了它們在規(guī)范對齊上的不足。同時,團隊探索了多種測試時深思(Test-time Deliberation, TTD)方法,包括 Self-Refine、TPO 以及他們提出的 Align3。結果證明,這些方法能顯著提升大模型對規(guī)范的遵循度,讓安全與實用的平衡點不斷向前推進。

圖表 1:不同模型的規(guī)范對齊能力示意圖。GPT-5 斷層式領先;Align3、TPO、Self-Refine 等測試時深思方法能顯著提升模型的規(guī)范對齊能力

規(guī)范對齊

規(guī)范對齊(Specification Alignment)的核心,是讓大模型在不同場景下同時滿足兩類規(guī)范: 

1. 安全規(guī)范(safety-spec):界定模型不可逾越的安全邊界。比如,在兒童故事生成的場景中,大模型必須嚴格避免輸出任何暴力或恐怖內(nèi)容;在輔助編程場景中,當用戶要求生成能夠繞過登錄認證的后門代碼時,模型也必須堅決拒絕。

2. 行為規(guī)范(behavioral-spec):規(guī)定模型如何更好地發(fā)揮作用,體現(xiàn)制定規(guī)范的用戶或組織的偏好,包括內(nèi)容偏好、目標導向、輸出格式和表達風格等。比如,在生成童話故事時,要求模型必須蘊含至少一個清晰的教育寓意;在為用戶制定旅行規(guī)劃時,要求模型提供多套可對比的行程方案。

在模型的推理過程中,這種雙重約束可以用一個簡潔的數(shù)學公式來刻畫,即最大化行為規(guī)范的滿足度,同時確保安全風險不超過允許閾值:

其中,是問題,是模型的推理過程,是最終回答,衡量行為規(guī)范的遵循程度,表示安全規(guī)范被違背的風險,是允許的安全風險預算。

然而,現(xiàn)實中的規(guī)范并非一成不變,而是充滿差異。兒童故事要避免恐怖和歧視,同時激發(fā)想象力;代碼生成需要杜絕漏洞,同時保持高效清晰。更重要的是,這些規(guī)范會隨著任務、環(huán)境甚至用戶身份而不斷調(diào)整。旅行規(guī)劃可能因文化差異增加新的禁忌,企業(yè)客服可能隨著季度目標而改變回復風格。許多行為規(guī)范還直接體現(xiàn)了個性化的偏好和需求。

正因如此,規(guī)范對齊成為一個動態(tài)、多樣、細粒度的挑戰(zhàn),要求大模型不僅要守住紅線,還要因地制宜。

圖表 2:規(guī)范對齊范式,關注特定場景下大模型遵循特定規(guī)范的能力 

SpecBench:首個系統(tǒng)評測規(guī)范對齊的基準測試

為了系統(tǒng)評測規(guī)范對齊,研究團隊提出了首個基準 SpecBench,覆蓋五大典型應用場景:兒童故事、健康咨詢、代碼生成、旅行規(guī)劃和生物化學實驗,共包含 103 條規(guī)范和 1500 條精心設計的提示。

在評價方式上,團隊基于前文公式,將安全預算收緊為零,提出規(guī)范對齊率(Specification Alignment Rate, SAR)這一新指標:

如果輸出違背了安全規(guī)范(),得分會直接歸零;如果滿足安全要求,才會根據(jù)行為規(guī)范的完成度()來評分,并保證每個安全輸出至少有一個基線分數(shù)。這樣的設計體現(xiàn)了「先安全,再實用」的原則,為后續(xù)大模型的對齊研究奠定了標準化的評測基礎。

測試時深思:靈活的規(guī)范對齊手段

有了基準,新的問題隨之而來:怎樣讓模型真正做到規(guī)范對齊?模型微調(diào)雖然有效,但成本高、更新慢,而規(guī)范又在不斷變化。為此,研究團隊提出了一種更靈活的思路,測試時深思(Test-time Deliberation,TTD)。它讓模型在推理階段先針對規(guī)范進行深思,然后給出答案,從而在不改動模型參數(shù)的情況下,更好地貼合既定規(guī)范。

圖表 3:測試時深思(Test-Time Deliberation)的幾種代表方法,包含 Best-of-N、TPO 和研究團隊提出的 Align3

在此基礎上,團隊提出了三步式的 TTD 方法 Align3。它在推理過程中依次對齊行為和安全規(guī)范,最后進行整體反思,將規(guī)范對齊嵌入推理鏈條,讓模型表現(xiàn)得更可靠。

實驗結果

研究團隊在 SpecBench 上測試了 33 個模型,其中包括 18 個指令模型和 15 個推理模型。結果顯示,大多數(shù)模型在規(guī)范對齊上存在明顯差距:有的冒險觸碰安全邊界,有的則在遇到風險時一味拒絕。令人意外的是,GPT-5 在五大場景中都展現(xiàn)出斷層式領先,遠遠超越其他模型。研究團隊推測,這與 OpenAI 最新提出的 safe-completion training 密切相關。

圖表 4:不同模型規(guī)范對齊能力的評估結果。其中 GPT-5 斷層式領先,得到了 82.14% 的 SAR 得分

圖表 5:五大場景中,部分模型的 SAR 規(guī)范對齊得分。GPT-5(最外層的紅色線條)遙遙領先

進一步的實驗表明,測試時深思(TTD)能有效提升規(guī)范對齊能力。TPO、Self-Refine、Best-of-N 等方法依靠并行采樣或迭代反思來改進表現(xiàn),但往往需要付出高昂的計算成本。而研究團隊提出的 Align3 只需一次生成,就能在更低成本下實現(xiàn)更好的對齊效果。

圖表 6:在 Qwen3-14B 和 Llama-3.1-8B-Instruct 上,不同 TTD 方法有效提升了規(guī)范對齊效果,其中 Align3 表現(xiàn)突出

展望:邁向更安全、更實用的大模型

規(guī)范對齊是學術上的重要課題,也是大模型真正走進社會和產(chǎn)業(yè)的關鍵門檻。未來的模型要在安全與實用之間找到更細致的平衡,既要守住底線,也要理解用戶需求。SpecBench 提供了統(tǒng)一的評測標準,Align3 展示了輕量高效的解決方案,但這只是開始。隨著規(guī)范日益多樣化和個性化,大模型需要在更復雜的環(huán)境中展現(xiàn)更強的適應力。真正能走進日常生活的 AI,也許正在路上。

目前項目已在 GitHub 開源,歡迎有興趣的同學了解。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-19 09:06:00

2010-01-19 17:23:11

TongWeb

2025-08-04 14:22:33

GPT-5Claude編碼

2024-01-22 13:57:00

模型訓練

2025-08-14 09:31:24

GPT-5AI

2025-08-08 16:22:19

GPT-5CIOIT 團隊

2024-01-18 12:30:03

2023-11-09 12:41:04

AI模型

2025-08-08 06:39:22

2024-04-01 00:50:00

吳恩達智能體

2019-06-03 09:11:59

2020-06-11 08:26:05

信息泄漏密碼網(wǎng)絡安全

2010-08-12 20:55:55

2025-08-04 09:15:00

2023-11-16 15:57:00

數(shù)據(jù)訓練

2025-08-19 16:05:27

GPT-5AI代碼

2014-02-26 15:57:41

eLTE華為

2024-01-09 12:53:16

模型訓練

2023-04-13 13:38:59

2018-05-14 17:30:25

點贊
收藏

51CTO技術棧公眾號