OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
OpenAI 開源了兩款用于危害分類的開源權(quán)重推理安全模型:gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b;這些模型接收開發(fā)者的策略文本和內(nèi)容作為輸入,返回分類標(biāo)簽和解釋說明,讓你可以用可審計(jì)的推理過程來執(zhí)行自己的規(guī)則。
核心創(chuàng)新:這些模型將內(nèi)容審核從固定分類器轉(zhuǎn)變?yōu)榛诓呗缘耐评?。修改?guī)則就像編輯策略文本一樣簡(jiǎn)單,無需重新訓(xùn)練、無需新數(shù)據(jù)集、無需新檢查點(diǎn)。

因?yàn)椴呗允禽斎雲(yún)?shù),你可以為不同產(chǎn)品、地區(qū)或年齡段切換不同策略,同一個(gè)模型就能遵循每一套規(guī)則。你還能獲得解釋說明,展示策略文本如何引導(dǎo)決策,這讓審計(jì)和申訴變得更容易。
輸出包含簡(jiǎn)短的推理依據(jù),說明策略文本如何得出決策結(jié)論,大大簡(jiǎn)化了審查和申訴流程。
適用場(chǎng)景:這種方法在以下情況下表現(xiàn)出色:
- 風(fēng)險(xiǎn)是新出現(xiàn)的
- 訓(xùn)練數(shù)據(jù)稀缺
- 領(lǐng)域內(nèi)容復(fù)雜微妙
- 需要高質(zhì)量可解釋的標(biāo)簽而非最低延遲
例如,論壇可以使用自己的定義來標(biāo)記作弊言論,評(píng)論網(wǎng)站可以用自己的標(biāo)準(zhǔn)篩查虛假評(píng)價(jià),只需編輯策略文本,無需收集數(shù)千個(gè)標(biāo)注樣本。
內(nèi)部應(yīng)用:在 OpenAI 內(nèi)部,他們使用類似的工具叫 Safety Reasoner,通過強(qiáng)化學(xué)習(xí)微調(diào)來獎(jiǎng)勵(lì)符合策略的判斷,讓模型學(xué)會(huì)從策略文本進(jìn)行推理。
這種策略讓他們能快速更新生產(chǎn)環(huán)境中的安全規(guī)則,先從嚴(yán)格開始,然后根據(jù)實(shí)際情況放松或收緊,這個(gè)過程稱為迭代部署。
他們還報(bào)告稱,安全推理有時(shí)確實(shí)需要大量算力,在某些發(fā)布中,謹(jǐn)慎應(yīng)用策略消耗了總算力的 16%。
實(shí)用架構(gòu)模式:OpenAI 描述了他們內(nèi)部技術(shù)棧的一個(gè)實(shí)用模式:先運(yùn)行一個(gè)輕量廉價(jià)的分類器過濾明顯安全的內(nèi)容,只將少量棘手的項(xiàng)目發(fā)送給重量級(jí)推理模型。
Safety Reasoner 現(xiàn)已成為圖像生成和 Sora 2 核心安全技術(shù)棧的一部分,逐步評(píng)估輸出并實(shí)時(shí)攔截不安全的生成內(nèi)容。
同樣的分層檢查機(jī)制在 GPT-5 和 ChatGPT Agent 等系統(tǒng)中根據(jù)詳細(xì)分類法對(duì)輸出進(jìn)行分類,讓平臺(tái)能針對(duì)特定風(fēng)險(xiǎn)類別定制響應(yīng)。
圖片
性能表現(xiàn):多策略準(zhǔn)確率測(cè)試(單個(gè)輸入必須同時(shí)符合多個(gè)策略):
- gpt-oss-safeguard-120b: 46.3%
- gpt-oss-safeguard-20b: 43.6%
- 內(nèi)部 Safety Reasoner: 52.2%
- gpt-5-thinking: 43.2%
這個(gè)指標(biāo)很嚴(yán)格,只有模型在所有策略上都匹配黃金標(biāo)簽才算準(zhǔn)確,是一個(gè)強(qiáng)調(diào)一致性的高標(biāo)準(zhǔn)。
圖片
OpenAI 2022 審核數(shù)據(jù)集:
- 兩款 gpt-oss-safeguard 模型: F1 分?jǐn)?shù) 82.9
- 內(nèi)部 Safety Reasoner: F1 分?jǐn)?shù) 82.8 開源權(quán)重模型表現(xiàn)相當(dāng)。
ToxicChat 基準(zhǔn)測(cè)試:
- gpt-oss-safeguard-120b 和 20b: F1 分?jǐn)?shù) 79.3 和 79.9
- 內(nèi)部 Safety Reasoner 和 gpt-5-thinking: F1 分?jǐn)?shù) 81.3 和 81.0 緊湊的開源模型有競(jìng)爭(zhēng)力,但在這個(gè)特定測(cè)試中不是頂尖。
技術(shù)特點(diǎn)與局限:這些模型是 OpenAI 開源模型的微調(diào)版本,可以融入現(xiàn)有的開源權(quán)重技術(shù)棧,適用于有數(shù)據(jù)駐留或離線控制需求的場(chǎng)景。
明確的局限性:
- 在困難類別上,使用數(shù)萬高質(zhì)量標(biāo)簽訓(xùn)練的專用分類器仍可能優(yōu)于基于策略的推理
- 存在成本權(quán)衡:推理比小型分類器需要更多時(shí)間和算力,因此分層管道是高流量平臺(tái)的實(shí)用模式
使用建議:對(duì)于開發(fā)者來說,選擇很直接:
- 使用 gpt-oss-safeguard: 當(dāng)策略經(jīng)常變化、需要解釋說明、標(biāo)注數(shù)據(jù)稀缺時(shí)
- 使用專用分類器: 當(dāng)你能承擔(dān)大規(guī)模標(biāo)注工作并需要最后幾個(gè)百分點(diǎn)的準(zhǔn)確率時(shí)
核心價(jià)值:總的來說,這里最強(qiáng)大的理念是策略即提示詞(policy-as-prompt)配合可見推理,它將安全規(guī)則與模型權(quán)重解耦,縮短了從策略變更到生產(chǎn)環(huán)境行為改變的周期。
如何使用 gpt-oss-safeguard:與 gpt-oss 系列模型一樣,這是一個(gè)開源模型,具有開放權(quán)重,你可以在本地運(yùn)行或集成到自己的基礎(chǔ)設(shè)施中。它設(shè)計(jì)為與 harmony 響應(yīng)格式配合使用。Harmony 是一種結(jié)構(gòu)化提示詞接口,為 gpt-oss-safeguard 提供完整推理?xiàng)5脑L問權(quán)限,并確保輸出一致且格式規(guī)范。
運(yùn)行環(huán)境:gpt-oss 系列模型(包括 gpt-oss-safeguard)可以在以下服務(wù)器環(huán)境中運(yùn)行:
- vLLM(適用于專用 GPU,如 NVIDIA H100):gpt-oss vLLM Usage Guide;https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html
- HuggingFace Transformers(適用于消費(fèi)級(jí) GPU):How to run gpt-oss locally with LM Studio;https://cookbook.openai.com/articles/gpt-oss/run-locally-lmstudio
- Google Colab:How to run gpt-oss-20b on Google Colab;
??https://cookbook.openai.com/articles/gpt-oss/run-colab??
也可以在本地運(yùn)行:
- LM Studio:How to run gpt-oss locally with LM Studio;https://cookbook.openai.com/articles/gpt-oss/run-locally-lmstudio
- Ollama:How to run gpt-oss locally with Ollama;
??https://cookbook.openai.com/articles/gpt-oss/run-locally-ollama??
目標(biāo)用戶:gpt-oss-safeguard 專為需要大規(guī)模實(shí)時(shí)上下文和自動(dòng)化的用戶設(shè)計(jì),包括:
- 機(jī)器學(xué)習(xí)/AI 工程師 - 從事信任與安全系統(tǒng)工作,需要靈活的內(nèi)容審核
- 信任與安全工程師- 構(gòu)建或改進(jìn)審核、信任與安全或平臺(tái)完整性管道
- 技術(shù)項(xiàng)目經(jīng)理- 監(jiān)督內(nèi)容安全計(jì)劃
- 開發(fā)者- 構(gòu)建需要基于上下文和策略的內(nèi)容審核的項(xiàng)目/應(yīng)用
- 策略制定者- 定義組織可接受內(nèi)容標(biāo)準(zhǔn),希望測(cè)試策略界限、生成示例并評(píng)估內(nèi)容
模型地址:https://huggingface.co/collections/openai/gpt-oss-safeguard
本文轉(zhuǎn)載自??AI帝國(guó)??,作者:無影寺

















