偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<strong id="ry39i"><th id="ry39i"></th></strong>

<blockquote id="ry39i"></blockquote>

<dfn id="ry39i"><fieldset id="ry39i"><tbody id="ry39i"></tbody></fieldset></dfn>

<blockquote id="ry39i"></blockquote>

<abbr id="ry39i"></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b

發(fā)布于 2025-10-31 07:46

瀏覽

0收藏

OpenAI 開源了兩款用于危害分類的開源權(quán)重推理安全模型：gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b；這些模型接收開發(fā)者的策略文本和內(nèi)容作為輸入，返回分類標(biāo)簽和解釋說明，讓你可以用可審計(jì)的推理過程來執(zhí)行自己的規(guī)則。

核心創(chuàng)新：這些模型將內(nèi)容審核從固定分類器轉(zhuǎn)變?yōu)榛诓呗缘耐评?。修改?guī)則就像編輯策略文本一樣簡(jiǎn)單，無需重新訓(xùn)練、無需新數(shù)據(jù)集、無需新檢查點(diǎn)。

OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b-AI.x社區(qū)

因?yàn)椴呗允禽斎雲(yún)?shù)，你可以為不同產(chǎn)品、地區(qū)或年齡段切換不同策略，同一個(gè)模型就能遵循每一套規(guī)則。你還能獲得解釋說明，展示策略文本如何引導(dǎo)決策，這讓審計(jì)和申訴變得更容易。

輸出包含簡(jiǎn)短的推理依據(jù)，說明策略文本如何得出決策結(jié)論，大大簡(jiǎn)化了審查和申訴流程。

適用場(chǎng)景：這種方法在以下情況下表現(xiàn)出色:

風(fēng)險(xiǎn)是新出現(xiàn)的
訓(xùn)練數(shù)據(jù)稀缺
領(lǐng)域內(nèi)容復(fù)雜微妙
需要高質(zhì)量可解釋的標(biāo)簽而非最低延遲

例如，論壇可以使用自己的定義來標(biāo)記作弊言論，評(píng)論網(wǎng)站可以用自己的標(biāo)準(zhǔn)篩查虛假評(píng)價(jià)，只需編輯策略文本，無需收集數(shù)千個(gè)標(biāo)注樣本。

內(nèi)部應(yīng)用：在 OpenAI 內(nèi)部，他們使用類似的工具叫 Safety Reasoner，通過強(qiáng)化學(xué)習(xí)微調(diào)來獎(jiǎng)勵(lì)符合策略的判斷，讓模型學(xué)會(huì)從策略文本進(jìn)行推理。

這種策略讓他們能快速更新生產(chǎn)環(huán)境中的安全規(guī)則，先從嚴(yán)格開始，然后根據(jù)實(shí)際情況放松或收緊，這個(gè)過程稱為迭代部署。

他們還報(bào)告稱，安全推理有時(shí)確實(shí)需要大量算力，在某些發(fā)布中，謹(jǐn)慎應(yīng)用策略消耗了總算力的 16%。

實(shí)用架構(gòu)模式：OpenAI 描述了他們內(nèi)部技術(shù)棧的一個(gè)實(shí)用模式:先運(yùn)行一個(gè)輕量廉價(jià)的分類器過濾明顯安全的內(nèi)容，只將少量棘手的項(xiàng)目發(fā)送給重量級(jí)推理模型。

Safety Reasoner 現(xiàn)已成為圖像生成和 Sora 2 核心安全技術(shù)棧的一部分，逐步評(píng)估輸出并實(shí)時(shí)攔截不安全的生成內(nèi)容。

同樣的分層檢查機(jī)制在 GPT-5 和 ChatGPT Agent 等系統(tǒng)中根據(jù)詳細(xì)分類法對(duì)輸出進(jìn)行分類，讓平臺(tái)能針對(duì)特定風(fēng)險(xiǎn)類別定制響應(yīng)。

OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b-AI.x社區(qū) 圖片

性能表現(xiàn)：多策略準(zhǔn)確率測(cè)試(單個(gè)輸入必須同時(shí)符合多個(gè)策略):

gpt-oss-safeguard-120b: 46.3%
gpt-oss-safeguard-20b: 43.6%
內(nèi)部 Safety Reasoner: 52.2%
gpt-5-thinking: 43.2%

這個(gè)指標(biāo)很嚴(yán)格，只有模型在所有策略上都匹配黃金標(biāo)簽才算準(zhǔn)確，是一個(gè)強(qiáng)調(diào)一致性的高標(biāo)準(zhǔn)。

OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b-AI.x社區(qū) 圖片

OpenAI 2022 審核數(shù)據(jù)集:

兩款 gpt-oss-safeguard 模型: F1 分?jǐn)?shù) 82.9
內(nèi)部 Safety Reasoner: F1 分?jǐn)?shù) 82.8 開源權(quán)重模型表現(xiàn)相當(dāng)。

ToxicChat 基準(zhǔn)測(cè)試:

gpt-oss-safeguard-120b 和 20b: F1 分?jǐn)?shù) 79.3 和 79.9
內(nèi)部 Safety Reasoner 和 gpt-5-thinking: F1 分?jǐn)?shù) 81.3 和 81.0 緊湊的開源模型有競(jìng)爭(zhēng)力，但在這個(gè)特定測(cè)試中不是頂尖。

技術(shù)特點(diǎn)與局限：這些模型是 OpenAI 開源模型的微調(diào)版本，可以融入現(xiàn)有的開源權(quán)重技術(shù)棧，適用于有數(shù)據(jù)駐留或離線控制需求的場(chǎng)景。

明確的局限性:

在困難類別上，使用數(shù)萬高質(zhì)量標(biāo)簽訓(xùn)練的專用分類器仍可能優(yōu)于基于策略的推理
存在成本權(quán)衡:推理比小型分類器需要更多時(shí)間和算力，因此分層管道是高流量平臺(tái)的實(shí)用模式

使用建議：對(duì)于開發(fā)者來說，選擇很直接:

使用 gpt-oss-safeguard: 當(dāng)策略經(jīng)常變化、需要解釋說明、標(biāo)注數(shù)據(jù)稀缺時(shí)
使用專用分類器: 當(dāng)你能承擔(dān)大規(guī)模標(biāo)注工作并需要最后幾個(gè)百分點(diǎn)的準(zhǔn)確率時(shí)

核心價(jià)值：總的來說，這里最強(qiáng)大的理念是策略即提示詞(policy-as-prompt)配合可見推理，它將安全規(guī)則與模型權(quán)重解耦，縮短了從策略變更到生產(chǎn)環(huán)境行為改變的周期。

如何使用 gpt-oss-safeguard：與 gpt-oss 系列模型一樣，這是一個(gè)開源模型，具有開放權(quán)重，你可以在本地運(yùn)行或集成到自己的基礎(chǔ)設(shè)施中。它設(shè)計(jì)為與 harmony 響應(yīng)格式配合使用。Harmony 是一種結(jié)構(gòu)化提示詞接口，為 gpt-oss-safeguard 提供完整推理?xiàng)５脑L問權(quán)限，并確保輸出一致且格式規(guī)范。

運(yùn)行環(huán)境：gpt-oss 系列模型(包括 gpt-oss-safeguard)可以在以下服務(wù)器環(huán)境中運(yùn)行:

vLLM(適用于專用 GPU，如 NVIDIA H100)：gpt-oss vLLM Usage Guide；https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html
HuggingFace Transformers(適用于消費(fèi)級(jí) GPU)：How to run gpt-oss locally with LM Studio；https://cookbook.openai.com/articles/gpt-oss/run-locally-lmstudio
Google Colab：How to run gpt-oss-20b on Google Colab；

??https://cookbook.openai.com/articles/gpt-oss/run-colab??

也可以在本地運(yùn)行:

LM Studio：How to run gpt-oss locally with LM Studio；https://cookbook.openai.com/articles/gpt-oss/run-locally-lmstudio
Ollama：How to run gpt-oss locally with Ollama；

??https://cookbook.openai.com/articles/gpt-oss/run-locally-ollama??

目標(biāo)用戶：gpt-oss-safeguard 專為需要大規(guī)模實(shí)時(shí)上下文和自動(dòng)化的用戶設(shè)計(jì)，包括:

機(jī)器學(xué)習(xí)/AI 工程師 - 從事信任與安全系統(tǒng)工作，需要靈活的內(nèi)容審核
信任與安全工程師- 構(gòu)建或改進(jìn)審核、信任與安全或平臺(tái)完整性管道
技術(shù)項(xiàng)目經(jīng)理- 監(jiān)督內(nèi)容安全計(jì)劃
開發(fā)者- 構(gòu)建需要基于上下文和策略的內(nèi)容審核的項(xiàng)目/應(yīng)用
策略制定者- 定義組織可接受內(nèi)容標(biāo)準(zhǔn)，希望測(cè)試策略界限、生成示例并評(píng)估內(nèi)容

模型地址：https://huggingface.co/collections/openai/gpt-oss-safeguard

本文轉(zhuǎn)載自??AI帝國(guó)??，作者：無影寺

標(biāo)簽

已于2025-10-31 07:46:52修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

2萬億訓(xùn)練數(shù)據(jù)，120億參數(shù)！開源大模型Stable LM 2-12B

Aceryt ? 4960瀏覽 ? 0回復(fù)
Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負(fù)谷歌

輕薄滴假象 ? 3694瀏覽 ? 0回復(fù)
Llama 3來了！首批開源 8B 和 70B兩個(gè)版本，未來有望開源400B大模型！

AIGC最前線 ? 1.4w瀏覽 ? 0回復(fù)
OpenAI神秘gpt2正在A/B測(cè)試，奧特曼搶先劇透，網(wǎng)友已玩嗨

Crystalcxt ? 3267瀏覽 ? 0回復(fù)
AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！

大語(yǔ)言模型論文跟蹤 ? 1.0w瀏覽 ? 0回復(fù)
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 6255瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 7299瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理

Aceryt ? 3819瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測(cè)試中超越了 GPT-4o

Halo咯咯 ? 1.4w瀏覽 ? 0回復(fù)
OpenAI GPT-OSS 120B/20B 詳解：性能追平專有模型，開發(fā)者可本地微調(diào)

柏企閱文 ? 1.4w瀏覽 ? 0回復(fù)
OpenAI終于開源了！gpt-oss-120B對(duì)飆o4-mini，20B可手機(jī)運(yùn)行

Halo咯咯 ? 3516瀏覽 ? 0回復(fù)
全球最佳開放模型！OpenAI開源GPT-OSS，AI界迎來巨變！

墨風(fēng)如雪小站 ? 2860瀏覽 ? 0回復(fù)
OpenAI“補(bǔ)課”式發(fā)布兩個(gè)開放權(quán)重模型GPT-OSS | 5個(gè)技術(shù)看點(diǎn) | 時(shí)隔六年多，再次擁抱開源

后向傳播 ? 2366瀏覽 ? 0回復(fù)
如何在你的計(jì)算機(jī)上運(yùn)行OpenAI新的gpt-oss-20b LLM？

51CTO內(nèi)容精選 ? 2046瀏覽 ? 0回復(fù)
GPT-OSS 20B挑戰(zhàn)Qwen3 30B-A3B，誰(shuí)更適合你？

Halo咯咯 ? 9389瀏覽 ? 0回復(fù)
OpenAI回歸開源：gpt-oss-120b和gpt-oss-20b完整指南

51CTO內(nèi)容精選 ? 2130瀏覽 ? 0回復(fù)
開源大模型如何選擇？GPT-OSS綜合評(píng)估與一些結(jié)論

大模型自然語(yǔ)言處理 ? 4084瀏覽 ? 0回復(fù)
OpenAI 開源模型 gpt-oss 是在合成數(shù)據(jù)上訓(xùn)練的嗎？一些合理推測(cè)

Baihai_IDP ? 1265瀏覽 ? 0回復(fù)
圖解GPT-OSS：架構(gòu)、消息格式與推理機(jī)制等

Syrupup ? 1860瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

HedgeSpec：比EAGLE3推理速度快2倍的LLM推測(cè)解碼 2天前發(fā)布
黑盒模型溯源：利用訓(xùn)練數(shù)據(jù)順序的"重寫效應(yīng)"追蹤模型來源 2天前發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： HedgeSpec：比EAGLE3推理速度快2倍的LLM推測(cè)解碼

社區(qū)精華內(nèi)容

目錄

<li id="qglh8"><progress id="qglh8"><wbr id="qglh8"></wbr></progress></li>