OpenAI重新開源！深夜連發(fā)兩個推理模型，o4-mini水平，筆記本、手機(jī)可跑

2025-08-06 09:02:31

人工智能新聞

據(jù)在 OpenAI 任職研究科學(xué)家的清華校友翁家翌透露，從 2022 年 OpenAI 內(nèi)部就討論模型開源，并曾數(shù)次接近「開源」目的，但直到今天才實(shí)現(xiàn)。

終于，OpenAI 的新發(fā)布還是來了。

雖然不是我們期待已久的 GPT-5，但也是「something big-but-small today.」

也就是開源新語言模型。

要知道，這是近幾年來（自 GPT-2 以來），OpenAI 重新開源模型。

這次還一下開源了兩個，都是推理模型。

GitHub 地址：https://github.com/openai/gpt-oss
hugging face 地址：https://huggingface.co/openai/gpt-oss-20b
hugging face 地址：https://huggingface.co/openai/gpt-oss-120b
博客地址：https://openai.com/index/introducing-gpt-oss/

Sam Altman 聲稱，gpt-oss 性能與 o4-mini 水平相當(dāng)，并且可以在高端筆記本電腦上運(yùn)行（WTF！?。ㄟ€有一個較小的可以在手機(jī)上運(yùn)行）。

兩款開源模型與 o3、o4-mini 的跑分結(jié)果比較如下：

總結(jié)一波，這兩個開源模型的亮點(diǎn)包括：

寬松的 Apache 2.0 許可證：自由構(gòu)建，不受版權(quán)限制或?qū)＠L(fēng)險 - 非常適合實(shí)驗(yàn)、定制和商業(yè)部署。
可調(diào)整的推理力度：根據(jù)具體用例和延遲需求輕松調(diào)整推理力度（低、中、高）。
完整的思維鏈（CoT）：完全可訪問模型的推理過程，從而更輕松地進(jìn)行調(diào)試并增強(qiáng)對輸出的信任。不計(jì)劃向終端用戶展示。
可微調(diào)：通過參數(shù)微調(diào)，完全可根據(jù)特定用例定制模型。
Agentic 功能：使用模型的功能進(jìn)行函數(shù)調(diào)用、網(wǎng)頁瀏覽、Python 代碼執(zhí)行和結(jié)構(gòu)化輸出。
原生 MXFP4 量化：模型使用原生 MXFP4 精度針對 MoE 層進(jìn)行訓(xùn)練，使得 gpt-oss-120b 可在單個 H100 GPU 上運(yùn)行，gpt-oss-20b 模型可在 16GB 內(nèi)存內(nèi)運(yùn)行。

OpenAI 還做了一個 playground ，讓開發(fā)者可以在網(wǎng)頁端簡單嘗試這兩個開源模型，感興趣的讀者可以去體驗(yàn)嘗試。

試用地址：https://www.gpt-oss.com/

在過去的幾個小時，海外 AI 社區(qū)已經(jīng)炸開了，紛紛開始下載嘗試新模型，以至于 Hugging Face 的 CTO 只能在線請求大家不要全都去下載，服務(wù)器要崩了！

接下來，就讓我看看下這兩個最新開源模型的技術(shù)細(xì)節(jié)。

開源模型新高度

作為兩個 SOTA 級別的開源語言模型，gpt-oss-120b 和 gpt-oss-20b 可以提供強(qiáng)大的實(shí)際應(yīng)用性能，并具有低成本優(yōu)勢。

兩款模型在推理任務(wù)上超越了同等規(guī)模的開源模型，展示了強(qiáng)大的工具使用能力，并且經(jīng)過優(yōu)化，能夠高效部署在消費(fèi)級硬件上。訓(xùn)練過程中結(jié)合了強(qiáng)化學(xué)習(xí)以及受 OpenAI 內(nèi)部最先進(jìn)模型啟發(fā)的技術(shù)，包括 o3 和其他前沿模型。

其中，gpt-oss-120b 模型在核心推理基準(zhǔn)測試上與 o4-mini 幾乎持平，同時能夠在單個 80GB GPU 上高效運(yùn)行。gpt-oss-20b 模型在常見基準(zhǔn)測試中表現(xiàn)與 o3-mini 相似，且僅需 16GB 內(nèi)存即可運(yùn)行，適用于邊緣設(shè)備，非常適合本地推理、設(shè)備端使用或在沒有高昂基礎(chǔ)設(shè)施的情況下快速迭代。

兩款模型在工具使用、few-shot 函數(shù)調(diào)用、CoT 推理以及 HealthBench 測試中表現(xiàn)非常出色，甚至超越了 o1 和 GPT-4o 等專有模型。

兩款模型還具有非常強(qiáng)的系統(tǒng)兼容性，適用于需要卓越指令跟隨、工具使用（如網(wǎng)頁搜索或 Python 代碼執(zhí)行）和推理能力的智能體工作流中，并且能夠根據(jù)任務(wù)的復(fù)雜性來調(diào)整推理力度，從而適應(yīng)不需要復(fù)雜推理和 / 或針對非常低延遲最終輸出的任務(wù)。兩款模型完全可定制，提供完整的 CoT，并支持結(jié)構(gòu)化輸出。

當(dāng)然，安全性是 OpenAI 發(fā)布所有模型的基礎(chǔ)，尤其對開源模型至關(guān)重要。因此，除了全面的安全訓(xùn)練和評估測試外，OpenAI 還基于自身的準(zhǔn)備框架（Preparedness Framework）測試了 gpt-oss-120b 的對抗性微調(diào)版本，引入了額外的評估層。從結(jié)果來看，gpt-oss 模型在內(nèi)部安全基準(zhǔn)測試中的表現(xiàn)與 OpenAI 的前沿模型相當(dāng)，并提供與其近期專有模型相同的安全標(biāo)準(zhǔn)。

OpenAI 已經(jīng)與 AI Sweden、Orange 和 Snowflake 等早期合作伙伴合作，了解兩款開源模型在現(xiàn)實(shí)應(yīng)用中的情況，包括將它們托管在本地以確保數(shù)據(jù)安全，以及在專業(yè)數(shù)據(jù)集上進(jìn)行微調(diào)。

預(yù)訓(xùn)練與模型架構(gòu)

gpt-oss 模型采用了 OpenAI 最先進(jìn)的預(yù)訓(xùn)練和后訓(xùn)練技術(shù)，尤其關(guān)注推理、效率和在各種部署環(huán)境中的現(xiàn)實(shí)可用性。

兩款模型均采用 Transformer 架構(gòu)，并利用專家混合（MoE）來減少處理輸入所需的活躍參數(shù)數(shù)量。其中，gpt-oss-120b 每個 token 激活 5.1B 參數(shù)，而 gpt-oss-20b 則激活 3.6B 參數(shù)。兩款模型的總參數(shù)分別為 117B 和 21B。

此外，兩款模型采用交替密集和局部帶狀稀疏注意力模式，類似于 GPT-3。為了提高推理和內(nèi)存效率，模型還使用了分組多查詢注意力，組大小為 8。同時利用旋轉(zhuǎn)位置編碼（RoPE）進(jìn)行位置編碼，并原生支持最長 128k 的上下文長度。

在訓(xùn)練集上，OpenAI 在一個主要是英文的文本數(shù)據(jù)集上訓(xùn)練了兩款模型，重點(diǎn)關(guān)注 STEM、編程和常識類內(nèi)容，并使用一個比 o4-mini 和 GPT?4o 所使用更為廣泛的分詞器（tokenizer）對數(shù)據(jù)進(jìn)行分詞 ——o200k_harmony，同樣也將其開源。

后訓(xùn)練

OpenAI 聲稱開源模型采用了與 o4-mini 相似的后訓(xùn)練流程，包含監(jiān)督微調(diào)和高計(jì)算強(qiáng)化學(xué)習(xí)階段。此外，OpenAI 還訓(xùn)練模型在輸出答案前先進(jìn)行思維鏈推理和工具調(diào)用。通過采用與 OpenAI 專有推理模型相同的技術(shù)，這些模型在后訓(xùn)練后展現(xiàn)出卓越的能力。

與 API 中的 OpenAI o 系列推理模型類似，這兩款開源模型支持「低、中、高」三檔推理強(qiáng)度調(diào)節(jié)，開發(fā)者只需在系統(tǒng)消息中添加一行指令即可輕松設(shè)置，實(shí)現(xiàn)延遲與性能的平衡。

性能評估

OpenAI 在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上對比測試了 GPT-OSS-120B/20B 與 o3、o3-mini 及 o4-mini 等 OpenAI 推理模型，涵蓋編程、競賽數(shù)學(xué)、醫(yī)療和智能體工具使用等維度：

一系列測試結(jié)果表明，GPT-OSS-120B 在編程競賽（Codeforces）、綜合問題解答（MMLU 和 HLE）及工具調(diào)用（TauBench）方面超越 o3-mini，達(dá)到甚至超過 o4-mini 水平。

在醫(yī)療查詢（HealthBench）和競賽數(shù)學(xué)（AIME 2024&2025）領(lǐng)域表現(xiàn)更優(yōu)于 O4-mini。盡管體積小巧，GPT-OSS-20B 在這些測試中仍與 o3-mini 持平甚至超越，尤其在競賽數(shù)學(xué)和醫(yī)療領(lǐng)域表現(xiàn)更為突出。

CodeforcesCompetition 編程基準(zhǔn)

人類最后考試 —— 跨學(xué)科的專家級問題

HealthBench 基準(zhǔn)測試

AIME 2024 和 AIME 2025 基準(zhǔn)（使用工具）

GPQA Diamond（不使用工具）和 MMLU 基準(zhǔn)

AIME 數(shù)學(xué)競賽

GPQA Diamond（使用工具）博士級別科學(xué)問題

完整評估結(jié)果如下表所示：

思維鏈

OpenAI 近期的研究表明，只要模型未經(jīng)過直接監(jiān)督對齊其思維鏈，監(jiān)控推理模型的思維鏈過程有助于檢測異常行為。這一觀點(diǎn)也得到業(yè)內(nèi)其他研究者的認(rèn)同。

因此在 GPT-OSS 系列模型的訓(xùn)練中未對思維鏈?zhǔn)┘尤魏沃苯颖O(jiān)督。

OpenAI 認(rèn)為，這對于監(jiān)測模型異常行為、欺騙性輸出及濫用風(fēng)險至關(guān)重要。通過發(fā)布具備無監(jiān)督思維鏈能力的開源模型，希望為開發(fā)者和研究人員提供研究及實(shí)現(xiàn)自有思維鏈監(jiān)控系統(tǒng)的機(jī)會。

更多的模型細(xì)節(jié)和評估結(jié)果請參考模型卡（model card）：