偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI重新開源!深夜連發(fā)兩個推理模型,o4-mini水平,筆記本、手機(jī)可跑

人工智能 新聞
據(jù)在 OpenAI 任職研究科學(xué)家的清華校友翁家翌透露,從 2022 年 OpenAI 內(nèi)部就討論模型開源,并曾數(shù)次接近「開源」目的,但直到今天才實(shí)現(xiàn)。

終于,OpenAI 的新發(fā)布還是來了。

雖然不是我們期待已久的 GPT-5,但也是「something big-but-small today.」

圖片

也就是開源新語言模型。

要知道,這是近幾年來(自 GPT-2 以來),OpenAI 重新開源模型。

據(jù)在 OpenAI 任職研究科學(xué)家的清華校友翁家翌透露,從 2022 年 OpenAI 內(nèi)部就討論模型開源,并曾數(shù)次接近「開源」目的,但直到今天才實(shí)現(xiàn)。

圖片

這次還一下開源了兩個,都是推理模型。

圖片

  • GitHub 地址:https://github.com/openai/gpt-oss
  • hugging face 地址:https://huggingface.co/openai/gpt-oss-20b
  • hugging face 地址:https://huggingface.co/openai/gpt-oss-120b
  • 博客地址:https://openai.com/index/introducing-gpt-oss/

Sam Altman 聲稱,gpt-oss 性能與 o4-mini 水平相當(dāng),并且可以在高端筆記本電腦上運(yùn)行(WTF!?。ㄟ€有一個較小的可以在手機(jī)上運(yùn)行)。

圖片

兩款開源模型與 o3、o4-mini 的跑分結(jié)果比較如下:

圖片

總結(jié)一波,這兩個開源模型的亮點(diǎn)包括:

  • 寬松的 Apache 2.0 許可證:自由構(gòu)建,不受版權(quán)限制或?qū)@L(fēng)險 - 非常適合實(shí)驗(yàn)、定制和商業(yè)部署。
  • 可調(diào)整的推理力度:根據(jù)具體用例和延遲需求輕松調(diào)整推理力度(低、中、高)。
  • 完整的思維鏈(CoT):完全可訪問模型的推理過程,從而更輕松地進(jìn)行調(diào)試并增強(qiáng)對輸出的信任。不計(jì)劃向終端用戶展示。
  • 可微調(diào):通過參數(shù)微調(diào),完全可根據(jù)特定用例定制模型。
  • Agentic 功能:使用模型的功能進(jìn)行函數(shù)調(diào)用、網(wǎng)頁瀏覽、Python 代碼執(zhí)行和結(jié)構(gòu)化輸出。
  • 原生 MXFP4 量化:模型使用原生 MXFP4 精度針對 MoE 層進(jìn)行訓(xùn)練,使得 gpt-oss-120b 可在單個 H100 GPU 上運(yùn)行,gpt-oss-20b 模型可在 16GB 內(nèi)存內(nèi)運(yùn)行。

OpenAI 還做了一個 playground ,讓開發(fā)者可以在網(wǎng)頁端簡單嘗試這兩個開源模型,感興趣的讀者可以去體驗(yàn)嘗試。

圖片

試用地址:https://www.gpt-oss.com/

在過去的幾個小時,海外 AI 社區(qū)已經(jīng)炸開了,紛紛開始下載嘗試新模型,以至于 Hugging Face 的 CTO 只能在線請求大家不要全都去下載,服務(wù)器要崩了!

圖片

接下來,就讓我看看下這兩個最新開源模型的技術(shù)細(xì)節(jié)。

開源模型新高度

作為兩個 SOTA 級別的開源語言模型,gpt-oss-120b 和 gpt-oss-20b 可以提供強(qiáng)大的實(shí)際應(yīng)用性能,并具有低成本優(yōu)勢。

兩款模型在推理任務(wù)上超越了同等規(guī)模的開源模型,展示了強(qiáng)大的工具使用能力,并且經(jīng)過優(yōu)化,能夠高效部署在消費(fèi)級硬件上。訓(xùn)練過程中結(jié)合了強(qiáng)化學(xué)習(xí)以及受 OpenAI 內(nèi)部最先進(jìn)模型啟發(fā)的技術(shù),包括 o3 和其他前沿模型。

其中,gpt-oss-120b 模型在核心推理基準(zhǔn)測試上與 o4-mini 幾乎持平,同時能夠在單個 80GB GPU 上高效運(yùn)行。gpt-oss-20b 模型在常見基準(zhǔn)測試中表現(xiàn)與 o3-mini 相似,且僅需 16GB 內(nèi)存即可運(yùn)行,適用于邊緣設(shè)備,非常適合本地推理、設(shè)備端使用或在沒有高昂基礎(chǔ)設(shè)施的情況下快速迭代。

兩款模型在工具使用、few-shot 函數(shù)調(diào)用、CoT 推理以及 HealthBench 測試中表現(xiàn)非常出色,甚至超越了 o1 和 GPT-4o 等專有模型。

兩款模型還具有非常強(qiáng)的系統(tǒng)兼容性,適用于需要卓越指令跟隨、工具使用(如網(wǎng)頁搜索或 Python 代碼執(zhí)行)和推理能力的智能體工作流中,并且能夠根據(jù)任務(wù)的復(fù)雜性來調(diào)整推理力度,從而適應(yīng)不需要復(fù)雜推理和 / 或針對非常低延遲最終輸出的任務(wù)。兩款模型完全可定制,提供完整的 CoT,并支持結(jié)構(gòu)化輸出。

當(dāng)然,安全性是 OpenAI 發(fā)布所有模型的基礎(chǔ),尤其對開源模型至關(guān)重要。因此,除了全面的安全訓(xùn)練和評估測試外,OpenAI 還基于自身的準(zhǔn)備框架(Preparedness Framework)測試了 gpt-oss-120b 的對抗性微調(diào)版本,引入了額外的評估層。從結(jié)果來看,gpt-oss 模型在內(nèi)部安全基準(zhǔn)測試中的表現(xiàn)與 OpenAI 的前沿模型相當(dāng),并提供與其近期專有模型相同的安全標(biāo)準(zhǔn)。

OpenAI 已經(jīng)與 AI Sweden、Orange 和 Snowflake 等早期合作伙伴合作,了解兩款開源模型在現(xiàn)實(shí)應(yīng)用中的情況,包括將它們托管在本地以確保數(shù)據(jù)安全,以及在專業(yè)數(shù)據(jù)集上進(jìn)行微調(diào)。

預(yù)訓(xùn)練與模型架構(gòu)

gpt-oss 模型采用了 OpenAI 最先進(jìn)的預(yù)訓(xùn)練和后訓(xùn)練技術(shù),尤其關(guān)注推理、效率和在各種部署環(huán)境中的現(xiàn)實(shí)可用性。

兩款模型均采用 Transformer 架構(gòu),并利用專家混合(MoE)來減少處理輸入所需的活躍參數(shù)數(shù)量。其中,gpt-oss-120b 每個 token 激活 5.1B 參數(shù),而 gpt-oss-20b 則激活 3.6B 參數(shù)。兩款模型的總參數(shù)分別為 117B 和 21B。

此外,兩款模型采用交替密集和局部帶狀稀疏注意力模式,類似于 GPT-3。為了提高推理和內(nèi)存效率,模型還使用了分組多查詢注意力,組大小為 8。同時利用旋轉(zhuǎn)位置編碼(RoPE)進(jìn)行位置編碼,并原生支持最長 128k 的上下文長度。

圖片

在訓(xùn)練集上,OpenAI 在一個主要是英文的文本數(shù)據(jù)集上訓(xùn)練了兩款模型,重點(diǎn)關(guān)注 STEM、編程和常識類內(nèi)容,并使用一個比 o4-mini 和 GPT?4o 所使用更為廣泛的分詞器(tokenizer)對數(shù)據(jù)進(jìn)行分詞 ——o200k_harmony,同樣也將其開源。

后訓(xùn)練

OpenAI 聲稱開源模型采用了與 o4-mini 相似的后訓(xùn)練流程,包含監(jiān)督微調(diào)和高計(jì)算強(qiáng)化學(xué)習(xí)階段。此外,OpenAI 還訓(xùn)練模型在輸出答案前先進(jìn)行思維鏈推理和工具調(diào)用。通過采用與 OpenAI 專有推理模型相同的技術(shù),這些模型在后訓(xùn)練后展現(xiàn)出卓越的能力。

與 API 中的 OpenAI o 系列推理模型類似,這兩款開源模型支持「低、中、高」三檔推理強(qiáng)度調(diào)節(jié),開發(fā)者只需在系統(tǒng)消息中添加一行指令即可輕松設(shè)置,實(shí)現(xiàn)延遲與性能的平衡。

性能評估

OpenAI 在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上對比測試了 GPT-OSS-120B/20B 與 o3、o3-mini 及 o4-mini 等 OpenAI 推理模型,涵蓋編程、競賽數(shù)學(xué)、醫(yī)療和智能體工具使用等維度:

一系列測試結(jié)果表明,GPT-OSS-120B 在編程競賽(Codeforces)、綜合問題解答(MMLU 和 HLE)及工具調(diào)用(TauBench)方面超越 o3-mini,達(dá)到甚至超過 o4-mini 水平。

在醫(yī)療查詢(HealthBench)和競賽數(shù)學(xué)(AIME 2024&2025)領(lǐng)域表現(xiàn)更優(yōu)于 O4-mini。盡管體積小巧,GPT-OSS-20B 在這些測試中仍與 o3-mini 持平甚至超越,尤其在競賽數(shù)學(xué)和醫(yī)療領(lǐng)域表現(xiàn)更為突出。

圖片

CodeforcesCompetition 編程基準(zhǔn)

圖片

人類最后考試 —— 跨學(xué)科的專家級問題

圖片

HealthBench 基準(zhǔn)測試

圖片

AIME 2024 和 AIME 2025 基準(zhǔn)(使用工具)

圖片

GPQA Diamond(不使用工具)和 MMLU 基準(zhǔn)

圖片

AIME 數(shù)學(xué)競賽

圖片

GPQA Diamond(使用工具)博士級別科學(xué)問題

完整評估結(jié)果如下表所示:

圖片

思維鏈

OpenAI 近期的研究表明,只要模型未經(jīng)過直接監(jiān)督對齊其思維鏈,監(jiān)控推理模型的思維鏈過程有助于檢測異常行為。這一觀點(diǎn)也得到業(yè)內(nèi)其他研究者的認(rèn)同。

因此在 GPT-OSS 系列模型的訓(xùn)練中未對思維鏈?zhǔn)┘尤魏沃苯颖O(jiān)督。

OpenAI 認(rèn)為,這對于監(jiān)測模型異常行為、欺騙性輸出及濫用風(fēng)險至關(guān)重要。通過發(fā)布具備無監(jiān)督思維鏈能力的開源模型,希望為開發(fā)者和研究人員提供研究及實(shí)現(xiàn)自有思維鏈監(jiān)控系統(tǒng)的機(jī)會。

更多的模型細(xì)節(jié)和評估結(jié)果請參考模型卡(model card):

圖片

模型卡地址:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

最后,在 GPT-5 遲遲未發(fā)布的情況下,你覺得 OpenAI 能否憑這兩個開源模型挽尊呢?與國內(nèi)開源模型比誰更香?歡迎已經(jīng)用上的讀者們討論。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-08-06 07:42:26

2025-04-23 08:30:05

2025-04-17 08:59:59

2024-12-24 16:15:04

2024-09-24 11:01:03

2025-04-01 08:45:15

2023-10-09 12:36:58

2025-04-18 11:18:51

2025-01-21 11:53:53

2025-05-23 09:14:57

2025-04-17 06:10:57

2025-02-08 17:00:11

2024-12-26 07:10:00

2025-04-21 16:25:58

OpenAI測試模型

2025-04-07 07:18:48

2025-07-30 08:40:00

AI編程模型

2025-04-17 07:23:10

2024-02-22 07:44:02

2016-09-17 11:57:14

手機(jī)筆記本臺式機(jī)

2025-01-20 19:52:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號