全網(wǎng)開測GPT-oss!技術(shù)架構(gòu)也扒明白了
全網(wǎng)開扒GPT-oss,驚喜發(fā)現(xiàn)……
奧特曼還是謙虛了,這性能豈止是o4-mini的水平,直接SOTA擊穿一眾開源模型。
圖片
不僅輕松通過多項性能測試,網(wǎng)友也整起了各種花活:
論文解讀、整理數(shù)據(jù),甚至造出類似于Grok 4 Heavy的GPT-oss Pro版。
背后架構(gòu)也是被大佬們挖掘得明明白白,只能說開源真妙哇!
終于理解奧特曼提前預(yù)告的那句話是啥意思了:
即將進(jìn)入SaaS的快時尚時代。
圖片
估計接下來OpenAI還有不少好東西要陸續(xù)發(fā)布……
全網(wǎng)開測GPT-oss
首先,全網(wǎng)最關(guān)注的基準(zhǔn)測試新鮮出爐,GPT-oss直接登頂開源模型王座。
橫掃GPQA Diamond、AIME 2024、AIME 2025和Codeforces榜單,超越DeepSeek R1、Qwen3、Llama 4、Kimi K2等一眾開源模型。
圖片
不過在MMLU上確實還是Qwen3-235B更勝一籌,Kimi-K2也在SWE-Bench上得分更高。
圖片
在核心推理基準(zhǔn)測試中,GPT-oss實現(xiàn)了與o4-mini等同的效果,可以在單個80GB的GPU上高效運行。
另外在一些常見基準(zhǔn)測試中,性能也比肩o3-mini,且只需要一個16GB內(nèi)存的邊緣設(shè)備,預(yù)計GPT-oss將會成為本地推理或快速迭代的理想選擇,而無需昂貴的基礎(chǔ)設(shè)施。
圖片
最小的20B模型可以輕松通過以下三項編碼測試,比一些規(guī)模遠(yuǎn)超過它2-3倍的模型效果要好得多:
- 模擬球在旋轉(zhuǎn)六邊形內(nèi)彈跳,GPT-oss以較高的準(zhǔn)確性盡可能還原了真實物理情況。
 

- 直接增加到20個球,放入七邊形彈跳,且在每次彈跳都提高速度,GPT-oss同樣順利完成。
 

- 讓GPT-oss制作一個具有光照、陰影、反射的球體3D渲染場景,結(jié)果依舊完美契合指令。
 
圖片
然后是每個大模型都逃不過的經(jīng)典問題:英文草莓里有多少個字母“r”?
GPT-oss 通過?
圖片
讓GPT-oss兩個型號均參與鵜鶘推理測試,模型準(zhǔn)確勾勒出了車架輪廓和鵜鶘軀體,比例上也相對均衡,充分體現(xiàn)模型具備足夠的空間想象力和邏輯連貫性。
圖片
除了測試以外,網(wǎng)友們也開始探索GPT-oss的更多使用途徑,例如alphaXiv迅速將模型配置到官網(wǎng),率先用于論文理解。
用戶可以對論文的任何部分進(jìn)行手動選擇并針對性提問,還能@關(guān)聯(lián)其它論文,快速獲取背景信息并進(jìn)行比較。

只需要簡單的一行代碼,就可以利用GPT-oss將混亂的原始數(shù)據(jù)(如PDF、Word、XLSX)轉(zhuǎn)換為一個強(qiáng)大的LLM測試集。
圖片
更有甚者,直接推出了GPT-oss Pro版,類似于Grok 4 Heavy,將10個GPT-oss連接在一起,可以生成比單個模型更優(yōu)質(zhì)的結(jié)果。

不過這些都只是前菜,官方技術(shù)文檔里說不明白的架構(gòu),網(wǎng)友們也是直接扒了出來。
扒一扒技術(shù)架構(gòu)
與類似大小的Qwen3相比,前威斯康星大學(xué)麥迪遜分校統(tǒng)計學(xué)教授、RAIR Lab創(chuàng)始人Sebastian Raschka發(fā)現(xiàn),GPT-oss在結(jié)構(gòu)上更寬,擁有更多的注意力頭以及前饋層中更高的隱藏維度,更深的層次則是源于更多的Transformer模塊。
圖片
另外有意思的是,他還發(fā)現(xiàn)GPT-oss在注意力機(jī)制中添加了偏差單元,這一結(jié)構(gòu)上一次出現(xiàn)還是在OpenAI六年前開源的GPT-2。
圖片
GPT-oss在架構(gòu)設(shè)計上既保留了MoE Transformer的核心架構(gòu),又通過細(xì)節(jié)優(yōu)化提升性能、降低復(fù)雜度,使其成為適合開源模型的基礎(chǔ)架構(gòu),Dimitri von Rütte和MIT研究員Adam Zweiger扒出其所涉及的技巧包括:
- 對每個注意力頭,設(shè)置一個可以學(xué)習(xí)的標(biāo)量,然后進(jìn)行softmax匯聚。
 - 與GPT-3相同,交替使用滑動窗口層和全連接層。
 - 對每個輸入分配4個相關(guān)專家處理,再整合結(jié)果,專家之間彼此完全獨立,同時使用標(biāo)準(zhǔn)負(fù)載均衡損失,確保資源高效分配。
 - 使用了改進(jìn)的swiglu激活函數(shù),通過α=1.702讓sigmoid的線性單元silu近似于高斯誤差線性單元gelu。裁剪激活值防止梯度爆炸,通過調(diào)整“up+1”有助于梯度流動。
 
圖片
- 采用YaRN上下文窗口擴(kuò)展技術(shù),提升長文本處理能力。
 - 移除了RMSNorm歸一化過程中的可學(xué)習(xí)偏置參數(shù),減少擬合風(fēng)險。
 
圖片
- 去除了對query(Q)和key(K)的歸一化,以及注意力軟帽(attention softcap)。
 
另外有網(wǎng)友henry還發(fā)現(xiàn)GPT-oss-20B的思維鏈,有時候也會進(jìn)行很多重復(fù)的思考,也許存在一個重啟機(jī)制,會檢查類似情況并重新生成輸出。
圖片
至于模型成本,根據(jù)官方說法,GPT-oss-120B花費了210萬H100小時,而20B是它的十分之一。
程序員Simon Willison根據(jù)英偉達(dá)H100的定價計算,即每小時在2美元到11美元,意味著120B參數(shù)的模型成本在420萬美元到2310萬美元左右,20B則是42萬美元到230萬美元之間。
不過ellamind創(chuàng)始人在測試中發(fā)現(xiàn)了GPT-oss的一些bug,例如在非英語文本上表現(xiàn)不佳,模型響應(yīng)在超過55%的情況下都包括語法或拼寫錯誤,推測模型只使用了英語進(jìn)行訓(xùn)練。
圖片
官方也是立即發(fā)布了相關(guān)技術(shù)文檔,介紹如何對GPT-oss進(jìn)行微調(diào),使其可以對多種語言進(jìn)行有效推理。
簡單來說,就是安裝必要的PyTorch庫,下載并格式化Multilingual-Thinking數(shù)據(jù)集,并在數(shù)據(jù)集的基礎(chǔ)上對模型進(jìn)行LoRA微調(diào),以生成英語、西班牙語、法語、意大利語或德語的多語言思維鏈。
OMT
那么想必很多朋友想要立馬上手GPT-oss了吧,尤其是能直接在手機(jī)上運行的20B。
這里提供一個相對簡單的獲取方法,直接先下載一個LM Studio(適用于Windows、macOS和Linux),再在搜索欄里輸入“GPT-oss-20B”下載即可。

另外,AWS今天也宣布將通過Amazon Bedrock和Amazon SageMaker AI平臺正式上線該OpenAI開源模型,直接能夠快速便捷地構(gòu)建生產(chǎn)式AI應(yīng)用。
圖片
除了民間網(wǎng)友的實測,一些專業(yè)大佬們也加入了這場開源風(fēng)暴。
吳恩達(dá)測試GPT-oss-120B后,認(rèn)為其性能相當(dāng)強(qiáng)大:
圖片
Qwen著名研究員Binyuan Hui也表示如果GPT-oss完全使用的是合成數(shù)據(jù)訓(xùn)練,那么該方法將有助于小模型實現(xiàn)更好的性能。
圖片
也歡迎屏幕前的你動手體驗GPT-oss,并在評論區(qū)留下你的實測結(jié)果。
參考鏈接:
[1]https://x.com/rasbt/status/1952842273848279364
[2]https://cookbook.openai.com/articles/gpt-oss/fine-tune-transfomers
[3]https://x.com/mattshumer_/status/1952791480210162060
[4]https://x.com/RafaCrackYT/status/19528380874420882
[5]https://x.com/hud_evals/status/1952846781286658393
[6]https://simonwillison.net/2025/Aug/5/gpt-oss/
[7]https://x.com/AdamZweiger/status/1952799642636148917[8]https://x.com/arithmoquine















 
 
 














 
 
 
 