偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="cmfkh"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

全網(wǎng)開測GPT-oss！技術(shù)架構(gòu)也扒明白了

2025-08-07 09:05:45

與類似大小的Qwen3相比，前威斯康星大學(xué)麥迪遜分校統(tǒng)計學(xué)教授、RAIR Lab創(chuàng)始人Sebastian Raschka發(fā)現(xiàn)，GPT-oss在結(jié)構(gòu)上更寬，擁有更多的注意力頭以及前饋層中更高的隱藏維度，更深的層次則是源于更多的Transformer模塊。

全網(wǎng)開扒GPT-oss，驚喜發(fā)現(xiàn)……

奧特曼還是謙虛了，這性能豈止是o4-mini的水平，直接SOTA擊穿一眾開源模型。

圖片

不僅輕松通過多項性能測試，網(wǎng)友也整起了各種花活：

論文解讀、整理數(shù)據(jù)，甚至造出類似于Grok 4 Heavy的GPT-oss Pro版。

背后架構(gòu)也是被大佬們挖掘得明明白白，只能說開源真妙哇！

終于理解奧特曼提前預(yù)告的那句話是啥意思了：

即將進(jìn)入SaaS的快時尚時代。

圖片

估計接下來OpenAI還有不少好東西要陸續(xù)發(fā)布……

全網(wǎng)開測GPT-oss

首先，全網(wǎng)最關(guān)注的基準(zhǔn)測試新鮮出爐，GPT-oss直接登頂開源模型王座。

橫掃GPQA Diamond、AIME 2024、AIME 2025和Codeforces榜單，超越DeepSeek R1、Qwen3、Llama 4、Kimi K2等一眾開源模型。

圖片

不過在MMLU上確實還是Qwen3-235B更勝一籌，Kimi-K2也在SWE-Bench上得分更高。

圖片

在核心推理基準(zhǔn)測試中，GPT-oss實現(xiàn)了與o4-mini等同的效果，可以在單個80GB的GPU上高效運行。

另外在一些常見基準(zhǔn)測試中，性能也比肩o3-mini，且只需要一個16GB內(nèi)存的邊緣設(shè)備，預(yù)計GPT-oss將會成為本地推理或快速迭代的理想選擇，而無需昂貴的基礎(chǔ)設(shè)施。

圖片

最小的20B模型可以輕松通過以下三項編碼測試，比一些規(guī)模遠(yuǎn)超過它2-3倍的模型效果要好得多：

模擬球在旋轉(zhuǎn)六邊形內(nèi)彈跳，GPT-oss以較高的準(zhǔn)確性盡可能還原了真實物理情況。

直接增加到20個球，放入七邊形彈跳，且在每次彈跳都提高速度，GPT-oss同樣順利完成。

讓GPT-oss制作一個具有光照、陰影、反射的球體3D渲染場景，結(jié)果依舊完美契合指令。

圖片

然后是每個大模型都逃不過的經(jīng)典問題：英文草莓里有多少個字母“r”？

GPT-oss 通過?

圖片

讓GPT-oss兩個型號均參與鵜鶘推理測試，模型準(zhǔn)確勾勒出了車架輪廓和鵜鶘軀體，比例上也相對均衡，充分體現(xiàn)模型具備足夠的空間想象力和邏輯連貫性。

圖片

除了測試以外，網(wǎng)友們也開始探索GPT-oss的更多使用途徑，例如alphaXiv迅速將模型配置到官網(wǎng)，率先用于論文理解。

用戶可以對論文的任何部分進(jìn)行手動選擇并針對性提問，還能@關(guān)聯(lián)其它論文，快速獲取背景信息并進(jìn)行比較。

只需要簡單的一行代碼，就可以利用GPT-oss將混亂的原始數(shù)據(jù)（如PDF、Word、XLSX）轉(zhuǎn)換為一個強(qiáng)大的LLM測試集。

圖片

更有甚者，直接推出了GPT-oss Pro版，類似于Grok 4 Heavy，將10個GPT-oss連接在一起，可以生成比單個模型更優(yōu)質(zhì)的結(jié)果。

不過這些都只是前菜，官方技術(shù)文檔里說不明白的架構(gòu)，網(wǎng)友們也是直接扒了出來。

扒一扒技術(shù)架構(gòu)

與類似大小的Qwen3相比，前威斯康星大學(xué)麥迪遜分校統(tǒng)計學(xué)教授、RAIR Lab創(chuàng)始人Sebastian Raschka發(fā)現(xiàn)，GPT-oss在結(jié)構(gòu)上更寬，擁有更多的注意力頭以及前饋層中更高的隱藏維度，更深的層次則是源于更多的Transformer模塊。

圖片

另外有意思的是，他還發(fā)現(xiàn)GPT-oss在注意力機(jī)制中添加了偏差單元，這一結(jié)構(gòu)上一次出現(xiàn)還是在OpenAI六年前開源的GPT-2。

圖片

GPT-oss在架構(gòu)設(shè)計上既保留了MoE Transformer的核心架構(gòu)，又通過細(xì)節(jié)優(yōu)化提升性能、降低復(fù)雜度，使其成為適合開源模型的基礎(chǔ)架構(gòu)，Dimitri von Rütte和MIT研究員Adam Zweiger扒出其所涉及的技巧包括：

對每個注意力頭，設(shè)置一個可以學(xué)習(xí)的標(biāo)量，然后進(jìn)行softmax匯聚。
與GPT-3相同，交替使用滑動窗口層和全連接層。
對每個輸入分配4個相關(guān)專家處理，再整合結(jié)果，專家之間彼此完全獨立，同時使用標(biāo)準(zhǔn)負(fù)載均衡損失，確保資源高效分配。
使用了改進(jìn)的swiglu激活函數(shù)，通過α=1.702讓sigmoid的線性單元silu近似于高斯誤差線性單元gelu。裁剪激活值防止梯度爆炸，通過調(diào)整“up+1”有助于梯度流動。

圖片

采用YaRN上下文窗口擴(kuò)展技術(shù)，提升長文本處理能力。
移除了RMSNorm歸一化過程中的可學(xué)習(xí)偏置參數(shù)，減少擬合風(fēng)險。

圖片

去除了對query（Q）和key（K）的歸一化，以及注意力軟帽（attention softcap）。

另外有網(wǎng)友henry還發(fā)現(xiàn)GPT-oss-20B的思維鏈，有時候也會進(jìn)行很多重復(fù)的思考，也許存在一個重啟機(jī)制，會檢查類似情況并重新生成輸出。

圖片

至于模型成本，根據(jù)官方說法，GPT-oss-120B花費了210萬H100小時，而20B是它的十分之一。

程序員Simon Willison根據(jù)英偉達(dá)H100的定價計算，即每小時在2美元到11美元，意味著120B參數(shù)的模型成本在420萬美元到2310萬美元左右，20B則是42萬美元到230萬美元之間。

不過ellamind創(chuàng)始人在測試中發(fā)現(xiàn)了GPT-oss的一些bug，例如在非英語文本上表現(xiàn)不佳，模型響應(yīng)在超過55%的情況下都包括語法或拼寫錯誤，推測模型只使用了英語進(jìn)行訓(xùn)練。

圖片

官方也是立即發(fā)布了相關(guān)技術(shù)文檔，介紹如何對GPT-oss進(jìn)行微調(diào)，使其可以對多種語言進(jìn)行有效推理。

簡單來說，就是安裝必要的PyTorch庫，下載并格式化Multilingual-Thinking數(shù)據(jù)集，并在數(shù)據(jù)集的基礎(chǔ)上對模型進(jìn)行LoRA微調(diào)，以生成英語、西班牙語、法語、意大利語或德語的多語言思維鏈。

OMT

那么想必很多朋友想要立馬上手GPT-oss了吧，尤其是能直接在手機(jī)上運行的20B。

這里提供一個相對簡單的獲取方法，直接先下載一個LM Studio（適用于Windows、macOS和Linux），再在搜索欄里輸入“GPT-oss-20B”下載即可。

另外，AWS今天也宣布將通過Amazon Bedrock和Amazon SageMaker AI平臺正式上線該OpenAI開源模型，直接能夠快速便捷地構(gòu)建生產(chǎn)式AI應(yīng)用。

圖片

除了民間網(wǎng)友的實測，一些專業(yè)大佬們也加入了這場開源風(fēng)暴。

吳恩達(dá)測試GPT-oss-120B后，認(rèn)為其性能相當(dāng)強(qiáng)大：

圖片

Qwen著名研究員Binyuan Hui也表示如果GPT-oss完全使用的是合成數(shù)據(jù)訓(xùn)練，那么該方法將有助于小模型實現(xiàn)更好的性能。

圖片

也歡迎屏幕前的你動手體驗GPT-oss，并在評論區(qū)留下你的實測結(jié)果。

參考鏈接：

[1]https://x.com/rasbt/status/1952842273848279364

[2]https://cookbook.openai.com/articles/gpt-oss/fine-tune-transfomers

[3]https://x.com/mattshumer_/status/1952791480210162060

[4]https://x.com/RafaCrackYT/status/19528380874420882

[5]https://x.com/hud_evals/status/1952846781286658393

[6]https://simonwillison.net/2025/Aug/5/gpt-oss/

[7]https://x.com/AdamZweiger/status/1952799642636148917[8]https://x.com/arithmoquine

責(zé)任編輯：武曉燕來源：量子位

GPT-oss Qwen3 RAIR

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="qxqhv"></sub>