偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

圖解GPT-OSS:架構、消息格式與推理機制等

發(fā)布于 2025-8-28 06:42
瀏覽
0收藏

OpenAI 發(fā)布了 GPT-OSS,這是他們六年來第一個開源的大語言模型。自 GPT-2 以來,LLM 的能力確實有了巨大的飛躍,但這個模型本身相比 DeepSeek、通義千問等開源模型,并沒有帶來特別的性能驚喜。

真正有意思的,是 OpenAI 通過這次發(fā)布展現(xiàn)出的一些設計思路。Jay Alammar新發(fā)布的《The Illustrated GPT-OSS》用信息圖對其做了拆解分析。我們來看看都講了什么。

架構層面沒什么新鮮事

GPT-OSS 延續(xù)了自回歸 Transformer 的經(jīng)典架構,逐個生成 token。

圖解GPT-OSS:架構、消息格式與推理機制等-AI.x社區(qū)

相比 GPT-2 的主要升級是采用了混合專家(MoE)架構,但這在當前開源模型中已是標配。

圖解GPT-OSS:架構、消息格式與推理機制等-AI.x社區(qū)

消息格式的巧思

比架構更值得關注的是 GPT-OSS 的消息格式設計。

圖解GPT-OSS:架構、消息格式與推理機制等-AI.x社區(qū)

這個模型引入了"頻道"(Channel)概念,將輸出分為三類:

  • Analysis- 用于推理過程
  • Commentary- 用于工具調用
  • Final- 最終回答

這種設計讓開發(fā)者可以更精確地控制向用戶展示什么。你可以選擇只顯示最終答案,或者讓用戶看到完整的推理過程。

圖解GPT-OSS:架構、消息格式與推理機制等-AI.x社區(qū)

這個設計思路其實挺實用的。很多時候用戶并不需要看到模型的"內心獨白",但開發(fā)者需要這些信息來調試和優(yōu)化應用。

可調節(jié)的推理模式

GPT-OSS 支持三檔推理強度:低、中、高。這不是什么新概念,但實現(xiàn)得比較優(yōu)雅。

測試顯示,中檔和高檔模式在復雜數(shù)學題上都能給出正確答案,但高檔模式耗費的計算時間是兩倍。這就是典型的精度與效率權衡。

圖解GPT-OSS:架構、消息格式與推理機制等-AI.x社區(qū)

推理模式對比

這種設計在實際應用中很有價值。比如做 Agent 任務時,每一步都用高強度推理可能太慢;但做離線分析時,速度就不那么重要了。

Tokenizer 的小進步

GPT-OSS 的分詞器與 GPT-4 的相似,但在非英文 token 處理上稍微更高效。emoji符號和中文字符都用兩個 token 而非三個,阿拉伯文字段被組合成單個 token 而不是字母。

代碼和數(shù)字的 token 化基本相同,三位數(shù)以內的數(shù)字分配單個 token,更大的數(shù)字會拆分。

圖解GPT-OSS:架構、消息格式與推理機制等-AI.x社區(qū)

雖然分詞器在這方面可能更好,但模型主要在英文數(shù)據(jù)上訓練,所以這個改進更多是理論意義。

原文:???https://newsletter.languagemodels.co/p/the-illustrated-gpt-oss??

本文轉載自??????????AI工程化??????????,作者:ully

收藏
回復
舉報
回復
相關推薦