偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

圖解GPT-OSS：架構、消息格式與推理機制等

發(fā)布于 2025-8-28 06:42

瀏覽

0收藏

OpenAI 發(fā)布了 GPT-OSS，這是他們六年來第一個開源的大語言模型。自 GPT-2 以來，LLM 的能力確實有了巨大的飛躍，但這個模型本身相比 DeepSeek、通義千問等開源模型，并沒有帶來特別的性能驚喜。

真正有意思的，是 OpenAI 通過這次發(fā)布展現(xiàn)出的一些設計思路。Jay Alammar新發(fā)布的《The Illustrated GPT-OSS》用信息圖對其做了拆解分析。我們來看看都講了什么。

架構層面沒什么新鮮事

GPT-OSS 延續(xù)了自回歸 Transformer 的經(jīng)典架構，逐個生成 token。

圖解GPT-OSS：架構、消息格式與推理機制等-AI.x社區(qū)

相比 GPT-2 的主要升級是采用了混合專家（MoE）架構，但這在當前開源模型中已是標配。

圖解GPT-OSS：架構、消息格式與推理機制等-AI.x社區(qū)

消息格式的巧思

比架構更值得關注的是 GPT-OSS 的消息格式設計。

圖解GPT-OSS：架構、消息格式與推理機制等-AI.x社區(qū)

這個模型引入了"頻道"（Channel）概念，將輸出分為三類：

Analysis- 用于推理過程
Commentary- 用于工具調用
Final- 最終回答

這種設計讓開發(fā)者可以更精確地控制向用戶展示什么。你可以選擇只顯示最終答案，或者讓用戶看到完整的推理過程。

圖解GPT-OSS：架構、消息格式與推理機制等-AI.x社區(qū)

這個設計思路其實挺實用的。很多時候用戶并不需要看到模型的"內心獨白"，但開發(fā)者需要這些信息來調試和優(yōu)化應用。

可調節(jié)的推理模式

GPT-OSS 支持三檔推理強度：低、中、高。這不是什么新概念，但實現(xiàn)得比較優(yōu)雅。

測試顯示，中檔和高檔模式在復雜數(shù)學題上都能給出正確答案，但高檔模式耗費的計算時間是兩倍。這就是典型的精度與效率權衡。

圖解GPT-OSS：架構、消息格式與推理機制等-AI.x社區(qū)

推理模式對比

這種設計在實際應用中很有價值。比如做 Agent 任務時，每一步都用高強度推理可能太慢；但做離線分析時，速度就不那么重要了。

Tokenizer 的小進步

GPT-OSS 的分詞器與 GPT-4 的相似，但在非英文 token 處理上稍微更高效。emoji符號和中文字符都用兩個 token 而非三個，阿拉伯文字段被組合成單個 token 而不是字母。

代碼和數(shù)字的 token 化基本相同，三位數(shù)以內的數(shù)字分配單個 token，更大的數(shù)字會拆分。

圖解GPT-OSS：架構、消息格式與推理機制等-AI.x社區(qū)

雖然分詞器在這方面可能更好，但模型主要在英文數(shù)據(jù)上訓練，所以這個改進更多是理論意義。

原文：???https://newsletter.languagemodels.co/p/the-illustrated-gpt-oss??

本文轉載自??????????AI工程化??????????，作者：ully

標簽

贊

收藏

回復

舉報

回復

相關推薦

好消息：GPTs 可以免費使用了！壞消息：只能使用，無法創(chuàng)建！

wsp_ping ? 8677瀏覽 ? 0回復
LLM微調技術LoRA圖解

51CTO內容精選 ? 4460瀏覽 ? 0回復
行動、變化與智能：人工智能中的推理機制

xuxiangda ? 4215瀏覽 ? 0回復
AdaBoost分類器完全圖解

51CTO內容精選 ? 3733瀏覽 ? 0回復
一文圖解BERT注意力機制

石映飛云 ? 4128瀏覽 ? 0回復
RAG 架構圖解：從基礎到高級的七種模式

sulu637 ? 1.1w瀏覽 ? 0回復
Open Notebook：開源AI筆記工具，支持多模型與多格式內容集成

穿越時空111 ? 7967瀏覽 ? 0回復
GPT-5有消息了！統(tǒng)一模型路線，但并不是大家認為的AGI

Syrupup ? 3989瀏覽 ? 0回復
DeepSeek全新注意力機制NSA發(fā)布，超快速長文訓練與推理

PaperAgent ? 4490瀏覽 ? 0回復
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴散架構？北大&中山等開源GPT-ImgEval

angel ? 4065瀏覽 ? 0回復
記憶機制、思維模式與跨領域推理

sbf_2000 ? 2200瀏覽 ? 0回復
IT架構師必看：七牛云解析GPT-OSS的工程化之路

七牛云行業(yè)應用 ? 2278瀏覽 ? 0回復
OpenAI GPT-OSS 120B/20B 詳解：性能追平專有模型，開發(fā)者可本地微調

柏企閱文 ? 1.5w瀏覽 ? 0回復
OpenAI開源GPT-OSS，AI界迎來巨變！

墨風如雪小站 ? 2873瀏覽 ? 0回復
OpenAI“補課”式發(fā)布兩個開放權重模型GPT-OSS | 5個技術看點 | 時隔六年多，再次擁抱開源

后向傳播 ? 2378瀏覽 ? 0回復
GPT-OSS 20B挑戰(zhàn)Qwen3 30B-A3B，誰更適合你？

Halo咯咯 ? 9436瀏覽 ? 0回復
GPT-OSS綜合評估與一些結論

大模型自然語言處理 ? 4100瀏覽 ? 0回復
OpenAI 開源模型 gpt-oss 是在合成數(shù)據(jù)上訓練的嗎？一些合理推測

Baihai_IDP ? 1266瀏覽 ? 0回復
OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b

sbf_2000 ? 352瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Glyph：文本轉圖片解決長上下文困境，智譜把“DeepSeek-OCR”具像化了 3天前發(fā)布
LangChain提出Agent工程化的新分層（Agent harness） 3天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復

DeepSeek團隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復

上一篇： Google發(fā)布"Nano Banana"圖像生成模型，號稱全球第一

下一篇： MIT報告：花了300-400億美元，95%的企業(yè)AI項目都失敗了

社區(qū)精華內容

目錄

<ruby id="9qwx0"><thead id="9qwx0"><acronym id="9qwx0"></acronym></thead></ruby>