偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微軟發(fā)布了 Phi-4-mini-flash-reasoning 模型 原創(chuàng)

發(fā)布于 2025-7-15 08:53
瀏覽
0收藏

微軟剛剛發(fā)布了 Phi-4-mini-flash-reasoning 模型:

?基于全新的混合架構構建

?吞吐量提升 10 倍,延遲降低 2-3 倍

?在不犧牲推理性能的前提下顯著加速推理

微軟將大部分繁重的計算工作轉(zhuǎn)移到精簡的 SambaY 架構上,配合小型門控模塊,讓同樣的 38 億參數(shù)模型思考更快、響應更迅速。

Phi-4-mini-flash-reasoning 保持了 38 億參數(shù)的緊湊規(guī)模,但重新設計了信息流動方式。全新的解碼器-混合-解碼器架構 SambaY 讓輕量級循環(huán)組件處理上下文,單個全注意力層負責全局連接,而小巧的門控記憶單元(GMU)將這些工作在整個架構中循環(huán)利用。

相比 Phi-4-mini-reasoning,該模型在長上下文生成和對延遲敏感的推理任務中表現(xiàn)出顯著更低的延遲和更高的吞吐量。

Phi-4-mini-flash-reasoning 的核心是全新的解碼器-混合-解碼器架構 SambaY,其關鍵創(chuàng)新是門控記憶單元(GMU)——一種簡單而有效的層間表示共享機制。SambaY 架構的主要優(yōu)勢包括:

?增強解碼效率

?保持線性預填充時間復雜度

?提升可擴展性和長上下文性能

?吞吐量提升高達 10 倍

解碼器前半部分運行 Mamba + 滑動窗口注意力,保持線性成本。一個全注意力層計算并存儲鍵值,然后后半部分通過交叉注意力獲取這些鍵值。每隔一個交叉注意力層被替換為 GMU,僅對早期的隱藏狀態(tài)進行門控,從而消除了一半的查找操作。


微軟發(fā)布了 Phi-4-mini-flash-reasoning 模型-AI.x社區(qū)圖片

在單個 A100-80GB GPU 上,vLLM 測試顯示:對于 2K 提示詞加 32K 生成的場景,吞吐量比 Phi-4-mini-reasoning 提升高達 10 倍。各種提示詞長度下的端到端延遲平均降低約 2-3 倍。


微軟發(fā)布了 Phi-4-mini-flash-reasoning 模型-AI.x社區(qū)圖片

即使使用 256 個 token 的小滑動窗口,SambaY 在 Phonebook 32K 和 RULER 等困難檢索數(shù)據(jù)集上仍然超越了純 Transformer 基線。門控記憶單元保持新鮮的局部信息,而單個全注意力層提供全局覆蓋能力。


微軟發(fā)布了 Phi-4-mini-flash-reasoning 模型-AI.x社區(qū)圖片

邊緣設備教學應用、離線數(shù)學助手,以及任何需要快速響應且在嚴格內(nèi)存限制下運行的設備端智能體,現(xiàn)在都有了一個即插即用的模型,能夠處理 64K token 和長鏈推理,無需服務器集群支持。

鏈接:?????https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning???

?

本文轉(zhuǎn)載自??AI帝國???????,作者:無影寺

?著作權歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦