微軟發(fā)布了 Phi-4-mini-flash-reasoning 模型 原創(chuàng)
微軟剛剛發(fā)布了 Phi-4-mini-flash-reasoning 模型:
?基于全新的混合架構構建
?吞吐量提升 10 倍,延遲降低 2-3 倍
?在不犧牲推理性能的前提下顯著加速推理
微軟將大部分繁重的計算工作轉(zhuǎn)移到精簡的 SambaY 架構上,配合小型門控模塊,讓同樣的 38 億參數(shù)模型思考更快、響應更迅速。
Phi-4-mini-flash-reasoning 保持了 38 億參數(shù)的緊湊規(guī)模,但重新設計了信息流動方式。全新的解碼器-混合-解碼器架構 SambaY 讓輕量級循環(huán)組件處理上下文,單個全注意力層負責全局連接,而小巧的門控記憶單元(GMU)將這些工作在整個架構中循環(huán)利用。
相比 Phi-4-mini-reasoning,該模型在長上下文生成和對延遲敏感的推理任務中表現(xiàn)出顯著更低的延遲和更高的吞吐量。
Phi-4-mini-flash-reasoning 的核心是全新的解碼器-混合-解碼器架構 SambaY,其關鍵創(chuàng)新是門控記憶單元(GMU)——一種簡單而有效的層間表示共享機制。SambaY 架構的主要優(yōu)勢包括:
?增強解碼效率
?保持線性預填充時間復雜度
?提升可擴展性和長上下文性能
?吞吐量提升高達 10 倍
解碼器前半部分運行 Mamba + 滑動窗口注意力,保持線性成本。一個全注意力層計算并存儲鍵值,然后后半部分通過交叉注意力獲取這些鍵值。每隔一個交叉注意力層被替換為 GMU,僅對早期的隱藏狀態(tài)進行門控,從而消除了一半的查找操作。
圖片
在單個 A100-80GB GPU 上,vLLM 測試顯示:對于 2K 提示詞加 32K 生成的場景,吞吐量比 Phi-4-mini-reasoning 提升高達 10 倍。各種提示詞長度下的端到端延遲平均降低約 2-3 倍。
圖片
即使使用 256 個 token 的小滑動窗口,SambaY 在 Phonebook 32K 和 RULER 等困難檢索數(shù)據(jù)集上仍然超越了純 Transformer 基線。門控記憶單元保持新鮮的局部信息,而單個全注意力層提供全局覆蓋能力。
圖片
邊緣設備教學應用、離線數(shù)學助手,以及任何需要快速響應且在嚴格內(nèi)存限制下運行的設備端智能體,現(xiàn)在都有了一個即插即用的模型,能夠處理 64K token 和長鏈推理,無需服務器集群支持。
鏈接:?????https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning???
?
本文轉(zhuǎn)載自??AI帝國???????,作者:無影寺
