偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="w14kw"><track id="w14kw"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

微軟開源新版Phi-4：推理效率暴漲10倍，筆記本可運行

2025-07-10 09:14:37

人工智能新聞

微軟在官網(wǎng)開源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning。

今天凌晨，微軟在官網(wǎng)開源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning。

mini-flash版延續(xù)了Phi-4家族參數(shù)小性能強的特點，是專門針對那些受算力、內(nèi)存和延遲限制場景設(shè)計的，單個GPU可運行，適合筆記本、平板電腦等邊緣設(shè)備。

與前一個版本相比，mini-flash使用了微軟自研的創(chuàng)新架構(gòu)SambaY，推理效率暴漲了10倍，延遲平均降低了2—3倍，整體推理性能實現(xiàn)了大幅度提升。尤其是高級數(shù)學(xué)推理能力，非常適合教育、科研領(lǐng)域。

開源地址：https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

英偉達API：https://build.nvidia.com/microsoft

創(chuàng)新SambaY架構(gòu)

SambaY架構(gòu)是一種創(chuàng)新的解碼器混合架構(gòu)，由微軟、斯坦福大學(xué)聯(lián)合研發(fā)而成。其核心在于通過引入門控存儲單元實現(xiàn)跨層的高效記憶共享，從而在提升解碼效率、保持線性預(yù)填充時間復(fù)雜度的同時，增強長上下文性能，且無需顯式的位置編碼。

該架構(gòu)以Samba模型作為自解碼器，在交叉解碼器中應(yīng)用GMU來替代一半的交叉注意力層，以此共享自解碼器中最后一個SSM層的內(nèi)部表示。

GMU的設(shè)計靈感來源于門控線性單元、門控注意力單元和SSMs中廣泛存在的門控機制，接收當(dāng)前層的輸入表示和前一層的記憶狀態(tài)作為輸入，通過可學(xué)習(xí)的投影和門控機制生成輸出。

從形式上看，GMU的輸出由前一層的記憶狀態(tài)與當(dāng)前層輸入經(jīng)過SiLU激活函數(shù)后的結(jié)果進行元素級乘法，再通過可學(xué)習(xí)的權(quán)重矩陣得到，這種機制能讓當(dāng)前層輸入基于每個記憶通道的查詢上下文，對前一層的標記混合進行動態(tài)的細粒度重新校準。

模型方面，SambaY的自解碼器包含交錯的Mamba層、滑動窗口注意力、SSM內(nèi)核及線性層等組件。在預(yù)填充階段，全注意力層只需計算KV緩存，與YOCO類似，保證了預(yù)填充階段的線性計算復(fù)雜度。

交叉解碼器中，GMU與交叉注意力層交錯排列，共享自解碼器中最后SSM層的表示。與YOCO相比，SambaY在預(yù)填充時除了緩存最后一個全注意力層的KV緩存外，還需額外緩存來自最后一個Mamba層的SSM內(nèi)核輸出狀態(tài)，但其內(nèi)存開銷在大小上可忽略不計。

在解碼階段，這一架構(gòu)將一半交叉注意力層的內(nèi)存I/O復(fù)雜度從線性的O(dkv·N)降至常數(shù)O(dh)（其中N為序列長度，dkv為鍵值對維度，dh為SSM內(nèi)部維度）。由于實際中dh/dkv的比值通常不超過128，當(dāng)N遠大于dh/dkv時，能帶來顯著的效率提升。

此外，SambaY在訓(xùn)練中，權(quán)重矩陣采用LeCun均勻初始化，輸入與輸出嵌入矩陣綁定并通過正態(tài)分布初始化，同時結(jié)合RMSNorm提升訓(xùn)練穩(wěn)定性。其增強變體SambaY+DA通過引入Differential Attention進一步提升了推理效率。

SambaY測試數(shù)據(jù)

為了測試SambaY架構(gòu)的性能，微軟全面評估了SambaY在不同場景下的性能，包括長文本生成、推理任務(wù)以及長上下文檢索能力。

在長文本生成任務(wù)中，SambaY架構(gòu)的效率提升非常顯著。傳統(tǒng)的Transformer模型在處理長文本時面臨著巨大的計算和內(nèi)存壓力，尤其是在解碼階段。

而SambaY在處理2K長度的提示和32K長度的生成任務(wù)時，解碼吞吐量比傳統(tǒng)的Phi4-mini-Reasoning模型提高了10倍。

在高級數(shù)學(xué)推理能力Math500、AIME24/25和GPQA Diamond的測試中，SambaY的性能比Phi4-mini-Reasoning也實現(xiàn)了大幅度提升，尤其是在AIME24/25任務(wù)中，SambaY不僅能夠準確地解決復(fù)雜的數(shù)學(xué)問題，還能生成清晰、邏輯連貫的解題步驟。

除了推理任務(wù)，微軟使用了Phonebook和RULER等主流基準測試來評估SambaY在長上下文檢索中的表現(xiàn)。這些任務(wù)要求模型能夠從長文本中準確地檢索出相關(guān)信息，這對于模型的長上下文理解和生成能力提出了很高的要求。

在Phonebook任務(wù)中，SambaY在32K長度的上下文中取得了78.13%的準確率，明顯優(yōu)于其他模型。SambaY在RULER任務(wù)中也表現(xiàn)優(yōu)異，即使在較小的滑動窗口大小下，也能保持較高的檢索準確率。

為了進一步驗證SambaY的可擴展性，微軟進行了大規(guī)模預(yù)訓(xùn)練實驗。使用了3.8B參數(shù)的Phi4-mini-Flash模型，并在5T tokens的數(shù)據(jù)集上進行了預(yù)訓(xùn)練。盡管在訓(xùn)練過程中遇到了一些挑戰(zhàn)，如損失發(fā)散等，但通過引入標簽平滑和注意力dropout等技術(shù)，模型最終成功收斂，并在MMLU、MBPP等知識密集型任務(wù)中取得了顯著的性能提升。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

微軟開源模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="andsz"></style>