又一SOTA級開源模型!階躍Step-3多模態(tài)推理登頂,百萬token解碼成本不到4毛錢
又一個SOTA基礎(chǔ)模型開源,而且依然是國產(chǎn)。
剛剛,階躍星辰兌現(xiàn)了WAIC上的承諾,將最新多模態(tài)推理模型Step-3正式開源!
在MMMU等多個多模態(tài)榜單上,它一現(xiàn)身就取得了開源多模態(tài)推理模型新SOTA的成績。

并且速度飛快,在Hopper GPU上每秒可以解碼4039個Token(4K上下文、FP8、無MTP),是DeepSeek-V3的174%。
這一表現(xiàn),也給大模型解碼設(shè)定了新的帕累托前沿(資源分配的一種理想狀態(tài))。

另外,Step-3采用了模型-Infra一體化設(shè)計,因此性價比也極高。
它有321B參數(shù),但可以運(yùn)行在8塊48GB的GPU上,處理多達(dá)80萬個token。
如果直觀比較,Step-3在H20上的解碼成本僅有DeepSeek-V3的30%。
Huggingface工程師評價,這種模型-Infra共同設(shè)計的理念,代表了一種前進(jìn)方向。

百萬Token解碼成本不到4毛
Step-3是一款MoE模型,包含48個專家,總參數(shù)量321B,其中316B為語言模型,5B為視覺編碼器,激活參數(shù)量則為38B(3個專家)。

在MMMU、AIME25、LiveCodeBench等多個數(shù)學(xué)、代碼及多模態(tài)榜單中,Step-3都達(dá)到了開源SOTA水平。

而且Step-3主打一個高效能,在4K上下文長度下,平均解碼吞吐達(dá)到了3910token/GPU/秒,峰值4039 token/GPU/秒,比DeepSeek-V3的峰值高74%。

成本方面,Step-3使用H20+H800的異構(gòu)組合,8K長度下每百萬Token成本為0.055美元,合人民幣不到4毛錢。
相比于只用H800的DeepSeek-V3,Step-3激活參數(shù)量更高,但成本只有V3的80%。
如果對比采用同樣異構(gòu)組合的Qwen MoE,Step-3的成本也要少將近12%。
如果不使用異構(gòu),Step-3在各個芯片上的成本,也低于DeepSeek-V3和Qwen。
例如在32K長度下,H20計算卡上,Step-3的解碼成本只有V3的30%

特別值得一提的是,在昇騰910B上,Step-3的解碼成本甚至比華為自家的盤古大模型還要低。

之所以能實(shí)現(xiàn)如此高的性價比,關(guān)鍵就在于Step-3采用了模型-Infra協(xié)同設(shè)計。
模型-Infra協(xié)同設(shè)計
Step-3通過“模型—系統(tǒng)”一體化思路,把注意力、前饋網(wǎng)絡(luò)和集群調(diào)度當(dāng)作同一個優(yōu)化對象,而不是單獨(dú)微調(diào)某個算子。
核心中的核心是階躍自研的MFA(Multi-Matrix Factorization Attention,多矩陣因子分解)注意力機(jī)制。
MFA在Query-Key路徑上進(jìn)行低秩分解,并讓多個查詢頭共享同一組Key/Value表示,從根源上壓縮 KV 緩存和乘加量。
技術(shù)報告顯示,Step-3的KV緩存大小小于DeepSeek-V3,使得Step-3更適用于長上下文場景。

并且與傳統(tǒng)稀疏或線性注意力不同,MFA還特地把算力-帶寬比調(diào)到剛好略低于主流GPU的屋脊線,讓同一套權(quán)重在高帶寬卡和算力卡上都能維持高利用率。
系統(tǒng)層面,階躍團(tuán)隊提出了AFD(Attention-FFN Disaggregation)機(jī)制。
傳統(tǒng)情況下,模型關(guān)于Attention和FNN的推理計算任務(wù),會同時交給同一組GPU同時處理,常常導(dǎo)致資源浪費(fèi)。
AFD則把注意力和 FFN 分拆到各自最擅長的GPU群組,通過專門的三階段流水線把隱藏態(tài)在兩端之間“穿針引線”。

這樣一來,每類算子都能選用最合拍的硬件和并行策略,同時流水線把通信延遲掩藏在計算之下,實(shí)現(xiàn)小規(guī)模集群就能跑滿卡的解碼吞吐。

為支撐這一細(xì)粒度拆分,階躍團(tuán)隊編寫了StepMesh通信庫,通過GPUDirect RDMA實(shí)現(xiàn),SM占用為0,可在子毫秒時間內(nèi)完成雙向流式傳輸。

并且StepMesh庫已隨模型一同開源,提供可跨硬件的標(biāo)準(zhǔn)部署接口。
One More Thing
Hugging Face模型榜單,已經(jīng)被中國開源模型占據(jù)主導(dǎo),前十名中有8個模型全都來自中國。
其中第一名是智譜AI的GLM-4.5,第二名是騰訊推出的混元世界模型,4-6名為不同版本的Qwen。
之后的國產(chǎn)模型包括智譜GLM-4.5的Air版本,以及同一團(tuán)隊的Wan2.2視頻生成模型,第十名則是上海AI Lab的Intern-S1。

Kimi-K2則位列第十一,之前也曾進(jìn)入過前十,這次的Step-3也位列第一頁。
此外,第一頁中還能看到字節(jié)Seed、昆侖萬維、上交大PowerInfer等中國團(tuán)隊研發(fā)的模型。

并且這些廠商都選擇了把自家的王牌模型直接開源,而不是發(fā)布新一代才開源上一代。
在開源世界,國產(chǎn)模型已成為當(dāng)之無愧的領(lǐng)軍者。
Github:
https://github.com/stepfun-ai/Step3
Hugging Face:
https://huggingface.co/stepfun-ai/step3
魔搭ModelScope:
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8
技術(shù)blog:
https://www.stepfun.com/research/zh/step3
StepMesh開源地址:
https://github.com/stepfun-ai/StepMesh
































