偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

又一SOTA級開源模型!階躍Step-3多模態(tài)推理登頂,百萬token解碼成本不到4毛錢

人工智能 新聞
剛剛,階躍星辰兌現(xiàn)了WAIC上的承諾,將最新多模態(tài)推理模型Step-3正式開源!

又一個SOTA基礎(chǔ)模型開源,而且依然是國產(chǎn)。

剛剛,階躍星辰兌現(xiàn)了WAIC上的承諾,將最新多模態(tài)推理模型Step-3正式開源!

在MMMU等多個多模態(tài)榜單上,它一現(xiàn)身就取得了開源多模態(tài)推理模型新SOTA的成績。

圖片

并且速度飛快,在Hopper GPU上每秒可以解碼4039個Token(4K上下文、FP8、無MTP),是DeepSeek-V3的174%。

這一表現(xiàn),也給大模型解碼設(shè)定了新的帕累托前沿(資源分配的一種理想狀態(tài))。

圖片

另外,Step-3采用了模型-Infra一體化設(shè)計,因此性價比也極高。

它有321B參數(shù),但可以運(yùn)行在8塊48GB的GPU上,處理多達(dá)80萬個token。

如果直觀比較,Step-3在H20上的解碼成本僅有DeepSeek-V3的30%。

Huggingface工程師評價,這種模型-Infra共同設(shè)計的理念,代表了一種前進(jìn)方向。

圖片

百萬Token解碼成本不到4毛

Step-3是一款MoE模型,包含48個專家,總參數(shù)量321B,其中316B為語言模型,5B為視覺編碼器,激活參數(shù)量則為38B(3個專家)。

圖片

在MMMU、AIME25、LiveCodeBench等多個數(shù)學(xué)、代碼及多模態(tài)榜單中,Step-3都達(dá)到了開源SOTA水平。

圖片

而且Step-3主打一個高效能,在4K上下文長度下,平均解碼吞吐達(dá)到了3910token/GPU/秒,峰值4039 token/GPU/秒,比DeepSeek-V3的峰值高74%。

圖片

成本方面,Step-3使用H20+H800的異構(gòu)組合,8K長度下每百萬Token成本為0.055美元,合人民幣不到4毛錢。

相比于只用H800的DeepSeek-V3,Step-3激活參數(shù)量更高,但成本只有V3的80%。

如果對比采用同樣異構(gòu)組合的Qwen MoE,Step-3的成本也要少將近12%。

如果不使用異構(gòu),Step-3在各個芯片上的成本,也低于DeepSeek-V3和Qwen。

例如在32K長度下,H20計算卡上,Step-3的解碼成本只有V3的30%

圖片

特別值得一提的是,在昇騰910B上,Step-3的解碼成本甚至比華為自家的盤古大模型還要低。

圖片

之所以能實(shí)現(xiàn)如此高的性價比,關(guān)鍵就在于Step-3采用了模型-Infra協(xié)同設(shè)計。

模型-Infra協(xié)同設(shè)計

Step-3通過“模型—系統(tǒng)”一體化思路,把注意力、前饋網(wǎng)絡(luò)和集群調(diào)度當(dāng)作同一個優(yōu)化對象,而不是單獨(dú)微調(diào)某個算子。

核心中的核心是階躍自研的MFA(Multi-Matrix Factorization Attention,多矩陣因子分解)注意力機(jī)制。

MFA在Query-Key路徑上進(jìn)行低秩分解,并讓多個查詢頭共享同一組Key/Value表示,從根源上壓縮 KV 緩存和乘加量。

技術(shù)報告顯示,Step-3的KV緩存大小小于DeepSeek-V3,使得Step-3更適用于長上下文場景。

圖片

并且與傳統(tǒng)稀疏或線性注意力不同,MFA還特地把算力-帶寬比調(diào)到剛好略低于主流GPU的屋脊線,讓同一套權(quán)重在高帶寬卡和算力卡上都能維持高利用率。

系統(tǒng)層面,階躍團(tuán)隊提出了AFD(Attention-FFN Disaggregation)機(jī)制。

傳統(tǒng)情況下,模型關(guān)于Attention和FNN的推理計算任務(wù),會同時交給同一組GPU同時處理,常常導(dǎo)致資源浪費(fèi)。

AFD則把注意力和 FFN 分拆到各自最擅長的GPU群組,通過專門的三階段流水線把隱藏態(tài)在兩端之間“穿針引線”。

圖片

這樣一來,每類算子都能選用最合拍的硬件和并行策略,同時流水線把通信延遲掩藏在計算之下,實(shí)現(xiàn)小規(guī)模集群就能跑滿卡的解碼吞吐。

圖片

為支撐這一細(xì)粒度拆分,階躍團(tuán)隊編寫了StepMesh通信庫,通過GPUDirect RDMA實(shí)現(xiàn),SM占用為0,可在子毫秒時間內(nèi)完成雙向流式傳輸。

圖片

并且StepMesh庫已隨模型一同開源,提供可跨硬件的標(biāo)準(zhǔn)部署接口。

One More Thing

Hugging Face模型榜單,已經(jīng)被中國開源模型占據(jù)主導(dǎo),前十名中有8個模型全都來自中國。

其中第一名是智譜AI的GLM-4.5,第二名是騰訊推出的混元世界模型,4-6名為不同版本的Qwen。

之后的國產(chǎn)模型包括智譜GLM-4.5的Air版本,以及同一團(tuán)隊的Wan2.2視頻生成模型,第十名則是上海AI Lab的Intern-S1。

圖片

Kimi-K2則位列第十一,之前也曾進(jìn)入過前十,這次的Step-3也位列第一頁。

此外,第一頁中還能看到字節(jié)Seed、昆侖萬維、上交大PowerInfer等中國團(tuán)隊研發(fā)的模型。

圖片

并且這些廠商都選擇了把自家的王牌模型直接開源,而不是發(fā)布新一代才開源上一代。

在開源世界,國產(chǎn)模型已成為當(dāng)之無愧的領(lǐng)軍者。

Github:
https://github.com/stepfun-ai/Step3
Hugging Face:
https://huggingface.co/stepfun-ai/step3
魔搭ModelScope:
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8
技術(shù)blog:
https://www.stepfun.com/research/zh/step3
StepMesh開源地址:
https://github.com/stepfun-ai/StepMesh

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-08-27 09:25:00

2025-04-28 14:13:43

開源SOTA多模態(tài)

2015-02-26 13:39:17

微信支付寶紅包

2023-06-06 14:09:32

模型開源

2025-05-08 09:31:50

2018-05-08 15:42:30

PC升級筆記本

2011-05-05 14:15:02

照片打印

2023-05-19 13:01:10

ChatGPT模型

2025-03-06 17:29:23

2018-04-04 08:56:40

5GWiFi3GPP

2023-12-28 17:31:44

PixelLM性能模型

2025-08-27 13:38:13

谷歌圖像生成AI

2025-06-10 03:30:00

2025-05-21 08:35:00

2024-03-25 12:40:19

訓(xùn)練模型

2025-08-07 16:24:19

小紅書開源dots.vlm1

2025-06-27 08:40:00

模型推理AI

2025-10-13 08:50:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號