偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="v0vi2"><track id="v0vi2"></track></cite>

<sub id="v0vi2"><s id="v0vi2"></s></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

又一SOTA級開源模型！階躍Step-3多模態(tài)推理登頂，百萬token解碼成本不到4毛錢

2025-08-01 08:59:36

人工智能新聞

剛剛，階躍星辰兌現(xiàn)了WAIC上的承諾，將最新多模態(tài)推理模型Step-3正式開源！

又一個SOTA基礎(chǔ)模型開源，而且依然是國產(chǎn)。

剛剛，階躍星辰兌現(xiàn)了WAIC上的承諾，將最新多模態(tài)推理模型Step-3正式開源！

在MMMU等多個多模態(tài)榜單上，它一現(xiàn)身就取得了開源多模態(tài)推理模型新SOTA的成績。

并且速度飛快，在Hopper GPU上每秒可以解碼4039個Token（4K上下文、FP8、無MTP），是DeepSeek-V3的174%。

這一表現(xiàn)，也給大模型解碼設(shè)定了新的帕累托前沿（資源分配的一種理想狀態(tài)）。

另外，Step-3采用了模型-Infra一體化設(shè)計，因此性價比也極高。

它有321B參數(shù)，但可以運(yùn)行在8塊48GB的GPU上，處理多達(dá)80萬個token。

如果直觀比較，Step-3在H20上的解碼成本僅有DeepSeek-V3的30%。

Huggingface工程師評價，這種模型-Infra共同設(shè)計的理念，代表了一種前進(jìn)方向。

百萬Token解碼成本不到4毛

Step-3是一款MoE模型，包含48個專家，總參數(shù)量321B，其中316B為語言模型，5B為視覺編碼器，激活參數(shù)量則為38B（3個專家）。

在MMMU、AIME25、LiveCodeBench等多個數(shù)學(xué)、代碼及多模態(tài)榜單中，Step-3都達(dá)到了開源SOTA水平。

而且Step-3主打一個高效能，在4K上下文長度下，平均解碼吞吐達(dá)到了3910token/GPU/秒，峰值4039 token/GPU/秒，比DeepSeek-V3的峰值高74%。

成本方面，Step-3使用H20+H800的異構(gòu)組合，8K長度下每百萬Token成本為0.055美元，合人民幣不到4毛錢。

相比于只用H800的DeepSeek-V3，Step-3激活參數(shù)量更高，但成本只有V3的80%。

如果對比采用同樣異構(gòu)組合的Qwen MoE，Step-3的成本也要少將近12%。

如果不使用異構(gòu)，Step-3在各個芯片上的成本，也低于DeepSeek-V3和Qwen。

例如在32K長度下，H20計算卡上，Step-3的解碼成本只有V3的30%

特別值得一提的是，在昇騰910B上，Step-3的解碼成本甚至比華為自家的盤古大模型還要低。

之所以能實(shí)現(xiàn)如此高的性價比，關(guān)鍵就在于Step-3采用了模型-Infra協(xié)同設(shè)計。

模型-Infra協(xié)同設(shè)計

Step-3通過“模型—系統(tǒng)”一體化思路，把注意力、前饋網(wǎng)絡(luò)和集群調(diào)度當(dāng)作同一個優(yōu)化對象，而不是單獨(dú)微調(diào)某個算子。

核心中的核心是階躍自研的MFA（Multi-Matrix Factorization Attention，多矩陣因子分解）注意力機(jī)制。

MFA在Query-Key路徑上進(jìn)行低秩分解，并讓多個查詢頭共享同一組Key/Value表示，從根源上壓縮 KV 緩存和乘加量。

技術(shù)報告顯示，Step-3的KV緩存大小小于DeepSeek-V3，使得Step-3更適用于長上下文場景。

并且與傳統(tǒng)稀疏或線性注意力不同，MFA還特地把算力-帶寬比調(diào)到剛好略低于主流GPU的屋脊線，讓同一套權(quán)重在高帶寬卡和算力卡上都能維持高利用率。

系統(tǒng)層面，階躍團(tuán)隊提出了AFD（Attention-FFN Disaggregation）機(jī)制。

傳統(tǒng)情況下，模型關(guān)于Attention和FNN的推理計算任務(wù)，會同時交給同一組GPU同時處理，常常導(dǎo)致資源浪費(fèi)。

AFD則把注意力和 FFN 分拆到各自最擅長的GPU群組，通過專門的三階段流水線把隱藏態(tài)在兩端之間“穿針引線”。

這樣一來，每類算子都能選用最合拍的硬件和并行策略，同時流水線把通信延遲掩藏在計算之下，實(shí)現(xiàn)小規(guī)模集群就能跑滿卡的解碼吞吐。

為支撐這一細(xì)粒度拆分，階躍團(tuán)隊編寫了StepMesh通信庫，通過GPUDirect RDMA實(shí)現(xiàn)，SM占用為0，可在子毫秒時間內(nèi)完成雙向流式傳輸。

并且StepMesh庫已隨模型一同開源，提供可跨硬件的標(biāo)準(zhǔn)部署接口。

One More Thing

Hugging Face模型榜單，已經(jīng)被中國開源模型占據(jù)主導(dǎo)，前十名中有8個模型全都來自中國。

其中第一名是智譜AI的GLM-4.5，第二名是騰訊推出的混元世界模型，4-6名為不同版本的Qwen。

之后的國產(chǎn)模型包括智譜GLM-4.5的Air版本，以及同一團(tuán)隊的Wan2.2視頻生成模型，第十名則是上海AI Lab的Intern-S1。

Kimi-K2則位列第十一，之前也曾進(jìn)入過前十，這次的Step-3也位列第一頁。

此外，第一頁中還能看到字節(jié)Seed、昆侖萬維、上交大PowerInfer等中國團(tuán)隊研發(fā)的模型。

并且這些廠商都選擇了把自家的王牌模型直接開源，而不是發(fā)布新一代才開源上一代。

在開源世界，國產(chǎn)模型已成為當(dāng)之無愧的領(lǐng)軍者。

Github：
https://github.com/stepfun-ai/Step3
Hugging Face：
https://huggingface.co/stepfun-ai/step3
魔搭ModelScope：
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8
技術(shù)blog：
https://www.stepfun.com/research/zh/step3
StepMesh開源地址：
https://github.com/stepfun-ai/StepMesh

責(zé)任編輯：張燕妮來源：量子位

AI 模型開源

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="29zpf"></blockquote>}