華為曝光兩大黑科技!打破推理延遲魔咒,大模型從此「秒回」
「前DeepSeek」時(shí)代,人們普遍認(rèn)為「有卡才能推理,沒卡寸步難行」。
而DeepSeek卻憑借一系列軟件層面的架構(gòu)創(chuàng)新,把這一硬性門檻直接抬走,同時(shí)開創(chuàng)了中國人自己的AI大航海時(shí)代。
不過,雖然諸如V3和R1等超大規(guī)模MoE性能卓越,但在部署時(shí)卻存在著非常大的挑戰(zhàn)——推理的速度和延遲。
心理學(xué)和行業(yè)實(shí)驗(yàn)一致表明,LLM吐出第一個(gè)token所用的時(shí)間(TTFT),以及每秒生成的速度直接決定了用戶的「等候感」。超過100毫秒即可感知,超過2秒即可打斷思考。
對(duì)于AI應(yīng)用來說,這里有一個(gè)簡單的公式可以說明:更快速度+更低延遲=更高滿意度+更高轉(zhuǎn)化率。
為了解決這一核心問題,華為通過兩個(gè)全新的方法和思路,對(duì)MoE模型進(jìn)行了專門的推理優(yōu)化,讓中國模型在中國的服務(wù)器上的推理速度來到了全新的高度!
- FusionSpec打破了大模型推理「延遲魔咒」,依托于昇騰「超高」計(jì)算帶寬比的特點(diǎn),創(chuàng)新性地重塑了主模型和投機(jī)模型的流程,結(jié)合輕量級(jí)步間準(zhǔn)備,將投機(jī)推理框架耗時(shí)做到了1ms。
- OptiQuant不僅支持主流量化算法,同時(shí)具備靈活的自定義組合能力,涵蓋了業(yè)內(nèi)主流評(píng)測數(shù)據(jù)集,為大模型推理提供了更強(qiáng)性價(jià)比。
華為挑戰(zhàn)MoE推理的「兩把刷子」
早期LLM的推理通常使用自回歸解碼方式,即「每次只能預(yù)測下一個(gè)token」。
且需將歷史輸出作為輸入進(jìn)行下一步解碼,導(dǎo)致推理過程串行、效率低下、計(jì)算密集度低。
如何解決這個(gè)問題?投機(jī)推理技術(shù)應(yīng)運(yùn)而生。
投機(jī)推理(Speculative Inference),也被稱為推測性解碼,其核心思想是利用計(jì)算代價(jià)遠(yuǎn)低于大模型的小模型(也稱為投機(jī)模型),先行對(duì)后續(xù)可能的輸出進(jìn)行猜測,然后由大模型對(duì)這些猜測結(jié)果進(jìn)行驗(yàn)證,從而實(shí)現(xiàn)并行化推理,提升整體推理速度。
這個(gè)道理其實(shí)也簡單,就像寫作文的時(shí)候,你先在草稿上「預(yù)測」幾個(gè)可能句子(投機(jī)模型猜測),再挑出合適的句子寫到正式作文里(大模型或者叫主模型驗(yàn)證)。

如果草稿上預(yù)測的都不對(duì),那就把作文里的擦掉重寫就好了(回退修正)。但要是預(yù)測對(duì)了,寫作文的速度(大模型的輸出速度)就能更快——畢竟草稿紙上的修改成本遠(yuǎn)低于正式作文。
這種「先試錯(cuò)再優(yōu)化」的思路,讓大模型能更快、更準(zhǔn)的給出答案(也就是推理速度又快又好)。
然而,是想要完美將投機(jī)模型和主模型相結(jié)合,依然面臨很大的困難。
1. 推測準(zhǔn)確性與草稿生成效率的權(quán)衡
小模型的主要任務(wù)是快速生成可能的輸出,但這往往與生成結(jié)果的準(zhǔn)確性相矛盾。如何在兩者之間找到最佳平衡點(diǎn),是投機(jī)推理技術(shù)面臨的一大挑戰(zhàn)。
2. 批處理推理場景的適配
在實(shí)際應(yīng)用中,批處理推理可以提高系統(tǒng)的整體吞吐量。投機(jī)推理本質(zhì)上來說是用空閑的算力換取更高的吞吐,需要處理好投機(jī)模型和投機(jī)框架引入的耗時(shí),不然無法發(fā)揮投機(jī)推理在批處理場景下的加速潛力。
另一方面,僅有投機(jī)推理技術(shù)也不夠,推理性能提升還需與模型壓縮、量化、增量式解碼等有效集成。
超大規(guī)模MoE動(dòng)輒百億、千億參數(shù)量,對(duì)顯存帶寬、計(jì)算能力和互聯(lián)網(wǎng)帶寬需求,提出了極高要求。尤其長序列推理中的KV cache,更是堪稱顯存「無底洞」。
在此背景下,量化技術(shù)就成了緩解資源約束、優(yōu)化部署效率的「救命稻草」——在大幅降低資源占用的同時(shí),還能盡量保留模型精度。
以INT8量化為例:
- 權(quán)重量化可以將模型參數(shù)的顯存需求降低50%,配合激活值量化,利用Cube-Core的INT8算力加速矩陣乘運(yùn)算。
- KV cache量化則進(jìn)一步壓縮了顯存占用,支持更長的序列和更高的并發(fā)請(qǐng)求,大幅提升了Decode階段的系統(tǒng)吞吐量。
盡管低比特量化被視為LLM推理的靈丹妙藥,但若要實(shí)現(xiàn)高質(zhì)高效的量化,并非易事。
1. 精度的損失
將模型參數(shù)從高精度壓縮到低精度,不可避免會(huì)導(dǎo)致精度下降。尤其是,在極低比特?cái)?shù)(如二值)情況下更為明顯。
2. 算法的「兩難抉擇」
如何去設(shè)計(jì)高效、抗噪的量化算法,在保持精度同時(shí),降低計(jì)算和訪存復(fù)雜度,依舊是行業(yè)研究重點(diǎn)。
過于復(fù)雜的算法,雖能提升精度,但會(huì)增加計(jì)算開銷,抵銷量化的效率優(yōu)勢(shì)。而過于簡單的算法,又會(huì)犧牲過多精度,最終導(dǎo)致模型效果不佳。
3. 硬件兼容的適配
量化后的模型還需與硬件深度適配,而現(xiàn)有的量化算法在昇騰硬件上還有很多創(chuàng)新優(yōu)化的空間。
此外,量化誤差的控制和推理過程中的動(dòng)態(tài)調(diào)整策略,也充滿了挑戰(zhàn)。
4.校準(zhǔn)集泛化性缺失
校準(zhǔn)集的泛化性缺失導(dǎo)致了在很多任務(wù)上,難以達(dá)到與原有模型相近的精度水平,甚至在某些場景下精度下降十分嚴(yán)重。
不論是投機(jī)推理,還是低比特量化,都是推理優(yōu)化過程核心,它們所面臨的難題,是LLM飆速推理路上最大的絆腳石。
而現(xiàn)在,華為的這套方案,徹底攻克所有挑戰(zhàn),解鎖了AI模型的中國速度。
投機(jī)推理框架FusionSpec 創(chuàng)1ms奇跡
具體來說,在投機(jī)推理方面,華為團(tuán)隊(duì)提出了投機(jī)推理框架FusionSpec。
FusionSpec充分利用了昇騰服務(wù)器高計(jì)算帶寬比的特點(diǎn),在低時(shí)延大并發(fā)場景下,深度優(yōu)化了DeepSeek提出的MTP在昇騰上的推理性能,將投機(jī)推理框架耗時(shí)減小至1ms,并在三個(gè)方面進(jìn)行了重大創(chuàng)新:

1. 考慮到DeepSeek的模型架構(gòu),MTP層需要主體模型的最后一層結(jié)果作為輸入,將MTP層的執(zhí)行直接排在主體模型執(zhí)行之后。
這樣做帶來兩個(gè)優(yōu)勢(shì):
- 優(yōu)化后的調(diào)度順序避免了推理的步間數(shù)據(jù)傳輸
- 在PD分離的部署場景下,投機(jī)模型的后置解耦了PD分離系統(tǒng)與投機(jī)框架,同時(shí)有效減少了節(jié)點(diǎn)間的數(shù)據(jù)傳輸

昇騰基于PD分離部署的vLLM框架調(diào)度示意圖
2. 參考MTP層訓(xùn)練模式,將MTP層視為模型的一部分,注意力算子復(fù)用主體模型的控制參數(shù)。
DeepSeek V3/R1為代表的主流的大語言模型采用旋轉(zhuǎn)位置編碼RoPE。在使用投機(jī)模型進(jìn)行預(yù)測時(shí),會(huì)按實(shí)際推理的token個(gè)數(shù)進(jìn)行位置編碼。
但對(duì)MTP層而言,計(jì)算時(shí)會(huì)忽略輸入的第0個(gè)token。因此,研究團(tuán)隊(duì)把MTP層輸入的第0個(gè)token舍去,前移其余token,并復(fù)用主體模型的控制參數(shù)。
而RoPE保證了對(duì)所有token進(jìn)行平移后的attention score不發(fā)生改變。這樣,就可以保證MTP層的正確計(jì)算,同時(shí)節(jié)省CPU上的準(zhǔn)備時(shí)間,并簡化整個(gè)系統(tǒng)的block管理。
· 參數(shù)復(fù)用省去了控制參數(shù)的重新構(gòu)造,降低了框架耗時(shí)
通過主體模型前置與流程拼接,將單步投機(jī)推理中輸入準(zhǔn)備從兩次降低為一次,避免主體模型和投機(jī)模型之間CPU同步打斷流水,壓縮了單步推理內(nèi)主體模型與投機(jī)模型間的框架耗時(shí),使得投機(jī)推理的整體框架時(shí)延與非投機(jī)場景一致。
基于上述優(yōu)化,F(xiàn)usionSpec框架實(shí)現(xiàn)了在較低時(shí)延下的高并發(fā)、大吞吐。
3. 實(shí)現(xiàn)了NPU上的輕量步間準(zhǔn)備,支撐了vLLM v0的multi-step以及vLLM v1前后處理全異步,進(jìn)一步降低了步間的框架耗時(shí)。

除了模型結(jié)構(gòu)和框架設(shè)計(jì)優(yōu)化外,在算子級(jí)別的細(xì)化加速同樣關(guān)鍵——這就是FusionSpec進(jìn)一步優(yōu)化的重點(diǎn)。
· 投機(jī)場景MLA算子加速
DeepSeek提出的對(duì)多頭潛注意力機(jī)制MLA,通過對(duì)Key和Value的低秩聯(lián)合壓縮,不僅大幅減少了所需的KV緩存量,同時(shí)性能還超過了傳統(tǒng)的MHA。
為了充分利用昇騰的計(jì)算能力,壓縮端到端輸出時(shí)間,F(xiàn)usionSpec進(jìn)一步優(yōu)化了投機(jī)場景MLA計(jì)算流程,減少矩陣的搬運(yùn)時(shí)間。

投機(jī)場景下多頭潛在注意力MLA算子優(yōu)化
· TopK、TopP算子加速
在投機(jī)推理場景中,若預(yù)測m個(gè)token,單步推理需進(jìn)行1+m次詞表采樣操作,所以采樣操作的速度變得更加重要。
采樣操作一般包含溫度、TopK、TopP三步,其中TopK、TopP需要排序,并且計(jì)算前綴和,這些是采樣操作的瓶頸。
未來,F(xiàn)usionSpec將采用流式過濾策略、昇騰歸并排序API優(yōu)化TopK、TopP計(jì)算。
量化框架OptiQuant 讓MoE巨獸飛起來
在量化方面,華為團(tuán)隊(duì)則提出了OptiQuant量化框架。
它不僅兼容業(yè)界主流量化算法,通過一系列功能創(chuàng)新,為高效部署提供了強(qiáng)力支撐。具體來說,它有四大核心亮點(diǎn):
· 豐富的量化和數(shù)值類型
OptiQuant支持了Int2/4/8和FP8/HiFloat8等數(shù)據(jù)類型,與業(yè)界Qserve、HQQ、LUT等主流量化方法兼容。
在此基礎(chǔ)上,OptiQuant創(chuàng)新性提出「可學(xué)習(xí)截?cái)唷?、「量化參?shù)優(yōu)化」等算法,將量化誤差進(jìn)一步降低。
· 業(yè)內(nèi)主流評(píng)測數(shù)據(jù)集
OptiQuant支持多樣化評(píng)測任務(wù),包括判斷題、問答題、代碼題和數(shù)學(xué)題等多個(gè)方向,覆蓋了十種常見的語言。
為了提升量化模型的泛化能力,OptiQuant還引入了混合校準(zhǔn)集的方法,按一定的比例混合不同數(shù)據(jù)集。
· 量化權(quán)重以及元數(shù)據(jù)的生成
OptiQuant提出了自適應(yīng)層間混精算法和PD分離量化權(quán)重,并且根據(jù)對(duì)應(yīng)的量化配置生成對(duì)應(yīng)的權(quán)重參數(shù),通過去冗余技術(shù)減少參數(shù)保存的參數(shù)量。
同時(shí),F(xiàn)lexSmoothQuant等算法在數(shù)據(jù)校準(zhǔn)過程中,將搜索到的元數(shù)據(jù)進(jìn)行保存,并用于后續(xù)推理過程。
· 量化權(quán)重推理
OptiQuant提出了KVCache量化和MoE TopK專家剪枝技術(shù)。
結(jié)合昇騰親和的量化算子,OptiQuant通過高效數(shù)據(jù)并行/流水并行,針對(duì)不同大小的大語言模型實(shí)現(xiàn)精度驗(yàn)證性能加速,將對(duì)各個(gè)數(shù)據(jù)集精度評(píng)估性能提高了5x以上。
此外,OptiQuant還支持Vector Quantization、DFloat11、可逆變換、量化模型微調(diào)等技術(shù)點(diǎn)。

OptiQuant量化框架
通過OptiQuant和相關(guān)優(yōu)化算法,華為實(shí)現(xiàn)了W8A8C16/W4A8C16的模型精度,媲美FP8精度的效果,并充分發(fā)揮了昇騰硬件性能。
表1:DeepSeek-R1模型精度測試結(jié)果

注1:如無特殊說明, 測試為單次結(jié)果
注2:測試3次以上結(jié)果取平均
注3:單次測試結(jié)果
表2:DeepSeek-V3-0324模型精度測試結(jié)果

注1:單次測試結(jié)果
下一步,團(tuán)隊(duì)還將探索PD差異量化、KV cache量化、TopK專家剪枝、通用的等價(jià)變換建模、和量化微調(diào)等方向,實(shí)現(xiàn)更高效、更低比特的權(quán)重、激活和KV cache的量化模型推理技術(shù)。
總而言之,F(xiàn)usionSpec和OptiQuant的雙劍合璧,將為超大規(guī)模MoE模型推理開辟了全新路徑。
這兩大框架的提出,打破了LLM推理的延遲魔咒、資源瓶頸。
這不僅僅是一次技術(shù)的突破,更是中國AI在全球舞臺(tái)上的一次強(qiáng)勢(shì)發(fā)聲。
未來,F(xiàn)usionSpec推理框架和OptiQuant量化框架有機(jī)融合,將促使更多的創(chuàng)新涌現(xiàn)出來。
技術(shù)報(bào)告:
技術(shù)博客:




























