第二代InfLLM開源,同尺寸快三倍!零參數(shù),可訓(xùn)練稀疏注意力
長(zhǎng)序列高效處理已成為大模型應(yīng)用的關(guān)鍵。
傳統(tǒng)稠密注意力在序列變長(zhǎng)時(shí)計(jì)算開銷極速增長(zhǎng),直接限制了產(chǎn)品可用性與成本可控性。
為解決這一痛點(diǎn),清華 、OpenBMB 和哈工大提出 InfLLM-V2:一種零額外參數(shù)、訓(xùn)練高效的原生稀疏注意力框架。
InfLLM在短文本場(chǎng)景保持原生高效率,在長(zhǎng)文本場(chǎng)景則切換為稀疏模式,帶來端到端的顯著加速。
該方法僅用5B的長(zhǎng)文本詞元,即可完成稀疏注意力的訓(xùn)練(而DeepSeek-V3.2-Exp訓(xùn)練了近 1T 詞元的數(shù)據(jù),才完成稀疏注意力的訓(xùn)練)。
具體而言,InfLLM-V2相比于稠密注意力機(jī)制可以實(shí)現(xiàn)4倍的速度提升,在長(zhǎng)文本理解任務(wù)上保持98.1%的稠密模型性能,在深思考任務(wù)上保持99.7%的稠密模型性能。
InfLLM有三個(gè)核心優(yōu)勢(shì)
1. 低成本訓(xùn)練:僅需5B長(zhǎng)文本數(shù)據(jù)即可完成稀疏注意力能力的訓(xùn)練,訓(xùn)練成本低,適配周期短。
2. 短到長(zhǎng)無縫切換、效率雙優(yōu):零新增參數(shù),短序列用稠密、長(zhǎng)序列切換為稀疏,完全對(duì)齊「短序列預(yù)訓(xùn)練-長(zhǎng)序列后訓(xùn)練」的主流范式,訓(xùn)練穩(wěn)定、收斂快。
3. 高效算子實(shí)現(xiàn):針對(duì)稀疏注意力「相關(guān)上下文選擇」(塊選擇)的時(shí)間瓶頸進(jìn)行系統(tǒng)優(yōu)化,提出面向硬件的高效實(shí)現(xiàn),顯著降低HBM I/O與計(jì)算開銷,釋放稀疏注意力的全部潛能。

論文鏈接:https://www.arxiv.org/pdf/2509.24663
模型鏈接:https://huggingface.co/openbmb/MiniCPM4.1-8B
InfLLM-V2如何做到既「強(qiáng)」又「快」
在標(biāo)準(zhǔn) Transformer 的自注意力中,每個(gè)查詢?cè)~元 (Q[t]) 需與全部歷史詞元 (K[:t]) 計(jì)算相似度并參與注意力計(jì)算。
在長(zhǎng)上下文(動(dòng)輒數(shù)十萬詞元)時(shí)造成難以承受的時(shí)延與成本。經(jīng)驗(yàn)上,長(zhǎng)序列中絕大多數(shù)遠(yuǎn)距離注意力計(jì)算并非同等重要,注意力矩陣呈現(xiàn)顯著的「稀疏性」(多數(shù)注意力得分接近零)。
如果能僅對(duì)「少量相關(guān)上下文」進(jìn)行計(jì)算,就能顯著降低模型注意力計(jì)算開銷。
稀疏注意力將「每個(gè)查詢?cè)~元都與所有鍵值交互」的稠密范式,替換為「每個(gè)查詢?cè)~元只與一個(gè)選定子集交互」的稀疏范式。

核心包括兩個(gè)步驟:
塊選擇,將上下文拆分為鍵值塊,并為每個(gè)查詢確定需要參與注意力計(jì)算的鍵值子集;
稀疏注意力計(jì)算,僅在被選中的子集上進(jìn)行注意力計(jì)算。
可訓(xùn)練的稀疏注意力在模型訓(xùn)練過程中即引入稀疏機(jī)制,能夠系統(tǒng)性地提升模型在長(zhǎng)文本場(chǎng)景下的效率與質(zhì)量。
然而,現(xiàn)有代表性方法主要為 DeepSeek提出的NSA架構(gòu)。
NSA雖然采用了成熟的塊稀疏結(jié)構(gòu)并配套專用CUDA內(nèi)核,但其架構(gòu)與主流的「短序列預(yù)訓(xùn)練—長(zhǎng)序列微調(diào)」范式存在明顯錯(cuò)配:引入三套獨(dú)立的 KV 緩存與三種注意力分支,在「長(zhǎng)序列微調(diào)」中將使得模型收斂不穩(wěn),并且對(duì)短序列場(chǎng)景增加了大量的額外開銷。

針對(duì)上述痛點(diǎn),InfLLM-V2 提出「零額外參數(shù)、長(zhǎng)短無縫切換」 的可訓(xùn)練稀疏路徑,在不改變?cè)凶⒁饬?shù)的前提下,完成從稠密到稀疏的平滑切換。
無縫短長(zhǎng)切換:僅用一套共享鍵值緩存(零額外參數(shù)),把 NSA 多分支并為單一分支;與稠密注意力在參數(shù)與計(jì)算方式上完全對(duì)齊,按序列長(zhǎng)度動(dòng)態(tài)切換稠密/稀疏,訓(xùn)練更穩(wěn)。
長(zhǎng)短序列效率雙優(yōu):短文本直接使用稠密注意力機(jī)制,零額外開銷與性能回退;長(zhǎng)文本用統(tǒng)一的稀疏范式,prefill 與 decode 全鏈路提速。
硬件友好的塊選擇:基于 MLP 的塊壓縮操作修改為無參數(shù)池化操作;壓縮注意力(圖中Compressed Attetntion)修改為僅生成選擇分?jǐn)?shù),計(jì)算 Top-K;配合 GQA 組內(nèi)共享 Top-K,實(shí)現(xiàn)了更優(yōu)的計(jì)算 Kernel 融合,避免塊選擇代替稀疏注意力成為效率瓶頸。
在以上技術(shù)的支持下,InfLLM-V2僅需使用5B詞元即可實(shí)現(xiàn)稀疏注意力模型的訓(xùn)練!
與DeepSeek Sparse Attention對(duì)比
值得注意的是,在9月29日,DeepSeek-V3.2-Exp中提出了NSA的升級(jí)版 —— DeepSeek Sparse Attention(DSA)。
DSA拋棄了NSA中三套獨(dú)立KV緩存與三種注意力分支的設(shè)計(jì),并在后訓(xùn)練階段引入稀疏注意力算法。
實(shí)驗(yàn)結(jié)論
研究人員基于MiniCPM4的基座模型,在長(zhǎng)文本理解與深思考任務(wù)上對(duì)比了不同稀疏注意力算法的效果。
長(zhǎng)文本理解任務(wù)
在長(zhǎng)文本理解任務(wù)RULER、LongBench與LongPPL評(píng)測(cè)中,InfLLM-V2實(shí)現(xiàn)了與稠密注意力模型完全可比的性能,展現(xiàn)了InfLLM-V2的優(yōu)越性。其他稀疏注意力方法一定程度上都會(huì)導(dǎo)致模型性能下降。
NSA方法新增了大量參數(shù),在少量的長(zhǎng)文本訓(xùn)練后,無法讓模型捕捉到長(zhǎng)上下文中的前后語義關(guān)聯(lián)。


深思考任務(wù)
在數(shù)學(xué)、代碼深思考任務(wù)中,InfLLM-V2能夠?qū)崿F(xiàn)與稠密注意力可比的性能,而 NSA 方法卻對(duì)模型效果有著較大的損害。
隨著愈來愈多的任務(wù)要求模型進(jìn)行更深入的推理與分析,「如何高效加速模型的思考過程」已成為當(dāng)下的重要研究方向。InfLLM-V2充分展現(xiàn)了稀疏注意力在深思考場(chǎng)景下的潛力。

效率評(píng)測(cè)
研究人員在A100與4090兩款芯片上對(duì)InfLLM-V2進(jìn)行了推理效率評(píng)測(cè)。
結(jié)果表明,InfLLM?V2相對(duì)稠密注意力可獲得顯著加速,在128K長(zhǎng)文本中,InfLLM-V2 可實(shí)現(xiàn)4-9倍算子加速比。
分解分析與消融實(shí)驗(yàn)表明,高效塊選擇設(shè)計(jì)是關(guān)鍵加速來源。
端到端評(píng)測(cè)中,InfLLM?V2在prefill與decode分別實(shí)現(xiàn)約2.1×與2.3×加速。

算子速度測(cè)評(píng)

端到端速度測(cè)評(píng)
首個(gè)開源原生稀疏注意力模型
MiniCPM4/MiniCPM4.1
在今年6月,OpenBMB聯(lián)合清華提出了InfLLM-V2架構(gòu),并基于該架構(gòu)共同發(fā)布了首個(gè)開源的原生稀疏注意力模型MiniCPM4,并在9月初開源了混合思考版本MiniCPM4.1
MiniCPM4.1在眾多深思考任務(wù)上取得綜合平均分同尺寸模型第一。
MiniCPM4.1充分利用稀疏注意力、投機(jī)采樣等高效算法,在LiveCodeBench、AIME等代碼、數(shù)學(xué)推理的測(cè)試中,推理速度比Qwen3-8B等同尺寸開源模型快3倍以上。

研究人員表示,將持續(xù)優(yōu)化InfLLM-V2的訓(xùn)練算子與推理算子,將InfLLM-V2集成至SGLang等主流推理框架中。
同時(shí),為了促進(jìn)稀疏注意力機(jī)制的研究,也將陸續(xù)開源論文中使用到的基座模型(Base模型)與長(zhǎng)文本訓(xùn)練數(shù)據(jù)。















 
 
 
 
 
 
 