偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

第二代InfLLM開源,同尺寸快三倍!零參數(shù),可訓(xùn)練稀疏注意力

人工智能 新聞
InfLLM-V2是一種可高效處理長(zhǎng)文本的稀疏注意力模型,僅需少量長(zhǎng)文本數(shù)據(jù)即可訓(xùn)練,且性能接近傳統(tǒng)稠密模型。通過動(dòng)態(tài)切換短長(zhǎng)文本處理模式,顯著提升長(zhǎng)上下文任務(wù)的效率與質(zhì)量。從短到長(zhǎng)低成本「無縫切換」,預(yù)填充與解碼雙階段加速,釋放長(zhǎng)上下文的真正生產(chǎn)力。

長(zhǎng)序列高效處理已成為大模型應(yīng)用的關(guān)鍵。

傳統(tǒng)稠密注意力在序列變長(zhǎng)時(shí)計(jì)算開銷極速增長(zhǎng),直接限制了產(chǎn)品可用性與成本可控性。

為解決這一痛點(diǎn),清華 、OpenBMB 和哈工大提出 InfLLM-V2:一種零額外參數(shù)、訓(xùn)練高效的原生稀疏注意力框架。

InfLLM在短文本場(chǎng)景保持原生高效率,在長(zhǎng)文本場(chǎng)景則切換為稀疏模式,帶來端到端的顯著加速。

該方法僅用5B的長(zhǎng)文本詞元,即可完成稀疏注意力的訓(xùn)練(而DeepSeek-V3.2-Exp訓(xùn)練了近 1T 詞元的數(shù)據(jù),才完成稀疏注意力的訓(xùn)練)

具體而言,InfLLM-V2相比于稠密注意力機(jī)制可以實(shí)現(xiàn)4倍的速度提升,在長(zhǎng)文本理解任務(wù)上保持98.1%的稠密模型性能,在深思考任務(wù)上保持99.7%的稠密模型性能。

InfLLM有三個(gè)核心優(yōu)勢(shì)

1. 低成本訓(xùn)練:僅需5B長(zhǎng)文本數(shù)據(jù)即可完成稀疏注意力能力的訓(xùn)練,訓(xùn)練成本低,適配周期短。

2. 短到長(zhǎng)無縫切換、效率雙優(yōu):零新增參數(shù),短序列用稠密、長(zhǎng)序列切換為稀疏,完全對(duì)齊「短序列預(yù)訓(xùn)練-長(zhǎng)序列后訓(xùn)練」的主流范式,訓(xùn)練穩(wěn)定、收斂快。

3. 高效算子實(shí)現(xiàn):針對(duì)稀疏注意力「相關(guān)上下文選擇」(塊選擇)的時(shí)間瓶頸進(jìn)行系統(tǒng)優(yōu)化,提出面向硬件的高效實(shí)現(xiàn),顯著降低HBM I/O與計(jì)算開銷,釋放稀疏注意力的全部潛能。

論文鏈接:https://www.arxiv.org/pdf/2509.24663

模型鏈接:https://huggingface.co/openbmb/MiniCPM4.1-8B

InfLLM-V2如何做到既「強(qiáng)」又「快」

在標(biāo)準(zhǔn) Transformer 的自注意力中,每個(gè)查詢?cè)~元 (Q[t]) 需與全部歷史詞元 (K[:t]) 計(jì)算相似度并參與注意力計(jì)算。

在長(zhǎng)上下文(動(dòng)輒數(shù)十萬詞元)時(shí)造成難以承受的時(shí)延與成本。經(jīng)驗(yàn)上,長(zhǎng)序列中絕大多數(shù)遠(yuǎn)距離注意力計(jì)算并非同等重要,注意力矩陣呈現(xiàn)顯著的「稀疏性」(多數(shù)注意力得分接近零)。

如果能僅對(duì)「少量相關(guān)上下文」進(jìn)行計(jì)算,就能顯著降低模型注意力計(jì)算開銷。

稀疏注意力將「每個(gè)查詢?cè)~元都與所有鍵值交互」的稠密范式,替換為「每個(gè)查詢?cè)~元只與一個(gè)選定子集交互」的稀疏范式。

核心包括兩個(gè)步驟:

塊選擇,將上下文拆分為鍵值塊,并為每個(gè)查詢確定需要參與注意力計(jì)算的鍵值子集;

稀疏注意力計(jì)算,僅在被選中的子集上進(jìn)行注意力計(jì)算。

可訓(xùn)練的稀疏注意力在模型訓(xùn)練過程中即引入稀疏機(jī)制,能夠系統(tǒng)性地提升模型在長(zhǎng)文本場(chǎng)景下的效率與質(zhì)量。

然而,現(xiàn)有代表性方法主要為 DeepSeek提出的NSA架構(gòu)。

NSA雖然采用了成熟的塊稀疏結(jié)構(gòu)并配套專用CUDA內(nèi)核,但其架構(gòu)與主流的「短序列預(yù)訓(xùn)練—長(zhǎng)序列微調(diào)」范式存在明顯錯(cuò)配:引入三套獨(dú)立的 KV 緩存與三種注意力分支,在「長(zhǎng)序列微調(diào)」中將使得模型收斂不穩(wěn),并且對(duì)短序列場(chǎng)景增加了大量的額外開銷。

針對(duì)上述痛點(diǎn),InfLLM-V2 提出「零額外參數(shù)、長(zhǎng)短無縫切換」 的可訓(xùn)練稀疏路徑,在不改變?cè)凶⒁饬?shù)的前提下,完成從稠密到稀疏的平滑切換。

無縫短長(zhǎng)切換:僅用一套共享鍵值緩存(零額外參數(shù)),把 NSA 多分支并為單一分支;與稠密注意力在參數(shù)與計(jì)算方式上完全對(duì)齊,按序列長(zhǎng)度動(dòng)態(tài)切換稠密/稀疏,訓(xùn)練更穩(wěn)。

長(zhǎng)短序列效率雙優(yōu):短文本直接使用稠密注意力機(jī)制,零額外開銷與性能回退;長(zhǎng)文本用統(tǒng)一的稀疏范式,prefill 與 decode 全鏈路提速。

硬件友好的塊選擇:基于 MLP 的塊壓縮操作修改為無參數(shù)池化操作;壓縮注意力(圖中Compressed Attetntion)修改為僅生成選擇分?jǐn)?shù),計(jì)算 Top-K;配合 GQA 組內(nèi)共享 Top-K,實(shí)現(xiàn)了更優(yōu)的計(jì)算 Kernel 融合,避免塊選擇代替稀疏注意力成為效率瓶頸。

在以上技術(shù)的支持下,InfLLM-V2僅需使用5B詞元即可實(shí)現(xiàn)稀疏注意力模型的訓(xùn)練!

與DeepSeek Sparse Attention對(duì)比

值得注意的是,在9月29日,DeepSeek-V3.2-Exp中提出了NSA的升級(jí)版 —— DeepSeek Sparse Attention(DSA)。

DSA拋棄了NSA中三套獨(dú)立KV緩存與三種注意力分支的設(shè)計(jì),并在后訓(xùn)練階段引入稀疏注意力算法。

實(shí)驗(yàn)結(jié)論

研究人員基于MiniCPM4的基座模型,在長(zhǎng)文本理解與深思考任務(wù)上對(duì)比了不同稀疏注意力算法的效果。

長(zhǎng)文本理解任務(wù)

在長(zhǎng)文本理解任務(wù)RULER、LongBench與LongPPL評(píng)測(cè)中,InfLLM-V2實(shí)現(xiàn)了與稠密注意力模型完全可比的性能,展現(xiàn)了InfLLM-V2的優(yōu)越性。其他稀疏注意力方法一定程度上都會(huì)導(dǎo)致模型性能下降。

NSA方法新增了大量參數(shù),在少量的長(zhǎng)文本訓(xùn)練后,無法讓模型捕捉到長(zhǎng)上下文中的前后語義關(guān)聯(lián)。

深思考任務(wù)

在數(shù)學(xué)、代碼深思考任務(wù)中,InfLLM-V2能夠?qū)崿F(xiàn)與稠密注意力可比的性能,而 NSA 方法卻對(duì)模型效果有著較大的損害。

隨著愈來愈多的任務(wù)要求模型進(jìn)行更深入的推理與分析,「如何高效加速模型的思考過程」已成為當(dāng)下的重要研究方向。InfLLM-V2充分展現(xiàn)了稀疏注意力在深思考場(chǎng)景下的潛力。

效率評(píng)測(cè)

研究人員在A100與4090兩款芯片上對(duì)InfLLM-V2進(jìn)行了推理效率評(píng)測(cè)。

結(jié)果表明,InfLLM?V2相對(duì)稠密注意力可獲得顯著加速,在128K長(zhǎng)文本中,InfLLM-V2 可實(shí)現(xiàn)4-9倍算子加速比。

分解分析與消融實(shí)驗(yàn)表明,高效塊選擇設(shè)計(jì)是關(guān)鍵加速來源。

端到端評(píng)測(cè)中,InfLLM?V2在prefill與decode分別實(shí)現(xiàn)約2.1×與2.3×加速。

算子速度測(cè)評(píng)


端到端速度測(cè)評(píng)

首個(gè)開源原生稀疏注意力模型

MiniCPM4/MiniCPM4.1

在今年6月,OpenBMB聯(lián)合清華提出了InfLLM-V2架構(gòu),并基于該架構(gòu)共同發(fā)布了首個(gè)開源的原生稀疏注意力模型MiniCPM4,并在9月初開源了混合思考版本MiniCPM4.1

MiniCPM4.1在眾多深思考任務(wù)上取得綜合平均分同尺寸模型第一。

MiniCPM4.1充分利用稀疏注意力、投機(jī)采樣等高效算法,在LiveCodeBench、AIME等代碼、數(shù)學(xué)推理的測(cè)試中,推理速度比Qwen3-8B等同尺寸開源模型快3倍以上。

研究人員表示,將持續(xù)優(yōu)化InfLLM-V2的訓(xùn)練算子與推理算子,將InfLLM-V2集成至SGLang等主流推理框架中。

同時(shí),為了促進(jìn)稀疏注意力機(jī)制的研究,也將陸續(xù)開源論文中使用到的基座模型(Base模型)與長(zhǎng)文本訓(xùn)練數(shù)據(jù)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2009-02-13 16:54:50

EMCSSDSymmetrix

2012-05-15 18:04:57

Trinity

2019-09-30 07:10:08

第二代云計(jì)算IT專業(yè)人員

2019-10-08 11:49:06

第二代云計(jì)算多云

2013-12-12 15:36:35

亞馬遜

2011-08-30 17:29:55

2015-02-02 13:15:59

2013-05-03 09:44:02

Surface平板

2011-12-11 23:19:21

2021-04-20 10:30:43

區(qū)塊鏈安全互聯(lián)網(wǎng)

2014-10-18 13:53:26

2020-08-13 10:50:55

Graphcore

2012-05-08 13:18:42

流控引擎流控

2012-08-08 11:02:54

Surface微軟

2015-08-24 10:18:05

2014-04-17 10:24:42

2010-01-27 18:12:55

2013-04-19 11:08:57

E-Band微波LTE移動(dòng)通信網(wǎng)絡(luò)

2014-10-30 09:40:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)