偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="hzun1"></center>

<rt id="hzun1"></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

第二代InfLLM開源，同尺寸快三倍！零參數(shù)，可訓(xùn)練稀疏注意力

2025-10-10 09:13:09

人工智能新聞

InfLLM-V2是一種可高效處理長(zhǎng)文本的稀疏注意力模型，僅需少量長(zhǎng)文本數(shù)據(jù)即可訓(xùn)練，且性能接近傳統(tǒng)稠密模型。通過動(dòng)態(tài)切換短長(zhǎng)文本處理模式，顯著提升長(zhǎng)上下文任務(wù)的效率與質(zhì)量。從短到長(zhǎng)低成本「無縫切換」，預(yù)填充與解碼雙階段加速，釋放長(zhǎng)上下文的真正生產(chǎn)力。

長(zhǎng)序列高效處理已成為大模型應(yīng)用的關(guān)鍵。

傳統(tǒng)稠密注意力在序列變長(zhǎng)時(shí)計(jì)算開銷極速增長(zhǎng)，直接限制了產(chǎn)品可用性與成本可控性。

為解決這一痛點(diǎn)，清華、OpenBMB 和哈工大提出 InfLLM-V2：一種零額外參數(shù)、訓(xùn)練高效的原生稀疏注意力框架。

InfLLM在短文本場(chǎng)景保持原生高效率，在長(zhǎng)文本場(chǎng)景則切換為稀疏模式，帶來端到端的顯著加速。

該方法僅用5B的長(zhǎng)文本詞元，即可完成稀疏注意力的訓(xùn)練（而DeepSeek-V3.2-Exp訓(xùn)練了近 1T 詞元的數(shù)據(jù)，才完成稀疏注意力的訓(xùn)練）。

具體而言，InfLLM-V2相比于稠密注意力機(jī)制可以實(shí)現(xiàn)4倍的速度提升，在長(zhǎng)文本理解任務(wù)上保持98.1%的稠密模型性能，在深思考任務(wù)上保持99.7%的稠密模型性能。

InfLLM有三個(gè)核心優(yōu)勢(shì)

1. 低成本訓(xùn)練：僅需5B長(zhǎng)文本數(shù)據(jù)即可完成稀疏注意力能力的訓(xùn)練，訓(xùn)練成本低，適配周期短。

2. 短到長(zhǎng)無縫切換、效率雙優(yōu)：零新增參數(shù)，短序列用稠密、長(zhǎng)序列切換為稀疏，完全對(duì)齊「短序列預(yù)訓(xùn)練-長(zhǎng)序列后訓(xùn)練」的主流范式，訓(xùn)練穩(wěn)定、收斂快。

3. 高效算子實(shí)現(xiàn)：針對(duì)稀疏注意力「相關(guān)上下文選擇」（塊選擇）的時(shí)間瓶頸進(jìn)行系統(tǒng)優(yōu)化，提出面向硬件的高效實(shí)現(xiàn)，顯著降低HBM I/O與計(jì)算開銷，釋放稀疏注意力的全部潛能。

論文鏈接：https://www.arxiv.org/pdf/2509.24663

模型鏈接：https://huggingface.co/openbmb/MiniCPM4.1-8B

InfLLM-V2如何做到既「強(qiáng)」又「快」

在標(biāo)準(zhǔn) Transformer 的自注意力中，每個(gè)查詢?cè)~元 (Q[t]) 需與全部歷史詞元 (K[:t]) 計(jì)算相似度并參與注意力計(jì)算。

在長(zhǎng)上下文（動(dòng)輒數(shù)十萬詞元）時(shí)造成難以承受的時(shí)延與成本。經(jīng)驗(yàn)上，長(zhǎng)序列中絕大多數(shù)遠(yuǎn)距離注意力計(jì)算并非同等重要，注意力矩陣呈現(xiàn)顯著的「稀疏性」（多數(shù)注意力得分接近零）。

如果能僅對(duì)「少量相關(guān)上下文」進(jìn)行計(jì)算，就能顯著降低模型注意力計(jì)算開銷。

稀疏注意力將「每個(gè)查詢?cè)~元都與所有鍵值交互」的稠密范式，替換為「每個(gè)查詢?cè)~元只與一個(gè)選定子集交互」的稀疏范式。

核心包括兩個(gè)步驟：

塊選擇，將上下文拆分為鍵值塊，并為每個(gè)查詢確定需要參與注意力計(jì)算的鍵值子集；

稀疏注意力計(jì)算，僅在被選中的子集上進(jìn)行注意力計(jì)算。

可訓(xùn)練的稀疏注意力在模型訓(xùn)練過程中即引入稀疏機(jī)制，能夠系統(tǒng)性地提升模型在長(zhǎng)文本場(chǎng)景下的效率與質(zhì)量。

然而，現(xiàn)有代表性方法主要為 DeepSeek提出的NSA架構(gòu)。

NSA雖然采用了成熟的塊稀疏結(jié)構(gòu)并配套專用CUDA內(nèi)核，但其架構(gòu)與主流的「短序列預(yù)訓(xùn)練—長(zhǎng)序列微調(diào)」范式存在明顯錯(cuò)配：引入三套獨(dú)立的 KV 緩存與三種注意力分支，在「長(zhǎng)序列微調(diào)」中將使得模型收斂不穩(wěn)，并且對(duì)短序列場(chǎng)景增加了大量的額外開銷。

針對(duì)上述痛點(diǎn)，InfLLM-V2 提出「零額外參數(shù)、長(zhǎng)短無縫切換」的可訓(xùn)練稀疏路徑，在不改變?cè)凶⒁饬?shù)的前提下，完成從稠密到稀疏的平滑切換。

無縫短長(zhǎng)切換：僅用一套共享鍵值緩存（零額外參數(shù)），把 NSA 多分支并為單一分支；與稠密注意力在參數(shù)與計(jì)算方式上完全對(duì)齊，按序列長(zhǎng)度動(dòng)態(tài)切換稠密/稀疏，訓(xùn)練更穩(wěn)。

長(zhǎng)短序列效率雙優(yōu)：短文本直接使用稠密注意力機(jī)制，零額外開銷與性能回退；長(zhǎng)文本用統(tǒng)一的稀疏范式，prefill 與 decode 全鏈路提速。

硬件友好的塊選擇：基于 MLP 的塊壓縮操作修改為無參數(shù)池化操作；壓縮注意力（圖中Compressed Attetntion）修改為僅生成選擇分?jǐn)?shù)，計(jì)算 Top-K；配合 GQA 組內(nèi)共享 Top-K，實(shí)現(xiàn)了更優(yōu)的計(jì)算 Kernel 融合，避免塊選擇代替稀疏注意力成為效率瓶頸。

在以上技術(shù)的支持下，InfLLM-V2僅需使用5B詞元即可實(shí)現(xiàn)稀疏注意力模型的訓(xùn)練！

與DeepSeek Sparse Attention對(duì)比

值得注意的是，在9月29日，DeepSeek-V3.2-Exp中提出了NSA的升級(jí)版 —— DeepSeek Sparse Attention（DSA）。

DSA拋棄了NSA中三套獨(dú)立KV緩存與三種注意力分支的設(shè)計(jì)，并在后訓(xùn)練階段引入稀疏注意力算法。

實(shí)驗(yàn)結(jié)論

研究人員基于MiniCPM4的基座模型，在長(zhǎng)文本理解與深思考任務(wù)上對(duì)比了不同稀疏注意力算法的效果。

長(zhǎng)文本理解任務(wù)

在長(zhǎng)文本理解任務(wù)RULER、LongBench與LongPPL評(píng)測(cè)中，InfLLM-V2實(shí)現(xiàn)了與稠密注意力模型完全可比的性能，展現(xiàn)了InfLLM-V2的優(yōu)越性。其他稀疏注意力方法一定程度上都會(huì)導(dǎo)致模型性能下降。

NSA方法新增了大量參數(shù)，在少量的長(zhǎng)文本訓(xùn)練后，無法讓模型捕捉到長(zhǎng)上下文中的前后語義關(guān)聯(lián)。

深思考任務(wù)

在數(shù)學(xué)、代碼深思考任務(wù)中，InfLLM-V2能夠?qū)崿F(xiàn)與稠密注意力可比的性能，而 NSA 方法卻對(duì)模型效果有著較大的損害。

隨著愈來愈多的任務(wù)要求模型進(jìn)行更深入的推理與分析，「如何高效加速模型的思考過程」已成為當(dāng)下的重要研究方向。InfLLM-V2充分展現(xiàn)了稀疏注意力在深思考場(chǎng)景下的潛力。

效率評(píng)測(cè)

研究人員在A100與4090兩款芯片上對(duì)InfLLM-V2進(jìn)行了推理效率評(píng)測(cè)。

結(jié)果表明，InfLLM?V2相對(duì)稠密注意力可獲得顯著加速，在128K長(zhǎng)文本中，InfLLM-V2 可實(shí)現(xiàn)4-9倍算子加速比。

分解分析與消融實(shí)驗(yàn)表明，高效塊選擇設(shè)計(jì)是關(guān)鍵加速來源。

端到端評(píng)測(cè)中，InfLLM?V2在prefill與decode分別實(shí)現(xiàn)約2.1×與2.3×加速。

算子速度測(cè)評(píng)

端到端速度測(cè)評(píng)

首個(gè)開源原生稀疏注意力模型

MiniCPM4/MiniCPM4.1

在今年6月，OpenBMB聯(lián)合清華提出了InfLLM-V2架構(gòu)，并基于該架構(gòu)共同發(fā)布了首個(gè)開源的原生稀疏注意力模型MiniCPM4，并在9月初開源了混合思考版本MiniCPM4.1

MiniCPM4.1在眾多深思考任務(wù)上取得綜合平均分同尺寸模型第一。

MiniCPM4.1充分利用稀疏注意力、投機(jī)采樣等高效算法，在LiveCodeBench、AIME等代碼、數(shù)學(xué)推理的測(cè)試中，推理速度比Qwen3-8B等同尺寸開源模型快3倍以上。

研究人員表示，將持續(xù)優(yōu)化InfLLM-V2的訓(xùn)練算子與推理算子，將InfLLM-V2集成至SGLang等主流推理框架中。

同時(shí)，為了促進(jìn)稀疏注意力機(jī)制的研究，也將陸續(xù)開源論文中使用到的基座模型（Base模型）與長(zhǎng)文本訓(xùn)練數(shù)據(jù)。

責(zé)任編輯：張燕妮來源：新智元

AI 模型開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)