剛剛,Kimi開(kāi)源新架構(gòu),開(kāi)始押注線性注意力
在智能體時(shí)代,推理的計(jì)算需求正成為一個(gè)核心瓶頸,尤其是在長(zhǎng)時(shí)程和強(qiáng)化學(xué)習(xí)場(chǎng)景中。此時(shí),標(biāo)準(zhǔn)注意力機(jī)制中存在的低效問(wèn)題變得更加突出。
線性注意力為降低計(jì)算復(fù)雜度提供了一種有前景的方法,但由于表達(dá)能力有限,它在語(yǔ)言建模方面的表現(xiàn)歷來(lái)不如 softmax 注意力,即使對(duì)于短序列也是如此。
最近的進(jìn)展顯著縮小了這一差距,主要得益于兩項(xiàng)創(chuàng)新:門(mén)控或衰減機(jī)制以及 delta 規(guī)則。這些進(jìn)展共同推動(dòng)線性注意力在中等長(zhǎng)度序列上的性能接近 softmax 水平。盡管如此,純粹的線性結(jié)構(gòu)從根本上仍受限于有限狀態(tài)容量,這使得長(zhǎng)序列建模和上下文內(nèi)檢索在理論上仍具有挑戰(zhàn)性。
因此,結(jié)合 softmax 注意力和線性注意力的混合架構(gòu)成為在質(zhì)量和效率之間的一種折衷方案。但之前的混合模型往往規(guī)模較小,缺乏多樣化基準(zhǔn)評(píng)估。關(guān)鍵挑戰(zhàn)是開(kāi)發(fā)出一種新的注意力架構(gòu),能夠在速度和內(nèi)存上顯著提高效率,同時(shí)保證或超過(guò)全注意力的質(zhì)量,推動(dòng)下一代解碼密集型 LLM 的發(fā)展。
最近,月之暗面在這一方向有所突破。在一篇新的技術(shù)報(bào)告中,他們提出了一種新的混合線性注意力架構(gòu) ——Kimi Linear。該架構(gòu)在各種場(chǎng)景中都優(yōu)于傳統(tǒng)的全注意力方法,包括短文本、長(zhǎng)文本以及強(qiáng)化學(xué)習(xí)的 scaling 機(jī)制。

- 技術(shù)報(bào)告:KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE
- 報(bào)告鏈接:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf
- GitHub 鏈接:https://github.com/MoonshotAI/Kimi-Linear?tab=readme-ov-file
- HuggingFace 鏈接:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
Kimi Linear 的核心是 Kimi Delta 注意力(KDA)—— 這是 Gated DeltaNet(GDN)的改進(jìn)版本,引入了更高效的門(mén)控機(jī)制,以優(yōu)化有限狀態(tài) RNN 內(nèi)存的使用。作者表示,雖然 GDN 與 Mamba2 類似,采用了粗糙的 head-wise 遺忘門(mén),但 KDA 引入了一種 channel-wise 的變體,其中每個(gè)特征維度都保持獨(dú)立的遺忘率,類似于門(mén)控線性注意力(GLA)。
這種細(xì)粒度的設(shè)計(jì)能夠更精確地調(diào)控有限狀態(tài) RNN 的記憶,從而在混合架構(gòu)中釋放 RNN 風(fēng)格模型的潛力。關(guān)鍵在于,KDA 通過(guò) Diagonal-Plus-Low-Rank(DPLR)矩陣的一種專門(mén)變體來(lái)參數(shù)化其轉(zhuǎn)換動(dòng)態(tài),這使得一種定制的分塊并行算法成為可能,該算法相較于通用的 DPLR 公式能顯著減少計(jì)算量,同時(shí)仍與經(jīng)典的 delta 規(guī)則保持一致。Kimi Linear 以 3:1 的固定比例將 KDA 與周期性的全注意力層交錯(cuò)排列。
作者基于 KDA 與多頭潛在注意力(MLA)的分層混合架構(gòu),預(yù)訓(xùn)練了一個(gè) Kimi Linear 模型。該模型激活參數(shù)為 3B,總參數(shù)達(dá) 48B。
Kimi Linear 實(shí)現(xiàn)了卓越的性能和硬件效率,尤其在長(zhǎng)上下文任務(wù)中表現(xiàn)突出。它最多可將對(duì)大型 KV 緩存的需求減少 75%,并且在處理長(zhǎng)達(dá) 100 萬(wàn)個(gè) token 的上下文時(shí),能將解碼吞吐量提升到完整 MLA 模型的 6 倍。


月之暗面團(tuán)隊(duì)在 FLA 中開(kāi)源了 KDA 內(nèi)核,并發(fā)布了兩個(gè)版本的模型檢查點(diǎn),這些檢查點(diǎn)是用 5.7 萬(wàn)億個(gè) token 訓(xùn)練的。

整個(gè)項(xiàng)目的核心看點(diǎn)包括:
- Kimi Delta 注意力(KDA):一種線性注意力機(jī)制,通過(guò)細(xì)粒度門(mén)控優(yōu)化門(mén)控 Delta 規(guī)則。
- 混合架構(gòu):3:1 的 KDA 與全局 MLA 比例在降低內(nèi)存使用的同時(shí),保持甚至超越全注意力的質(zhì)量。
- 卓越性能:在多種任務(wù)中表現(xiàn)優(yōu)于全注意力,包括在 1.4 萬(wàn)億 token 的訓(xùn)練運(yùn)行中,通過(guò)公平對(duì)比,在長(zhǎng)上下文和強(qiáng)化學(xué)習(xí)風(fēng)格的基準(zhǔn)測(cè)試中均有出色表現(xiàn)。
- 高吞吐量:實(shí)現(xiàn)了高達(dá) 6 倍的更快解碼速度,并顯著減少了每個(gè)輸出 token 的時(shí)間(TPOT)。
目前,vLLM 已經(jīng)官宣支持 Kimi Linear。

在技術(shù)報(bào)告發(fā)布后,Kimi 的研究員「熊貍」在 X 上表示:「我很榮幸在過(guò)去一年中見(jiàn)證了這項(xiàng)偉大的工作。線性注意力在表達(dá)能力上具有巨大潛力,但在處理長(zhǎng)上下文時(shí)存在較高的風(fēng)險(xiǎn)。KDA 不是一個(gè)玩具式的想法,它經(jīng)受住了各種不可作弊的內(nèi)部評(píng)估,這些評(píng)估的目的就是為了驗(yàn)證其有效性?!?/span>

該項(xiàng)目的重要貢獻(xiàn)者 Zongyu Lin(目前在 UCLA)表示,「坦白說(shuō),這只是一個(gè)中間階段,最終我們?nèi)匀辉诔鴮?shí)現(xiàn)無(wú)限上下文模型邁進(jìn)。只要我們使用全局注意力,長(zhǎng)時(shí)間解碼依然受到其限制,而線性注意力背后仍然有一些基礎(chǔ)設(shè)施挑戰(zhàn)。但我相信這些問(wèn)題都會(huì)被解決,而且來(lái)自不同實(shí)驗(yàn)室 / 公司的更多令人激動(dòng)的成果即將到來(lái)?!?/span>

所以,K3 也會(huì)延續(xù)線性注意力架構(gòu)嗎?
而另外的大模型玩家中,Qwen 也曾表示要大膽押注線性注意力:

但 MiniMax 似乎更青睞全注意力。

到底哪個(gè)方向能走得更遠(yuǎn)?我們拭目以待。
以下是 Kimi Linear 的技術(shù)細(xì)節(jié)。
Kimi Delta Attention:通過(guò)細(xì)粒度門(mén)控改進(jìn) Delta 規(guī)則
Kimi Delta Attention (KDA) 是一種新型的門(mén)控線性注意力變體。它通過(guò)引入一個(gè)細(xì)粒度的對(duì)角化門(mén)控
來(lái)改進(jìn) GDN 的標(biāo)量衰減,從而實(shí)現(xiàn)了對(duì)記憶衰減和位置感知的細(xì)粒度控制。

硬件高效的分塊算法
通過(guò)將公式 1 的遞歸部分展開(kāi)為分塊公式,可得到:

- WY Representation
通常用于將一系列秩 - 1 更新打包成單個(gè)緊湊的表示。該方法遵循了 Comba 中 P 的公式,以減少后續(xù)計(jì)算中額外矩陣求逆的需求。

其中,輔助向量
和
通過(guò)以下遞歸關(guān)系計(jì)算得出:

- UT transform
該算法應(yīng)用了 UT transform 來(lái)減少非矩陣乘法的 FLOPs,這對(duì)于在訓(xùn)練期間提升硬件利用率至關(guān)重要。

下三角矩陣的逆可以通過(guò)高斯消元法中的前向替換,采用逐行迭代的方法高效計(jì)算。等效地,以矩陣形式,可以按如下方式分塊更新?tīng)顟B(tài):


在輸出階段,該算法采用塊間遞歸和塊內(nèi)并行的策略來(lái)最大化矩陣乘法吞吐量,從而充分利用 Tensor Cores 的計(jì)算潛力。

效率分析
在表示能力方面,KDA 與廣義的 DPLR 公式一致,即

兩者都表現(xiàn)出細(xì)粒度的衰減行為。然而,這種細(xì)粒度的衰減會(huì)在除法運(yùn)算(例如,公式 9 中的塊內(nèi)計(jì)算)過(guò)程中引入數(shù)值精度問(wèn)題。
為了解決這個(gè)問(wèn)題,以往的工作(如 GLA)在對(duì)數(shù)域中執(zhí)行計(jì)算,并在全精度下引入二級(jí)分塊。然而,這種方法妨礙了半精度矩陣乘法的充分利用,并顯著降低了算子速度。
通過(guò)將變量 a 和 b 同時(shí)綁定到 k,KDA 有效地緩解了這一瓶頸 —— 將二級(jí)分塊矩陣計(jì)算的數(shù)量從四次減少到兩次,并進(jìn)一步消除了三次額外的矩陣乘法。因此,與 DPLR 公式相比,KDA 的算子效率提升了大約 100%。

在批量大小統(tǒng)一為 1 且頭數(shù)為 16 的條件下,算子隨輸入長(zhǎng)度變化的執(zhí)行時(shí)間。
Kimi 線性模型架構(gòu)
該模型架構(gòu)的主干遵循 Moonlight 的設(shè)計(jì)。除了細(xì)粒度門(mén)控之外,該模型還利用了幾個(gè)組件來(lái)進(jìn)一步提高 Kimi Linear 的表達(dá)能力。Kimi Linear 的整體架構(gòu)如圖 3 所示。

神經(jīng)參數(shù)化
設(shè)
是第 t 個(gè) token 的輸入表示,KDA 每個(gè)頭 h 的輸入計(jì)算如下:

其中 dk, dv 代表 key (鍵) 和 value (值) 的頭部維度,在所有實(shí)驗(yàn)中均設(shè)置為 128。對(duì)于 q, k, v,該模型應(yīng)用了一個(gè)短卷積,隨后是一個(gè) Swish 激活函數(shù)。q 和 k 的表示被進(jìn)一步使用 L2 范數(shù)歸一化進(jìn)行歸一化,以確保特征值的穩(wěn)定性。
每通道衰減
是通過(guò)一個(gè)低秩投影
和
,其秩等于頭部維度)和一個(gè)類似于 GDN 和 Mamba 中使用的衰減函數(shù)
來(lái)參數(shù)化的。
在通過(guò)
進(jìn)行輸出投影之前,模型使用了一個(gè)逐頭 RMSNorm 和一個(gè)數(shù)據(jù)依賴的門(mén)控機(jī)制,其參數(shù)化如下:

在這里,輸出門(mén)采用了類似于遺忘門(mén)的低秩參數(shù)化,以確保公平的參數(shù)比較,同時(shí)保持與全秩門(mén)控相當(dāng)?shù)男阅埽⒕徑庾⒁饬ο鲁羻?wèn)題。
混合模型架構(gòu)
長(zhǎng)上下文檢索仍然是純線性注意力的主要瓶頸,因此,本文將 KDA 與少數(shù)幾個(gè)全全局注意力 (Full MLA) 層進(jìn)行了混合。
對(duì)于 Kimi Linear,研究人員選擇了一種逐層方法(交替使用整個(gè)層),而不是逐頭方法(在層內(nèi)混合不同的頭),因?yàn)榍罢咴诨A(chǔ)設(shè)施簡(jiǎn)單性和訓(xùn)練穩(wěn)定性方面更具優(yōu)勢(shì)。
經(jīng)驗(yàn)表明,采用統(tǒng)一的 3:1 比例,即每 3 個(gè) KDA 層重復(fù) 1 個(gè)全 MLA 層,可提供最佳的質(zhì)量 - 吞吐量權(quán)衡。
MLA 層的無(wú)位置編碼 (NoPE)
在 Kimi Linear 中,NoPE 被應(yīng)用于所有全注意力層。這種設(shè)計(jì)將編碼位置信息和近期偏好的全部責(zé)任委托給了 KDA 層。
因此,KDA 被確立為主要的位置感知算子,其扮演的角色類似于(甚至可以說(shuō)強(qiáng)于)短卷積或 SWA 等輔助組件。這一發(fā)現(xiàn)與先前的研究結(jié)果一致,后者同樣證明了:使用一個(gè)專用的位置感知機(jī)制來(lái)補(bǔ)充全局 NoPE 注意力,可以產(chǎn)生具有競(jìng)爭(zhēng)力的長(zhǎng)上下文性能。
值得注意的是,NoPE 提供了顯著的實(shí)用優(yōu)勢(shì),特別是對(duì)于 MLA 層。首先,NoPE 使得這些層在推理過(guò)程中可以轉(zhuǎn)換為高效的純多查詢注意力。其次,它簡(jiǎn)化了長(zhǎng)上下文訓(xùn)練,因?yàn)樗苊饬?RoPE(旋轉(zhuǎn)位置編碼)的參數(shù)調(diào)整需求,例如頻率基調(diào)優(yōu)或使用像 YaRN 這樣的方法。

實(shí)驗(yàn)結(jié)果
對(duì) Kimi Linear 關(guān)鍵組件的消融實(shí)驗(yàn)
作者通過(guò)將不同模型與 first-scale scaling law 模型(即 16 個(gè)注意力頭、16 層)進(jìn)行直接比較,開(kāi)展了一系列消融研究。下表 1 記錄了訓(xùn)練和驗(yàn)證的困惑度(PPL)。

從表中還可以得出以下信息:
- 輸出門(mén)控:移除門(mén)控會(huì)降低性能,swish 門(mén)控性能明顯不如 Sigmoid。
- 卷積層:卷積層在混合模型中仍然發(fā)揮著不可忽視的作用。
- 混合比例:在測(cè)試的配置中,3:1 的比例(每 1 個(gè) MLA 層對(duì)應(yīng) 3 個(gè) KDA 層)產(chǎn)生了最佳結(jié)果,實(shí)現(xiàn)了最低的訓(xùn)練損失和驗(yàn)證損失。
NoPE vs. RoPE 的對(duì)比結(jié)果見(jiàn)表 5。從中可以看出,采用 NoPE 的 Kimi Linear 在不同的長(zhǎng)上下文基準(zhǔn)測(cè)試中取得了最佳的平均分?jǐn)?shù)。

Kimi Linear 的 scaling law
作者基于 Moonlight 架構(gòu),對(duì)一系列 MoE 模型進(jìn)行了 scaling law 實(shí)驗(yàn)。在所有實(shí)驗(yàn)中,他們從 64 個(gè)專家中激活了 8 個(gè),并使用了 Muon 優(yōu)化器。詳細(xì)信息和超參數(shù)列于表 2 中。

對(duì)于 MLA,他們遵循 Chinchilla scaling law,訓(xùn)練了五個(gè)不同規(guī)模的語(yǔ)言模型,并通過(guò)網(wǎng)格搜索仔細(xì)調(diào)整它們的超參數(shù),以確保每個(gè)模型都能達(dá)到最佳性能。對(duì)于 KDA,他們保持了表 1 中驗(yàn)證的 3:1 這一最佳混合比例。除此之外,他們嚴(yán)格遵循 MLA 的訓(xùn)練配置,未做任何修改。如圖 5 所示,與經(jīng)過(guò)計(jì)算優(yōu)化訓(xùn)練的 MLA 基線相比,Kimi Linear 的計(jì)算效率約為其 1.16 倍。作者預(yù)計(jì),仔細(xì)的超參數(shù)調(diào)整將為 KDA 帶來(lái)更優(yōu)的縮放曲線。

與基線對(duì)比的主要實(shí)驗(yàn)結(jié)果
Kimi Linear @1.4T 結(jié)果:
- 預(yù)訓(xùn)練結(jié)果
在表 3 中,團(tuán)隊(duì)使用一個(gè) 1.4T 的預(yù)訓(xùn)練語(yǔ)料庫(kù),比較了 Kimi Linear 模型與兩個(gè)基線模型(MLA 和 hybrid GDN-H)。評(píng)估重點(diǎn)關(guān)注三個(gè)領(lǐng)域:通用知識(shí)、推理(數(shù)學(xué)和代碼)以及中文任務(wù)。Kimi Linear 在幾乎所有類別中都持續(xù)優(yōu)于兩個(gè)基線模型。

- 通用知識(shí): Kimi Linear 在所有關(guān)鍵基準(zhǔn)(如 BBH, MMLU 和 HellaSwag)上均獲得最高分。
- 推理: 它在數(shù)學(xué)(GSM8K)和大多數(shù)代碼任務(wù)(CRUXEval)上處于領(lǐng)先地位。然而,在 EvalPlus 上的得分略低于 GDN-H。
- 中文任務(wù): Kimi Linear 在 CEval 和 CMMLU 上取得了最高分。
總之,Kimi Linear 展現(xiàn)了最強(qiáng)的性能,使其成為短上下文預(yù)訓(xùn)練中全注意力架構(gòu)的有力替代方案。
- SFT 結(jié)果
在經(jīng)歷了相同的監(jiān)督微調(diào)(SFT)流程后,Kimi Linear 在通用任務(wù)以及數(shù)學(xué)和代碼任務(wù)上均表現(xiàn)出強(qiáng)勁性能,持續(xù)優(yōu)于 MLA 和 GDN-H。
在通用任務(wù)中,Kimi Linear 全面領(lǐng)先,在各種 MMLU 基準(zhǔn)、BBH 和 GPQA-Diamond 上均取得了最高分。在數(shù)學(xué)和代碼任務(wù)中,它在 AIME 2025、HMMT 2025、PolyMath-en 和 LiveCodeBench 等高難度基準(zhǔn)上超越了兩個(gè)基線模型。

盡管在 MATH500 和 EvalPlus 等個(gè)別項(xiàng)目上存在微小例外,但 Kimi Linear 在各項(xiàng)任務(wù)中均顯示出穩(wěn)健的優(yōu)勢(shì),證實(shí)了其相較于其他測(cè)試模型(GDN-H 和 MLA)的明顯優(yōu)越性。
- 長(zhǎng)上下文性能評(píng)估
團(tuán)隊(duì)在 128k 上下文長(zhǎng)度下,評(píng)估了 Kimi Linear 相對(duì)于三個(gè)基線模型 ——MLA、GDN-H 和 Kimi Linear (RoPE)—— 在幾個(gè)基準(zhǔn)上的長(zhǎng)上下文性能(見(jiàn)表 5)。

結(jié)果凸顯了 Kimi Linear 在這些長(zhǎng)上下文任務(wù)中的明顯優(yōu)勢(shì)。它持續(xù)優(yōu)于 MLA 和 GDN-H,在 RULER (84.3) 和 RepoQA (68.5) 上以顯著優(yōu)勢(shì)取得了最高分。這種超越模式在除 LongBench V2 和 Frames 之外的大多數(shù)其他任務(wù)中也得以保持。
總體而言,Kimi Linear 取得了最高的平均分 (54.5),進(jìn)一步鞏固了其作為長(zhǎng)上下文場(chǎng)景中領(lǐng)先注意力架構(gòu)的有效性。
- RL 結(jié)果
為了比較 Kimi Linear 和 MLA 的強(qiáng)化學(xué)習(xí)(RL)收斂特性,團(tuán)隊(duì)使用了 內(nèi)部數(shù)學(xué)訓(xùn)練集進(jìn)行了 RLVR,并在數(shù)學(xué)測(cè)試集(例如 AIME 2025, MATH500)上進(jìn)行評(píng)估,同時(shí)保持算法和所有超參數(shù)一致,以確保公平的性能比較。

如圖 6 所示,與 MLA 相比,Kimi Linear 展示了更高的效率。在訓(xùn)練集上,盡管兩個(gè)模型起點(diǎn)相似,但 Kimi Linear 的訓(xùn)練準(zhǔn)確率增長(zhǎng)速度明顯高于 MLA,且差距逐漸拉大。在測(cè)試集上也觀察到了類似現(xiàn)象。例如,在 MATH500 和 AIME2025 上,Kimi Linear 相比 MLA 取得了更快、更好的提升。
總體而言,團(tuán)隊(duì)根據(jù)經(jīng)驗(yàn)觀察到,在強(qiáng)化學(xué)習(xí)下的推理密集型長(zhǎng)文本生成中,Kimi Linear 的表現(xiàn)明顯優(yōu)于 MLA。
- 總體研究結(jié)果總結(jié)
在預(yù)訓(xùn)練和 SFT 階段,一個(gè)清晰的性能層級(jí)得以確立:Kimi Linear 優(yōu)于 GDN-H,而 GDN-H 又優(yōu)于 MLA。然而,這個(gè)層級(jí)在長(zhǎng)上下文評(píng)估中發(fā)生了變化。雖然 Kimi Linear 保持了其領(lǐng)先地位,但 GDN-H 的性能有所下降,使其排名落后于 MLA。
此外,在 RL 階段,Kimi Linear 也表現(xiàn)出優(yōu)于 MLA 的性能??傮w而言,Kimi Linear 在所有階段始終名列前茅,確立了其作為全注意力架構(gòu)的卓越替代方案的地位。
效率對(duì)比結(jié)果
作者在圖 7a 和圖 7b 中比較了全注意力 MLA、GDN-H 和 Kimi Linear 的訓(xùn)練及解碼時(shí)間。

作者觀察到,盡管融入了更精細(xì)的衰減機(jī)制,但 Kimi Linear 在預(yù)填充期間相較于 GDN-H 僅引入了可忽略不計(jì)的延遲開(kāi)銷。如圖 7a 所示,它們的性能曲線幾乎難以區(qū)分,這證實(shí)了 Kimi Linear 的方法保持了較高的效率。隨著序列長(zhǎng)度的增加,混合的 Kimi Linear 模型相較于 MLA 基線展現(xiàn)出明顯的效率優(yōu)勢(shì)。雖然在較短長(zhǎng)度(4k–16k)時(shí)其性能與 MLA 相當(dāng),但從 128k 開(kāi)始,它的速度顯著提升。這種效率差距在規(guī)模擴(kuò)大時(shí)急劇拉大。如圖 1b 所示,Kimi Linear 在解碼階段充分展現(xiàn)了其優(yōu)勢(shì)。在 1M 上下文長(zhǎng)度下進(jìn)行解碼時(shí),Kimi Linear 的速度是全注意力的 6 倍。
更多技術(shù)細(xì)節(jié)請(qǐng)參見(jiàn)原論文。



































