唯快不破：上海AI Lab 82頁(yè)綜述帶你感受LLM高效架構(gòu)的魅力

2025-08-26 09:12:00

本文從 LLM 架構(gòu)角度出發(fā)，帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構(gòu)。

作者：孫偉高上海人工智能實(shí)驗(yàn)室

近年來，大語(yǔ)言模型（LLMs）展現(xiàn)出強(qiáng)大的語(yǔ)言理解與生成能力，推動(dòng)了文本生成、代碼生成、問答、翻譯等任務(wù)的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等，已經(jīng)深刻改變了人機(jī)交互方式。LLMs 的邊界也不止于語(yǔ)言和簡(jiǎn)單問答。隨著多模態(tài)（VLMs）與推理能力（LRMs）的興起，LLMs 正不斷擴(kuò)展到多模態(tài)理解、生成與復(fù)雜推理場(chǎng)景。

但模型性能持續(xù)提升的背后，是模型尺寸、數(shù)據(jù)規(guī)模、RL 推理長(zhǎng)度的快速 Scaling，是算力和存儲(chǔ)資源的急劇消耗。大模型的訓(xùn)練與推理的成本居高不下，成為制約其廣泛落地和應(yīng)用的現(xiàn)實(shí)瓶頸。

本文從 LLM 架構(gòu)角度出發(fā)，帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構(gòu)。Transformer 的自注意力機(jī)制雖帶來了遠(yuǎn)距離建模的突破，卻因 O(N2) 的復(fù)雜度在長(zhǎng)序列任務(wù)中成本高昂。而在 RAG、智能體、長(zhǎng)鏈推理、多模態(tài)等新興場(chǎng)景下，長(zhǎng)序列需求愈發(fā)突出，進(jìn)一步放大了效率與性能之間的矛盾。同時(shí) Transformer 的 FFN 部分采用密集的 MLP 層，同樣面臨模型規(guī)模放大后的訓(xùn)練和推理效率問題。

近年來針對(duì) Transformer 架構(gòu)改進(jìn)的創(chuàng)新工作層出不窮，卻一直缺乏一篇全面深入的綜述文章進(jìn)行總結(jié)。

圖 1：常見長(zhǎng)序列場(chǎng)景

近期，上海 AI Lab 聯(lián)合港科廣、澳門大學(xué)、中科院自動(dòng)化所、蘇州大學(xué)、瑞典 KTH、北大、港中文等多家機(jī)構(gòu)，總結(jié) 440 余篇相關(guān)論文，深入探討了當(dāng)前 LLM 高效結(jié)構(gòu)的最新進(jìn)展，形成這篇 82 頁(yè)的綜述論文：

論文標(biāo)題：Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
論文地址：https://arxiv.org/pdf/2508.09834
項(xiàng)目倉(cāng)庫(kù)：https://github.com/weigao266/Awesome-Efficient-Arch

圖 2：大語(yǔ)言模型高效架構(gòu)概覽

該綜述將目前 LLM 高效架構(gòu)總結(jié)分類為以下 7 類：

線性序列建模：降低注意力訓(xùn)練和推理復(fù)雜度，無需 KV Cache 開銷。
稀疏序列建模：通過稀疏化注意力矩陣，降低計(jì)算與顯存需求。
高效全注意力：在保持完整注意力的前提下優(yōu)化內(nèi)存訪問與 KV 存儲(chǔ)。
稀疏專家模型：通過條件激活部分專家，大幅提升模型容量而不增加等比例計(jì)算成本。
混合模型架構(gòu)：結(jié)合線性/稀疏序列建模與全注意力，兼顧效率與性能。
擴(kuò)散語(yǔ)言模型：利用非自回歸的擴(kuò)散模型進(jìn)行語(yǔ)言生成。
其他模態(tài)應(yīng)用：將這些高效架構(gòu)應(yīng)用于視覺、語(yǔ)音、多模態(tài)模型。

這些方向的探索不僅關(guān)乎 LLM 的未來效率，也關(guān)乎如何在算力受限的條件下，持續(xù)推動(dòng) AI 走向更強(qiáng)的智能的關(guān)鍵選擇。綜述涉及的方法類別和代表性論文可見如下樹狀圖：

圖 3：綜述完整組織架構(gòu)

線性序列建模

線性序列建模是近年來研究相當(dāng)火熱的一個(gè)方向，代表性工作像 Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架構(gòu)方向都引起過廣泛關(guān)注。我們將這類技術(shù)細(xì)分為以下幾個(gè)類別：

線性注意力
線性 RNN
狀態(tài)空間模型
測(cè)試時(shí)推理 RNN

并且正如在多篇文獻(xiàn)里已經(jīng)提出的，這些線性序列建模方法可以概括為統(tǒng)一建模的數(shù)學(xué)形式，并且能夠通過線性化過程將預(yù)訓(xùn)練模型權(quán)重的 Softmax Attention 架構(gòu)轉(zhuǎn)為 Linear Sequence Modeling 架構(gòu)，從而獲得模型效率的大幅提升，如下圖所示。

圖 4：線性序列建模方法

我們將已有的線性序列建模方法從記憶視角和優(yōu)化器視角分別進(jìn)行梳理和對(duì)比，詳細(xì)形式可見下表：

表 1：線性序列建模方法統(tǒng)一建模的 Memory 視角和 Optimizer 視角

其中線性化技術(shù)可以進(jìn)一步細(xì)分為基于微調(diào)的線性化，和基于蒸餾的線性化，如下圖所示：

圖 5：線性化方法

綜述還進(jìn)一步總結(jié)歸納了目前在線性序列建模領(lǐng)域常見的硬件高效實(shí)現(xiàn)方法，可以歸納為 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences，如下圖所示：

圖 6：線性序列建模方法的硬件高效實(shí)現(xiàn)

稀疏序列建模

稀疏序列建模是另一類有代表性的高效注意力機(jī)制，通過利用 Attention Map 天然具有的稀疏性加速注意力的計(jì)算，這類方法可以進(jìn)一步細(xì)分為：

靜態(tài)稀疏注意力
動(dòng)態(tài)稀疏注意力
免訓(xùn)練稀疏注意力

代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等，及其工作原理如下圖所示：

圖 7：稀疏注意力的幾種經(jīng)典形式

高效全注意力

另一類高效注意力算法可以統(tǒng)一歸納為高效全注意力，這類方法可以根據(jù)算法思路進(jìn)一步細(xì)分為如下幾類：

IO-Aware Attention
Grouped Attention
Mixture of Attention
Quantized Attention

其中 IO-Aware Attention 指代目前使用非常廣泛的 Flash Attention 系列工作，Grouped Attention 則包含廣為使用的 GQA、MLA 等全注意力變體，幾種代表性方法如下圖所示。

圖 8：Grouped Attention 的幾種代表性方法

稀疏混合專家

稀疏混合專家是對(duì) Transformer 架構(gòu)中另一個(gè)重要模塊 FFN 做的一類重要改進(jìn)，已經(jīng)逐漸成為（語(yǔ)言和多模態(tài)）大模型架構(gòu)的事實(shí)標(biāo)準(zhǔn)。綜述中將相關(guān)文獻(xiàn)按以下三個(gè)方向進(jìn)行分類：

Routing Mechanisms
Expert Architectures
MoE Conversion

路由機(jī)制包括 Token-choice 和 Expert-choice 兩類，其原理如下圖所示：

圖 9：MoE 路由機(jī)制

專家結(jié)構(gòu)的創(chuàng)新工作包括：共享專家、細(xì)粒度專家、零專家、深度路由等，其作用和原理可見下圖：

圖 10：MoE 專家架構(gòu)

另外一個(gè)重要的方向是 MoE 轉(zhuǎn)換，已有的工作包括通過 Split、Copy、Merge 等手段對(duì)專家進(jìn)行構(gòu)造，如下圖所示：

圖 11：MoE 轉(zhuǎn)化機(jī)制

混合架構(gòu)

混合架構(gòu)是近年來出現(xiàn)的一種實(shí)用的新型架構(gòu)，可以在線性/稀疏注意力和全注意力之間取得微妙的 Trade-off，也在效率和效果間找到了最佳甜蜜點(diǎn)。具體可細(xì)分為：

層間混合
層內(nèi)混合

圖 12：混合架構(gòu)形式

擴(kuò)散大語(yǔ)言模型

擴(kuò)散大語(yǔ)言模型是近期出現(xiàn)的一個(gè)熱門方向，創(chuàng)新性地將擴(kuò)散模型從視覺生成任務(wù)遷移至語(yǔ)言任務(wù)，從而在語(yǔ)言生成速度上取得大幅進(jìn)步。相關(guān)工作可以細(xì)分為：

Non-Autoregressive Diffusion LLM
Bridging Diffusion LLM and Autoregressive
Extending Diffusion LLM to Multimodality

圖 13：擴(kuò)散大語(yǔ)言模型機(jī)制

應(yīng)用至其他模態(tài)

最后一個(gè)重要的部分是高效架構(gòu)在其他模態(tài)上的應(yīng)用，涵蓋視覺、音頻和多模態(tài)。以 Mamba 為代表的線性模型被廣泛應(yīng)用至多種模態(tài)任務(wù)上，并取得了優(yōu)秀的表現(xiàn)，綜述將這類模型總結(jié)梳理至如下表格：

寄語(yǔ)

最后正如帝國(guó)時(shí)代 3 中這條神奇代碼「Speed Always Wins」能讓游戲世界「Increases build, research, shipment, and gather rates by 100 times for all players」一樣，我們希望綜述中的 Efficient Architectures 可以真被用來 100x 加速 AI 世界的構(gòu)建，更快更便宜地訓(xùn)練出更強(qiáng)更實(shí)用的大模型。請(qǐng)記住這條神奇代碼：「Speed Always Wins」

責(zé)任編輯：張燕妮來源：機(jī)器之心