偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

大模型服務(wù)的推理優(yōu)化探索

原創(chuàng) 精選

作者：曹洪偉 2025-07-08 03:11:00

大模型的能力令人驚嘆，但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段：預(yù)填充和解碼。

開發(fā)并部署大模型應(yīng)用肯定要考慮它們的服務(wù)成本。然而，錢并不是唯一的考慮因素，如果不能解決模型性能方面的問題，即使有很大的預(yù)算，大模型服務(wù)仍會(huì)受到影響。本文嘗試討論將 LLM 推理服務(wù)更改為高吞吐量引擎的挑戰(zhàn)與應(yīng)對(duì)方法。

1. 大模型服務(wù)面臨的挑戰(zhàn)

大模型的能力令人驚嘆，但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段：預(yù)填充和解碼。在預(yù)填充階段，當(dāng)你輸入提示詞（包含上下文、對(duì)話歷史、問題等信息）時(shí)，模型需要一次性處理所有輸入的 token。隨后進(jìn)入解碼階段，模型開始逐個(gè)生成輸出 token，且每個(gè)新 token 的生成都嚴(yán)格依賴于之前生成的 token?？梢赃@樣類比：預(yù)填充就像為一盤象棋游戲精心布局（耗時(shí)較長），而解碼則類似于后續(xù)一步接一步的落子（單步較快）。然而，現(xiàn)實(shí)并非如此輕松——部署大型模型遠(yuǎn)非易事，必須仔細(xì)考量其帶來的延遲問題。

1.1 數(shù)據(jù)稀疏性問題

在神經(jīng)網(wǎng)絡(luò)中，尤其是前饋網(wǎng)絡(luò)（FFN），許多神經(jīng)元的激活值為零。這種稀疏性導(dǎo)致矩陣乘法中存在大量零元素，從而浪費(fèi)了計(jì)算資源。如果我們能夠跳過這些零值，僅對(duì)非零元素進(jìn)行計(jì)算，將顯著提升推理效率。

更重要的是，在深度學(xué)習(xí)系統(tǒng)中，數(shù)據(jù)在 CPU 和 GPU 之間傳輸所消耗的時(shí)間往往遠(yuǎn)高于實(shí)際計(jì)算時(shí)間。此外，隨著模型規(guī)模的增長，一些包含數(shù)萬億參數(shù)的超大規(guī)模模型根本無法容納在單個(gè) GPU 中，使得稀疏性優(yōu)化變得尤為關(guān)鍵。

1.2 請(qǐng)求調(diào)度問題

大模型通常需要同時(shí)處理多個(gè)用戶請(qǐng)求。在這種多任務(wù)場(chǎng)景下，短小快速的請(qǐng)求（例如查詢天氣、時(shí)間或簡(jiǎn)短答案）可能不得不排隊(duì)等待長時(shí)間請(qǐng)求完成。這導(dǎo)致整體平均響應(yīng)時(shí)間主要受制于等待時(shí)間，而非實(shí)際計(jì)算耗時(shí)。

即使你的模型計(jì)算速度非常快，也必須等待前面的請(qǐng)求執(zhí)行完畢才能開始處理下一個(gè)。因此，如何高效地調(diào)度和優(yōu)先處理不同類型請(qǐng)求，是提升服務(wù)吞吐量與用戶體驗(yàn)的關(guān)鍵挑戰(zhàn)。

1.3 順序解碼問題

當(dāng)前的語言模型生成機(jī)制限制了token之間的并行化能力。每個(gè)前向傳播只能生成一個(gè)新 token（或少量 token），這意味著長文本回復(fù)必須逐字逐句地生成。這也是為什么像 ChatGPT 這類模型在生成長文時(shí)，通常采用“流式輸出”的方式呈現(xiàn)結(jié)果。

有趣的是，盡管流式輸出能帶來更即時(shí)的反饋體驗(yàn)，但其本質(zhì)仍然是串行生成過程。因此，“先看到一部分”并不意味著更快完成整個(gè)生成任務(wù)，反而揭示了當(dāng)前解碼機(jī)制在并行性上的瓶頸。

1.4 KV 緩存增長問題

注意力機(jī)制是 LLM 推理的核心環(huán)節(jié)，尤其是在長序列中，計(jì)算所有 token 之間的相關(guān)性會(huì)帶來巨大的計(jì)算負(fù)擔(dān)。每當(dāng)模型生成一個(gè)新的 token，都需要重復(fù)計(jì)算之前所有 token 的注意力權(quán)重，造成大量冗余操作。

KV 緩存（Key-Value Cache）是一種有效的優(yōu)化策略，它通過緩存已生成 token 的中間狀態(tài)，避免重復(fù)計(jì)算，從而加速推理過程。然而，隨著生成序列變長，KV 緩存占用的內(nèi)存也會(huì)持續(xù)增長，成為影響推理效率和部署成本的重要因素。

2. 推理優(yōu)化之KV Cache 管理

KV 緩存是 LLM 推理過程中占用內(nèi)存最多的部分之一。隨著上下文長度的增加，KV 緩存所需的存儲(chǔ)空間也隨之增長。例如，一個(gè)支持最大輸入長度為 2048 個(gè) token 的模型，需要預(yù)留 2048 個(gè)緩存插槽。如果用戶僅輸入了一個(gè)包含 7 個(gè) token 的提示詞，那么其余 2000 多個(gè)插槽雖然未被使用，卻依然被系統(tǒng)預(yù)留，造成內(nèi)部內(nèi)存碎片。

在每一步推理中，模型都會(huì)生成新的 KV 對(duì)，并在后續(xù) attention 計(jì)算中使用，因此必須將它們緩存起來。KV 緩存通常以連續(xù)的內(nèi)存塊或“頁”形式進(jìn)行分配。然而，當(dāng)某個(gè)序列生成完成后，其占用的內(nèi)存頁被釋放，但這些頁可能并不連續(xù)。這就導(dǎo)致了外部內(nèi)存碎片：大量小塊空閑內(nèi)存分散在內(nèi)存中，無法滿足后續(xù)請(qǐng)求所需的連續(xù)內(nèi)存空間。

為了解決這一問題，研究者借鑒操作系統(tǒng)的內(nèi)存管理機(jī)制，提出了頁面注意力機(jī)制（PagedAttention）。該機(jī)制將 KV 緩存組織成邏輯內(nèi)存塊，并通過頁表進(jìn)行管理，從而實(shí)現(xiàn)靈活的內(nèi)存映射和高效利用。其核心思想包括以下幾個(gè)關(guān)鍵方式：

固定大小的內(nèi)存塊：頁面注意力機(jī)制采用固定大小的小型內(nèi)存單元（稱為“頁”）來存儲(chǔ) KV 緩存，類似于操作系統(tǒng)中的分頁機(jī)制。
共享內(nèi)存塊：這些內(nèi)存頁可以在多個(gè)請(qǐng)求之間共享，提高資源利用率。
按需動(dòng)態(tài)分配：內(nèi)存塊根據(jù)生成過程動(dòng)態(tài)分配，無需預(yù)先估計(jì)最大序列長度，避免了不必要的內(nèi)存浪費(fèi)。

通過引入這種高效的內(nèi)存管理策略，頁面注意力機(jī)制顯著提升了推理時(shí)的內(nèi)存利用率和并發(fā)處理能力，是當(dāng)前大模型部署優(yōu)化的重要方向之一。

2.1 基于 Radix Tree 的 KV 緩存優(yōu)化

在計(jì)算機(jī)科學(xué)中，Radix Tree（也稱為緊湊前綴樹或壓縮 Trie 樹）是一種空間優(yōu)化的樹形數(shù)據(jù)結(jié)構(gòu)。它通過對(duì)具有相同前綴的節(jié)點(diǎn)進(jìn)行合并，減少了存儲(chǔ)開銷，從而提升了查找效率。

在大語言模型（LLM）推理中，基于 Radix Tree 的 KV 緩存技術(shù)被用于高效地重用多個(gè)推理請(qǐng)求之間的緩存數(shù)據(jù)，尤其適用于多個(gè)請(qǐng)求共享相同輸入前綴的場(chǎng)景。通過將 KV 緩存組織為 Radix Tree 結(jié)構(gòu)，系統(tǒng)可以快速檢索和復(fù)用已有的緩存內(nèi)容，并在不同請(qǐng)求之間實(shí)現(xiàn)靈活共享。

相比傳統(tǒng)的線性緩存管理方式，Radix Tree 在內(nèi)存利用和訪問效率上更具優(yōu)勢(shì)。其構(gòu)建成本約為 O(n log n)，而在注意力計(jì)算中的額外開銷相對(duì)較小，約為 O(n2) 量級(jí)，這對(duì)于提升多請(qǐng)求并發(fā)處理能力具有重要意義。

2.2 多種注意力機(jī)制下的 KV 管理策略

多頭注意力機(jī)制（Multi-Head Attention）是 Transformer 模型的核心組成部分，也是當(dāng)前大多數(shù) LLM 的核心架構(gòu)。每個(gè)注意力頭從不同的角度理解文本內(nèi)容：有的關(guān)注主語與動(dòng)詞的關(guān)系，有的聚焦詞匯本身，還有的分析句子結(jié)構(gòu)。這種多頭設(shè)計(jì)顯著增強(qiáng)了模型的理解能力。

然而，每個(gè)注意力頭都需要獨(dú)立維護(hù)一組 Key 和 Value 向量，導(dǎo)致 KV 緩存的內(nèi)存占用急劇上升。特別是在處理長文本或多任務(wù)并發(fā)時(shí)，這些向量會(huì)占用大量顯存資源，成為性能瓶頸。

為了緩解這一問題，研究者提出了多種優(yōu)化方案：

組查詢注意力（Grouped Query Attention, GQA）：允許部分注意力頭共享相同的 Key 和 Value 向量，從而減少整體緩存需求。
多查詢注意力（Multi-Query Attention, MQA）：僅使用一組 Key 和 Value 向量供所有查詢頭共享，是目前最節(jié)省內(nèi)存和計(jì)算時(shí)間的方法之一。

此外，像 DeepSeek 這類開源模型進(jìn)一步引入了 Flash Multi-Latent Attention（Flash MLA） 技術(shù)，在訓(xùn)練和推理階段實(shí)現(xiàn)了更高效的注意力計(jì)算。該方法通過低秩壓縮技術(shù)，將 Key 和 Value 向量向下投影到一個(gè)維度更低的潛在空間，從而大幅減小緩存體積。在實(shí)際計(jì)算注意力時(shí)再進(jìn)行向上投影。

圖片

更巧妙的是，該方法還將向上投影的權(quán)重矩陣與查詢矩陣進(jìn)行融合，從而加快注意力的計(jì)算速度，進(jìn)一步提升推理效率。

3. 推理優(yōu)化之 Query-sparsity attention

在 MIT 發(fā)表的論文《QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference》中，研究者指出：Transformer 層中普遍存在高度稀疏性。這意味著，在實(shí)際推理過程中，并非網(wǎng)絡(luò)中的所有神經(jīng)元都會(huì)被激活。

基于這一觀察，研究人員提出了一種高效的模型推理方法——利用這種稀疏性進(jìn)行剪枝，從而顯著減少計(jì)算開銷。其背后的邏輯非常直觀：并不是每個(gè) token 都對(duì)上下文理解有貢獻(xiàn)。

舉個(gè)簡(jiǎn)單的例子：

我們輸入提示詞：“A is B, C is D. A is”，期望模型輸出下一個(gè)詞：“B”。在這個(gè)任務(wù)中，模型只需要關(guān)注最相關(guān)的幾個(gè) token 即可完成預(yù)測(cè)，而其余部分則可以忽略。這表明，模型的注意力機(jī)制具有明顯的查詢依賴性，即“查詢感知稀疏性（Query-Aware Sparsity）”。

基于這一洞察，QUEST 提出了一種高效策略：在注意力計(jì)算中，只選擇與當(dāng)前查詢最相關(guān)的 KV 緩存塊進(jìn)行處理。具體來說，該方法會(huì)在所有數(shù)據(jù)塊中找出前 k 個(gè)最關(guān)鍵的數(shù)據(jù)塊來進(jìn)行后續(xù)計(jì)算。

圖片

以下是 QUEST 的核心流程：

塊級(jí)特征提取對(duì)于每一個(gè) KV 數(shù)據(jù)塊，QUEST 首先提取其最小和最大 Key 值以及通道極值。
查詢特征生成接著，根據(jù)當(dāng)前查詢向量，逐元素生成對(duì)應(yīng)的 max 和 min Key 值。
快速篩選機(jī)制通過上述技巧，系統(tǒng)能夠快速評(píng)估哪些 KV 塊與當(dāng)前查詢最為相關(guān)，從而避免大量無效計(jì)算。
Top-k 選擇最終，僅保留與查詢最相關(guān)的前 k 個(gè) KV 塊，用于后續(xù)注意力計(jì)算。

通過這一系列優(yōu)化，QUEST 顯著減少了注意力機(jī)制中的冗余計(jì)算，從而提升了長上下文場(chǎng)景下的推理效率。

當(dāng)然，一個(gè)關(guān)鍵問題是：如何選擇合適的 k 值？

k 是一個(gè)需要通過實(shí)驗(yàn)調(diào)優(yōu)的超參數(shù)。研究表明，當(dāng)設(shè)置 k = 4096 時(shí)，模型性能幾乎接近完整計(jì)算的水平（約 100%），同時(shí)又能帶來顯著的效率提升。因此，這是一個(gè)兼顧準(zhǔn)確率與效率的推薦值。

4. 推理優(yōu)化之推測(cè)性解碼

推測(cè)性解碼（Speculative Decoding）是加速大語言模型推理的重要技術(shù)之一。這一方法的重要性也得到了 Andrej Karpathy 的認(rèn)可，并在 2022 年由 Google 首次提出并應(yīng)用于實(shí)際系統(tǒng)中。

其核心思想非常直觀且巧妙：與其僅依賴一個(gè)龐大、準(zhǔn)確但緩慢的目標(biāo)模型逐 token 地生成結(jié)果，不如先使用一個(gè)輕量級(jí)、快速但相對(duì)不夠精準(zhǔn)的小模型（稱為“草稿模型”）來預(yù)測(cè)多個(gè)后續(xù) token。然后，再由大模型（即目標(biāo)模型）對(duì)這些預(yù)測(cè)進(jìn)行驗(yàn)證。

如果目標(biāo)模型認(rèn)同草稿模型的預(yù)測(cè)，則可以直接接受這些 token，從而大幅提升生成效率；如果不一致，則從分歧點(diǎn)開始重新生成。雖然這種機(jī)制存在一定的回退成本，但在多數(shù)情況下，草稿模型的預(yù)測(cè)是準(zhǔn)確的，因此整體上節(jié)省了大量計(jì)算資源。

草稿模型可以是一個(gè)小型神經(jīng)網(wǎng)絡(luò)模型，例如參數(shù)規(guī)模在 1B～3B 的模型，甚至也可以是基于統(tǒng)計(jì)的 N-gram 模型。而目標(biāo)模型則通常是擁有數(shù)十億甚至上萬億參數(shù)的大模型。

盡管使用兩個(gè)模型看似會(huì)增加內(nèi)存和計(jì)算開銷，但在實(shí)際應(yīng)用中，由于草稿模型的預(yù)測(cè)準(zhǔn)確率較高，尤其是對(duì)于常見詞匯（如“是的”、“這個(gè)”、“是”、“等等”）幾乎不會(huì)出錯(cuò)，因此能顯著提升推理速度。

更重要的是，所有由草稿模型生成的 token 可以被目標(biāo)模型一次性并行驗(yàn)證，而不是傳統(tǒng)的逐 token 自回歸生成方式。這種方式大幅減少了生成延遲，為長文本輸出帶來了實(shí)質(zhì)性的性能提升。

5. 推理優(yōu)化之資源調(diào)度

在大模型推理中，調(diào)度（scheduling） 是一項(xiàng)關(guān)鍵挑戰(zhàn)，其核心在于如何在有限的硬件資源（如 GPU、CPU 和硬盤）之間實(shí)現(xiàn)高效的負(fù)載平衡。一個(gè)優(yōu)秀的調(diào)度策略不僅能通過并行計(jì)算加速推理過程，還能讓擁有上百億參數(shù)的大模型（例如 100B 參數(shù)模型）在低配置設(shè)備（如搭載 T4 GPU 的 PC）上順利運(yùn)行。

要實(shí)現(xiàn)這一目標(biāo)，通常依賴于兩個(gè)關(guān)鍵技術(shù)要素：

智能地在 GPU、CPU 和硬盤之間加載和卸載模型權(quán)重
高效管理計(jì)算單元之間的數(shù)據(jù) I/O 傳輸

為了解決這兩個(gè)問題，來自斯坦福大學(xué)、加州大學(xué)伯克利分校和卡內(nèi)基梅隆大學(xué)的研究者提出了 FlexGen，這是一套具有代表性的系統(tǒng)級(jí)優(yōu)化方案，旨在提升大規(guī)模語言模型在受限硬件上的推理效率。

5.1 FlexGen 的核心機(jī)制

FlexGen 將每個(gè)需要處理的數(shù)據(jù)塊定義為“一批數(shù)據(jù)”，這些數(shù)據(jù)被依次加載到模型的不同層進(jìn)行計(jì)算。其中，列方向表示批處理維度，而行方向則對(duì)應(yīng)模型層數(shù)的順序處理。

為了保證執(zhí)行效率和資源約束，F(xiàn)lexGen 定義了一條“有效路徑”——即遍歷所有數(shù)據(jù)塊的最優(yōu)執(zhí)行路徑，必須滿足以下條件：

數(shù)據(jù)必須從左到右按順序執(zhí)行
同一批次的所有數(shù)據(jù)必須位于同一設(shè)備上
激活值必須按照正確的滑動(dòng)窗口進(jìn)行處理
KV 緩存需保留至當(dāng)前批次完成
在任意時(shí)刻，設(shè)備上存儲(chǔ)的張量總大小不能超過其內(nèi)存容量

假設(shè)我們有 N 個(gè) token，每個(gè) token 的數(shù)據(jù)將按照順序依次加載并計(jì)算。每層的權(quán)重僅在需要時(shí)加載，在計(jì)算完成后立即卸載。然而，這種頻繁的加載/卸載操作會(huì)帶來顯著的時(shí)間開銷——因?yàn)殡m然 GPU 的計(jì)算速度極快，但內(nèi)存?zhèn)鬏攨s相對(duì)緩慢。

5.2 FlexGen 的優(yōu)化策略

為了解決上述瓶頸，F(xiàn)lexGen 引入了靈活的執(zhí)行調(diào)度方式，例如通過調(diào)整掃描順序（從行到列、之字形塊調(diào)度等），從而避免不必要的 I/O 操作。它不僅能夠節(jié)省下一層模型權(quán)重的加載時(shí)間，還能提前保存下一批激活值。

在每個(gè)塊的執(zhí)行過程中，F(xiàn)lexGen 會(huì)重疊執(zhí)行以下三個(gè)步驟：

加載下一層的權(quán)重
存儲(chǔ)前一批的激活值 / KV 緩存
計(jì)算當(dāng)前批次的數(shù)據(jù)

這種流水線式處理大大緩解了內(nèi)存?zhèn)鬏攷淼男阅芟拗?，提升了整體推理吞吐能力。

除了執(zhí)行調(diào)度之外，另一個(gè)關(guān)鍵問題是：如何在不同的硬件設(shè)備上合理分配模型權(quán)重？

FlexGen 采用一種基于線性規(guī)劃的搜索策略，來尋找最優(yōu)的權(quán)重分布方案，目標(biāo)是最小化整個(gè)模型推理所需的時(shí)間。

圖片

這里:

N: 每個(gè)序列的輸出token數(shù)
??: transformer層數(shù)
block size: 在一個(gè)塊中處理多少個(gè)示例 (批次大小 × 批次數(shù))

實(shí)驗(yàn)數(shù)據(jù)顯示，F(xiàn)lexGen 在推理效率方面表現(xiàn)優(yōu)異推理速度可達(dá)到主流框架的數(shù)倍以上，成為當(dāng)前大模型部署中極具潛力的優(yōu)化方案。

6. 系統(tǒng)級(jí)優(yōu)化

當(dāng)前主流的 LLM 服務(wù)系統(tǒng)（如 vLLM、LLMDeploy 等）通常采用先來先服務(wù)（FCFS）的調(diào)度策略，并以“運(yùn)行至完成”的方式執(zhí)行任務(wù)。這種機(jī)制雖然實(shí)現(xiàn)簡(jiǎn)單，但在實(shí)際應(yīng)用中存在一個(gè)嚴(yán)重問題：線頭阻塞（Head-of-line Blocking）。

6.1 長作業(yè)阻塞問題與 LLM 推理服務(wù)的調(diào)度挑戰(zhàn)

當(dāng)一個(gè)長請(qǐng)求排在隊(duì)列前面時(shí)，它會(huì)阻塞后續(xù)的短請(qǐng)求，即使后者所需的計(jì)算資源和響應(yīng)時(shí)間遠(yuǎn)小于前者。結(jié)果是，短請(qǐng)求不得不等待長請(qǐng)求完成后才能開始處理，從而顯著增加了整體排隊(duì)延遲。研究表明，在真實(shí)工作負(fù)載中，排隊(duì)延遲可能占總延遲的高達(dá) 90%。

需要強(qiáng)調(diào)的是，這里所說的“短請(qǐng)求”和“長請(qǐng)求”，并不單純指輸入提示詞的長度，而是生成第一個(gè) token 所需的時(shí)間——即所謂的 First Token Latency（首 token 延遲）。

6.2 解決方案：搶占式調(diào)度與多優(yōu)先級(jí)隊(duì)列

為了解決這一問題，一種可行的方法是引入搶占式調(diào)度機(jī)制：當(dāng)中間出現(xiàn)一個(gè)高優(yōu)先級(jí)的短請(qǐng)求時(shí)，系統(tǒng)可以中斷當(dāng)前正在執(zhí)行的長請(qǐng)求，將已完成的部分結(jié)果緩存起來，保留未完成部分以便稍后繼續(xù)處理，然后切換去執(zhí)行短請(qǐng)求。

一旦短請(qǐng)求處理完畢，系統(tǒng)再回到之前被中斷的長請(qǐng)求，繼續(xù)執(zhí)行其剩余部分。要實(shí)現(xiàn)這樣的調(diào)度機(jī)制，系統(tǒng)必須支持多優(yōu)先級(jí)隊(duì)列的設(shè)計(jì)。

然而，這種方法本身也存在潛在缺陷：如果高級(jí)別隊(duì)列中堆積了大量長請(qǐng)求，它們可能會(huì)被頻繁中斷并反復(fù)進(jìn)入緩存狀態(tài)，導(dǎo)致：

緩存壓力增大
長請(qǐng)求的整體完成時(shí)間變長
系統(tǒng)調(diào)度開銷上升

6.3 FastServe 的優(yōu)化方案：多級(jí)反饋隊(duì)列 + 智能 KV 緩存管理

為了解決上述問題，FastServe 提出了一個(gè)多級(jí)反饋隊(duì)列（Multi-level Feedback Queue）機(jī)制。該機(jī)制的核心思想是：

在請(qǐng)求到達(dá)系統(tǒng)時(shí)，首先預(yù)估其生成第一個(gè) token 所需的時(shí)間，并根據(jù)這一估計(jì)值將請(qǐng)求路由到合適的優(yōu)先級(jí)隊(duì)列中。

這種方式確保了短請(qǐng)求不會(huì)被長請(qǐng)求長時(shí)間阻塞，從而提升了整體服務(wù)質(zhì)量與用戶體驗(yàn)。

此外，F(xiàn)astServe 還結(jié)合了高效的 KV 緩存管理機(jī)制，允許在 GPU 切換隊(duì)列之間進(jìn)行主動(dòng)的數(shù)據(jù)遷移和緩存預(yù)加載，進(jìn)一步降低了上下文切換帶來的延遲。

通過引入多級(jí)反饋隊(duì)列與智能調(diào)度策略，F(xiàn)astServe 成功緩解了傳統(tǒng) LLM 服務(wù)系統(tǒng)中的線頭阻塞問題，提升了短請(qǐng)求的響應(yīng)速度，同時(shí)又避免了長請(qǐng)求因頻繁中斷而導(dǎo)致的性能下降。這一方法為構(gòu)建高性能、低延遲的大模型推理服務(wù)平臺(tái)提供了重要參考。

7. 推理優(yōu)化的其他方法

在大語言模推理優(yōu)化領(lǐng)域，有一些方法已經(jīng)相對(duì)成熟，并被廣大工程師廣泛使用。這些技術(shù)涵蓋了從模型壓縮到推理加速的多個(gè)層面。

首先是量化技術(shù)，它通過降低模型權(quán)重和激活值的精度（例如從 FP16 降至 INT4 或 FP8），在幾乎不影響模型性能的前提下顯著縮小模型體積并提升推理速度。多種先進(jìn)的量化方案已陸續(xù)被提出：AWQ 利用激活驅(qū)動(dòng)的重要性評(píng)分實(shí)現(xiàn)激活感知量化，支持低位推理（如 INT3），無需再訓(xùn)練；LLM.int8() 引入帶校準(zhǔn)機(jī)制的 INT8 矩陣乘法，可在不損失準(zhǔn)確率的前提下運(yùn)行 Transformer 模型；SmoothQuant 則通過跨層對(duì)齊激活與權(quán)重范圍，提升后訓(xùn)練量化效果；ZeroQuant 及其后續(xù)版本 V2/FP 結(jié)合了低比特量化與低秩補(bǔ)償技術(shù)，支持 INT4 和 FP4 的高效推理；LLM-FP4 展示了 FP4 表示方式在保持模型質(zhì)量的同時(shí)大幅提升推理效率的能力；WINT8 是專為 MoE 架構(gòu)模型設(shè)計(jì)的 INT8 量化方案，已在生產(chǎn)環(huán)境中落地應(yīng)用；SpQR 將量化與稀疏性結(jié)合，實(shí)現(xiàn)了近似無損的 LLM 壓縮，適用于邊緣部署場(chǎng)景；FP8-LM 探索了 FP8 格式在 Transformer 模型中的訓(xùn)練與推理優(yōu)化，有效減少了內(nèi)存占用與計(jì)算開銷；而 NVIDIA 定義的 FP8 格式，也正在成為深度學(xué)習(xí)系統(tǒng)的重要標(biāo)準(zhǔn)之一。

另一個(gè)值得關(guān)注的方向是早期退出機(jī)制。以 LITE 為例，該方法讓模型中間層學(xué)會(huì)做出預(yù)測(cè)，并在置信度足夠高時(shí)提前終止生成流程，從而節(jié)省高達(dá) 38% 的推理失敗成本，尤其適用于實(shí)時(shí)性要求高的場(chǎng)景。

在注意力機(jī)制方面，Flash Attention 是一個(gè)里程碑式的優(yōu)化技術(shù)，它通過內(nèi)存分塊策略，在速度和內(nèi)存使用上都優(yōu)于傳統(tǒng)注意力實(shí)現(xiàn)；ROFormer 引入旋轉(zhuǎn)位置嵌入，增強(qiáng)了模型在長距離依賴建模上的能力；StreamLLM 則支持在流式輸入過程中動(dòng)態(tài)調(diào)整注意力窗口，提升了處理連續(xù)輸入的能力。

此外，非自回歸語言模型也在探索新的生成范式。例如 Diffusion-LM 首次將擴(kuò)散模型的思想引入文本生成任務(wù)，為可控文本生成提供了新思路。

當(dāng)然，所有這些技術(shù)最終都需要高效的工具鏈來落地。其中，vLLM 是目前最受歡迎的開源 LLM 推理庫之一，由加州大學(xué)伯克利分校團(tuán)隊(duì)開發(fā)，專注于提供高吞吐、低延遲的語言模型服務(wù)。它起源于 Page Attention 的思想，目前已集成上述提到的幾乎所有主流推理優(yōu)化技術(shù)，形成了完整的推理加速解決方案。vLLM 社區(qū)活躍、生態(tài)完善，已成為當(dāng)前 LLM 推理優(yōu)化領(lǐng)域最具影響力的技術(shù)平臺(tái)之一。

參考資料

https://arxiv.org/abs/2406.10774
https://arxiv.org/pdf/2211.17192
https://arxiv.org/pdf/2303.06865
https://arxiv.org/pdf/2305.05920
docs.vllm.ai
https://gist.github.com/TrungThanhTran

責(zé)任編輯：武曉燕來源：喔家ArchiSelf

大模型服務(wù)優(yōu)化

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<kbd id="mxjgx"><acronym id="mxjgx"></acronym></kbd>

<kbd id="mxjgx"><font id="mxjgx"></font></kbd>

<abbr id="mxjgx"><table id="mxjgx"><optgroup id="mxjgx"></optgroup></table></abbr>