偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型服務(wù)的推理優(yōu)化探索

原創(chuàng) 精選
人工智能
大模型的能力令人驚嘆,但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段:預(yù)填充和解碼。

開發(fā)并部署大模型應(yīng)用肯定要考慮它們的服務(wù)成本。然而,錢并不是唯一的考慮因素,如果不能解決模型性能方面的問題,即使有很大的預(yù)算,大模型服務(wù)仍會(huì)受到影響。本文嘗試討論將 LLM 推理服務(wù)更改為高吞吐量引擎的挑戰(zhàn)與應(yīng)對(duì)方法。

1. 大模型服務(wù)面臨的挑戰(zhàn)

大模型的能力令人驚嘆,但其獨(dú)特的工作特性卻給高性能服務(wù)部署帶來了挑戰(zhàn)。其處理過程主要分為兩個(gè)階段:預(yù)填充和解碼。在預(yù)填充階段,當(dāng)你輸入提示詞(包含上下文、對(duì)話歷史、問題等信息)時(shí),模型需要一次性處理所有輸入的 token。隨后進(jìn)入解碼階段,模型開始逐個(gè)生成輸出 token,且每個(gè)新 token 的生成都嚴(yán)格依賴于之前生成的 token??梢赃@樣類比:預(yù)填充就像為一盤象棋游戲精心布局(耗時(shí)較長),而解碼則類似于后續(xù)一步接一步的落子(單步較快)。然而,現(xiàn)實(shí)并非如此輕松——部署大型模型遠(yuǎn)非易事,必須仔細(xì)考量其帶來的延遲問題。

1.1 數(shù)據(jù)稀疏性問題

在神經(jīng)網(wǎng)絡(luò)中,尤其是前饋網(wǎng)絡(luò)(FFN),許多神經(jīng)元的激活值為零。這種稀疏性導(dǎo)致矩陣乘法中存在大量零元素,從而浪費(fèi)了計(jì)算資源。如果我們能夠跳過這些零值,僅對(duì)非零元素進(jìn)行計(jì)算,將顯著提升推理效率。

更重要的是,在深度學(xué)習(xí)系統(tǒng)中,數(shù)據(jù)在 CPU 和 GPU 之間傳輸所消耗的時(shí)間往往遠(yuǎn)高于實(shí)際計(jì)算時(shí)間。此外,隨著模型規(guī)模的增長,一些包含數(shù)萬億參數(shù)的超大規(guī)模模型根本無法容納在單個(gè) GPU 中,使得稀疏性優(yōu)化變得尤為關(guān)鍵。

1.2 請(qǐng)求調(diào)度問題

大模型通常需要同時(shí)處理多個(gè)用戶請(qǐng)求。在這種多任務(wù)場(chǎng)景下,短小快速的請(qǐng)求(例如查詢天氣、時(shí)間或簡(jiǎn)短答案)可能不得不排隊(duì)等待長時(shí)間請(qǐng)求完成。這導(dǎo)致整體平均響應(yīng)時(shí)間主要受制于等待時(shí)間,而非實(shí)際計(jì)算耗時(shí)。

即使你的模型計(jì)算速度非常快,也必須等待前面的請(qǐng)求執(zhí)行完畢才能開始處理下一個(gè)。因此,如何高效地調(diào)度和優(yōu)先處理不同類型請(qǐng)求,是提升服務(wù)吞吐量與用戶體驗(yàn)的關(guān)鍵挑戰(zhàn)。

1.3 順序解碼問題

當(dāng)前的語言模型生成機(jī)制限制了token之間的并行化能力。每個(gè)前向傳播只能生成一個(gè)新 token(或少量 token),這意味著長文本回復(fù)必須逐字逐句地生成。這也是為什么像 ChatGPT 這類模型在生成長文時(shí),通常采用“流式輸出”的方式呈現(xiàn)結(jié)果。

有趣的是,盡管流式輸出能帶來更即時(shí)的反饋體驗(yàn),但其本質(zhì)仍然是串行生成過程。因此,“先看到一部分”并不意味著更快完成整個(gè)生成任務(wù),反而揭示了當(dāng)前解碼機(jī)制在并行性上的瓶頸。

1.4 KV 緩存增長問題

注意力機(jī)制是 LLM 推理的核心環(huán)節(jié),尤其是在長序列中,計(jì)算所有 token 之間的相關(guān)性會(huì)帶來巨大的計(jì)算負(fù)擔(dān)。每當(dāng)模型生成一個(gè)新的 token,都需要重復(fù)計(jì)算之前所有 token 的注意力權(quán)重,造成大量冗余操作。

KV 緩存(Key-Value Cache)是一種有效的優(yōu)化策略,它通過緩存已生成 token 的中間狀態(tài),避免重復(fù)計(jì)算,從而加速推理過程。然而,隨著生成序列變長,KV 緩存占用的內(nèi)存也會(huì)持續(xù)增長,成為影響推理效率和部署成本的重要因素。

2. 推理優(yōu)化之KV Cache 管理

KV 緩存是 LLM 推理過程中占用內(nèi)存最多的部分之一。隨著上下文長度的增加,KV 緩存所需的存儲(chǔ)空間也隨之增長。例如,一個(gè)支持最大輸入長度為 2048 個(gè) token 的模型,需要預(yù)留 2048 個(gè)緩存插槽。如果用戶僅輸入了一個(gè)包含 7 個(gè) token 的提示詞,那么其余 2000 多個(gè)插槽雖然未被使用,卻依然被系統(tǒng)預(yù)留,造成內(nèi)部內(nèi)存碎片。

在每一步推理中,模型都會(huì)生成新的 KV 對(duì),并在后續(xù) attention 計(jì)算中使用,因此必須將它們緩存起來。KV 緩存通常以連續(xù)的內(nèi)存塊或“頁”形式進(jìn)行分配。然而,當(dāng)某個(gè)序列生成完成后,其占用的內(nèi)存頁被釋放,但這些頁可能并不連續(xù)。這就導(dǎo)致了外部內(nèi)存碎片:大量小塊空閑內(nèi)存分散在內(nèi)存中,無法滿足后續(xù)請(qǐng)求所需的連續(xù)內(nèi)存空間。

為了解決這一問題,研究者借鑒操作系統(tǒng)的內(nèi)存管理機(jī)制,提出了頁面注意力機(jī)制(PagedAttention)。該機(jī)制將 KV 緩存組織成邏輯內(nèi)存塊,并通過頁表進(jìn)行管理,從而實(shí)現(xiàn)靈活的內(nèi)存映射和高效利用。其核心思想包括以下幾個(gè)關(guān)鍵方式:

  • 固定大小的內(nèi)存塊:頁面注意力機(jī)制采用固定大小的小型內(nèi)存單元(稱為“頁”)來存儲(chǔ) KV 緩存,類似于操作系統(tǒng)中的分頁機(jī)制。
  • 共享內(nèi)存塊:這些內(nèi)存頁可以在多個(gè)請(qǐng)求之間共享,提高資源利用率。
  • 按需動(dòng)態(tài)分配:內(nèi)存塊根據(jù)生成過程動(dòng)態(tài)分配,無需預(yù)先估計(jì)最大序列長度,避免了不必要的內(nèi)存浪費(fèi)。

通過引入這種高效的內(nèi)存管理策略,頁面注意力機(jī)制顯著提升了推理時(shí)的內(nèi)存利用率和并發(fā)處理能力,是當(dāng)前大模型部署優(yōu)化的重要方向之一。

2.1 基于 Radix Tree 的 KV 緩存優(yōu)化

在計(jì)算機(jī)科學(xué)中,Radix Tree(也稱為緊湊前綴樹或壓縮 Trie 樹)是一種空間優(yōu)化的樹形數(shù)據(jù)結(jié)構(gòu)。它通過對(duì)具有相同前綴的節(jié)點(diǎn)進(jìn)行合并,減少了存儲(chǔ)開銷,從而提升了查找效率。

在大語言模型(LLM)推理中,基于 Radix Tree 的 KV 緩存技術(shù)被用于高效地重用多個(gè)推理請(qǐng)求之間的緩存數(shù)據(jù),尤其適用于多個(gè)請(qǐng)求共享相同輸入前綴的場(chǎng)景。通過將 KV 緩存組織為 Radix Tree 結(jié)構(gòu),系統(tǒng)可以快速檢索和復(fù)用已有的緩存內(nèi)容,并在不同請(qǐng)求之間實(shí)現(xiàn)靈活共享。

相比傳統(tǒng)的線性緩存管理方式,Radix Tree 在內(nèi)存利用和訪問效率上更具優(yōu)勢(shì)。其構(gòu)建成本約為 O(n log n),而在注意力計(jì)算中的額外開銷相對(duì)較小,約為 O(n2) 量級(jí),這對(duì)于提升多請(qǐng)求并發(fā)處理能力具有重要意義。

2.2 多種注意力機(jī)制下的 KV 管理策略

多頭注意力機(jī)制(Multi-Head Attention)是 Transformer 模型的核心組成部分,也是當(dāng)前大多數(shù) LLM 的核心架構(gòu)。每個(gè)注意力頭從不同的角度理解文本內(nèi)容:有的關(guān)注主語與動(dòng)詞的關(guān)系,有的聚焦詞匯本身,還有的分析句子結(jié)構(gòu)。這種多頭設(shè)計(jì)顯著增強(qiáng)了模型的理解能力。

然而,每個(gè)注意力頭都需要獨(dú)立維護(hù)一組 Key 和 Value 向量,導(dǎo)致 KV 緩存的內(nèi)存占用急劇上升。特別是在處理長文本或多任務(wù)并發(fā)時(shí),這些向量會(huì)占用大量顯存資源,成為性能瓶頸。

為了緩解這一問題,研究者提出了多種優(yōu)化方案:

  • 組查詢注意力(Grouped Query Attention, GQA):允許部分注意力頭共享相同的 Key 和 Value 向量,從而減少整體緩存需求。
  • 多查詢注意力(Multi-Query Attention, MQA):僅使用一組 Key 和 Value 向量供所有查詢頭共享,是目前最節(jié)省內(nèi)存和計(jì)算時(shí)間的方法之一。

此外,像 DeepSeek 這類開源模型進(jìn)一步引入了 Flash Multi-Latent Attention(Flash MLA) 技術(shù),在訓(xùn)練和推理階段實(shí)現(xiàn)了更高效的注意力計(jì)算。該方法通過低秩壓縮技術(shù),將 Key 和 Value 向量向下投影到一個(gè)維度更低的潛在空間,從而大幅減小緩存體積。在實(shí)際計(jì)算注意力時(shí)再進(jìn)行向上投影。

圖片圖片

更巧妙的是,該方法還將向上投影的權(quán)重矩陣與查詢矩陣進(jìn)行融合,從而加快注意力的計(jì)算速度,進(jìn)一步提升推理效率。

3. 推理優(yōu)化之 Query-sparsity attention

在 MIT 發(fā)表的論文《QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference》中,研究者指出:Transformer 層中普遍存在高度稀疏性。這意味著,在實(shí)際推理過程中,并非網(wǎng)絡(luò)中的所有神經(jīng)元都會(huì)被激活。

基于這一觀察,研究人員提出了一種高效的模型推理方法——利用這種稀疏性進(jìn)行剪枝,從而顯著減少計(jì)算開銷。其背后的邏輯非常直觀:并不是每個(gè) token 都對(duì)上下文理解有貢獻(xiàn)

舉個(gè)簡(jiǎn)單的例子:

我們輸入提示詞:“A is B, C is D. A is”,期望模型輸出下一個(gè)詞:“B”。在這個(gè)任務(wù)中,模型只需要關(guān)注最相關(guān)的幾個(gè) token 即可完成預(yù)測(cè),而其余部分則可以忽略。這表明,模型的注意力機(jī)制具有明顯的查詢依賴性,即“查詢感知稀疏性(Query-Aware Sparsity)”。

基于這一洞察,QUEST 提出了一種高效策略:在注意力計(jì)算中,只選擇與當(dāng)前查詢最相關(guān)的 KV 緩存塊進(jìn)行處理。具體來說,該方法會(huì)在所有數(shù)據(jù)塊中找出前 k 個(gè)最關(guān)鍵的數(shù)據(jù)塊來進(jìn)行后續(xù)計(jì)算。

圖片圖片

以下是 QUEST 的核心流程:

  • 塊級(jí)特征提取對(duì)于每一個(gè) KV 數(shù)據(jù)塊,QUEST 首先提取其最小和最大 Key 值以及通道極值。
  • 查詢特征生成接著,根據(jù)當(dāng)前查詢向量,逐元素生成對(duì)應(yīng)的 max 和 min Key 值。
  • 快速篩選機(jī)制通過上述技巧,系統(tǒng)能夠快速評(píng)估哪些 KV 塊與當(dāng)前查詢最為相關(guān),從而避免大量無效計(jì)算。
  • Top-k 選擇最終,僅保留與查詢最相關(guān)的前 k 個(gè) KV 塊,用于后續(xù)注意力計(jì)算。

通過這一系列優(yōu)化,QUEST 顯著減少了注意力機(jī)制中的冗余計(jì)算,從而提升了長上下文場(chǎng)景下的推理效率。

當(dāng)然,一個(gè)關(guān)鍵問題是:如何選擇合適的 k 值?

k 是一個(gè)需要通過實(shí)驗(yàn)調(diào)優(yōu)的超參數(shù)。研究表明,當(dāng)設(shè)置 k = 4096 時(shí),模型性能幾乎接近完整計(jì)算的水平(約 100%),同時(shí)又能帶來顯著的效率提升。因此,這是一個(gè)兼顧準(zhǔn)確率與效率的推薦值。

4. 推理優(yōu)化之推測(cè)性解碼

推測(cè)性解碼(Speculative Decoding) 是加速大語言模型推理的重要技術(shù)之一。這一方法的重要性也得到了 Andrej Karpathy 的認(rèn)可,并在 2022 年由 Google 首次提出并應(yīng)用于實(shí)際系統(tǒng)中。

其核心思想非常直觀且巧妙:與其僅依賴一個(gè)龐大、準(zhǔn)確但緩慢的目標(biāo)模型逐 token 地生成結(jié)果,不如先使用一個(gè)輕量級(jí)、快速但相對(duì)不夠精準(zhǔn)的小模型(稱為“草稿模型”)來預(yù)測(cè)多個(gè)后續(xù) token。然后,再由大模型(即目標(biāo)模型)對(duì)這些預(yù)測(cè)進(jìn)行驗(yàn)證。

如果目標(biāo)模型認(rèn)同草稿模型的預(yù)測(cè),則可以直接接受這些 token,從而大幅提升生成效率;如果不一致,則從分歧點(diǎn)開始重新生成。雖然這種機(jī)制存在一定的回退成本,但在多數(shù)情況下,草稿模型的預(yù)測(cè)是準(zhǔn)確的,因此整體上節(jié)省了大量計(jì)算資源。

草稿模型可以是一個(gè)小型神經(jīng)網(wǎng)絡(luò)模型,例如參數(shù)規(guī)模在 1B~3B 的模型,甚至也可以是基于統(tǒng)計(jì)的 N-gram 模型。而目標(biāo)模型則通常是擁有數(shù)十億甚至上萬億參數(shù)的大模型。

盡管使用兩個(gè)模型看似會(huì)增加內(nèi)存和計(jì)算開銷,但在實(shí)際應(yīng)用中,由于草稿模型的預(yù)測(cè)準(zhǔn)確率較高,尤其是對(duì)于常見詞匯(如“是的”、“這個(gè)”、“是”、“等等”)幾乎不會(huì)出錯(cuò),因此能顯著提升推理速度。

更重要的是,所有由草稿模型生成的 token 可以被目標(biāo)模型一次性并行驗(yàn)證,而不是傳統(tǒng)的逐 token 自回歸生成方式。這種方式大幅減少了生成延遲,為長文本輸出帶來了實(shí)質(zhì)性的性能提升。

5. 推理優(yōu)化之資源調(diào)度

在大模型推理中,調(diào)度(scheduling) 是一項(xiàng)關(guān)鍵挑戰(zhàn),其核心在于如何在有限的硬件資源(如 GPU、CPU 和硬盤)之間實(shí)現(xiàn)高效的負(fù)載平衡。一個(gè)優(yōu)秀的調(diào)度策略不僅能通過并行計(jì)算加速推理過程,還能讓擁有上百億參數(shù)的大模型(例如 100B 參數(shù)模型)在低配置設(shè)備(如搭載 T4 GPU 的 PC)上順利運(yùn)行。

要實(shí)現(xiàn)這一目標(biāo),通常依賴于兩個(gè)關(guān)鍵技術(shù)要素:

  • 智能地在 GPU、CPU 和硬盤之間加載和卸載模型權(quán)重
  • 高效管理計(jì)算單元之間的數(shù)據(jù) I/O 傳輸

為了解決這兩個(gè)問題,來自斯坦福大學(xué)、加州大學(xué)伯克利分校和卡內(nèi)基梅隆大學(xué)的研究者提出了 FlexGen,這是一套具有代表性的系統(tǒng)級(jí)優(yōu)化方案,旨在提升大規(guī)模語言模型在受限硬件上的推理效率。

5.1 FlexGen 的核心機(jī)制

FlexGen 將每個(gè)需要處理的數(shù)據(jù)塊定義為“一批數(shù)據(jù)”,這些數(shù)據(jù)被依次加載到模型的不同層進(jìn)行計(jì)算。其中,列方向表示批處理維度,而行方向則對(duì)應(yīng)模型層數(shù)的順序處理。

為了保證執(zhí)行效率和資源約束,F(xiàn)lexGen 定義了一條“有效路徑”——即遍歷所有數(shù)據(jù)塊的最優(yōu)執(zhí)行路徑,必須滿足以下條件:

  • 數(shù)據(jù)必須從左到右按順序執(zhí)行
  • 同一批次的所有數(shù)據(jù)必須位于同一設(shè)備上
  • 激活值必須按照正確的滑動(dòng)窗口進(jìn)行處理
  • KV 緩存需保留至當(dāng)前批次完成
  • 在任意時(shí)刻,設(shè)備上存儲(chǔ)的張量總大小不能超過其內(nèi)存容量

假設(shè)我們有 N 個(gè) token,每個(gè) token 的數(shù)據(jù)將按照順序依次加載并計(jì)算。每層的權(quán)重僅在需要時(shí)加載,在計(jì)算完成后立即卸載。然而,這種頻繁的加載/卸載操作會(huì)帶來顯著的時(shí)間開銷——因?yàn)殡m然 GPU 的計(jì)算速度極快,但內(nèi)存?zhèn)鬏攨s相對(duì)緩慢。

5.2 FlexGen 的優(yōu)化策略

為了解決上述瓶頸,F(xiàn)lexGen 引入了靈活的執(zhí)行調(diào)度方式,例如通過調(diào)整掃描順序(從行到列、之字形塊調(diào)度等),從而避免不必要的 I/O 操作。它不僅能夠節(jié)省下一層模型權(quán)重的加載時(shí)間,還能提前保存下一批激活值。

在每個(gè)塊的執(zhí)行過程中,F(xiàn)lexGen 會(huì)重疊執(zhí)行以下三個(gè)步驟:

  1. 加載下一層的權(quán)重
  2. 存儲(chǔ)前一批的激活值 / KV 緩存
  3. 計(jì)算當(dāng)前批次的數(shù)據(jù)

這種流水線式處理大大緩解了內(nèi)存?zhèn)鬏攷淼男阅芟拗?,提升了整體推理吞吐能力。

除了執(zhí)行調(diào)度之外,另一個(gè)關(guān)鍵問題是:如何在不同的硬件設(shè)備上合理分配模型權(quán)重?

FlexGen 采用一種基于線性規(guī)劃的搜索策略,來尋找最優(yōu)的權(quán)重分布方案,目標(biāo)是最小化整個(gè)模型推理所需的時(shí)間。

圖片圖片

這里:

  • N: 每個(gè)序列的輸出token數(shù)
  • ??: transformer層數(shù)
  • block size: 在一個(gè)塊中處理多少個(gè)示例 (批次大小 × 批次數(shù))

實(shí)驗(yàn)數(shù)據(jù)顯示,F(xiàn)lexGen 在推理效率方面表現(xiàn)優(yōu)異推理速度可達(dá)到主流框架的數(shù)倍以上,成為當(dāng)前大模型部署中極具潛力的優(yōu)化方案。

6. 系統(tǒng)級(jí)優(yōu)化

當(dāng)前主流的 LLM 服務(wù)系統(tǒng)(如 vLLM、LLMDeploy 等)通常采用先來先服務(wù)(FCFS)的調(diào)度策略,并以“運(yùn)行至完成”的方式執(zhí)行任務(wù)。這種機(jī)制雖然實(shí)現(xiàn)簡(jiǎn)單,但在實(shí)際應(yīng)用中存在一個(gè)嚴(yán)重問題:線頭阻塞(Head-of-line Blocking)。

6.1 長作業(yè)阻塞問題與 LLM 推理服務(wù)的調(diào)度挑戰(zhàn)

當(dāng)一個(gè)長請(qǐng)求排在隊(duì)列前面時(shí),它會(huì)阻塞后續(xù)的短請(qǐng)求,即使后者所需的計(jì)算資源和響應(yīng)時(shí)間遠(yuǎn)小于前者。結(jié)果是,短請(qǐng)求不得不等待長請(qǐng)求完成后才能開始處理,從而顯著增加了整體排隊(duì)延遲。研究表明,在真實(shí)工作負(fù)載中,排隊(duì)延遲可能占總延遲的高達(dá) 90%。

需要強(qiáng)調(diào)的是,這里所說的“短請(qǐng)求”和“長請(qǐng)求”,并不單純指輸入提示詞的長度,而是生成第一個(gè) token 所需的時(shí)間——即所謂的 First Token Latency(首 token 延遲)。

6.2 解決方案:搶占式調(diào)度與多優(yōu)先級(jí)隊(duì)列

為了解決這一問題,一種可行的方法是引入搶占式調(diào)度機(jī)制:當(dāng)中間出現(xiàn)一個(gè)高優(yōu)先級(jí)的短請(qǐng)求時(shí),系統(tǒng)可以中斷當(dāng)前正在執(zhí)行的長請(qǐng)求,將已完成的部分結(jié)果緩存起來,保留未完成部分以便稍后繼續(xù)處理,然后切換去執(zhí)行短請(qǐng)求。

一旦短請(qǐng)求處理完畢,系統(tǒng)再回到之前被中斷的長請(qǐng)求,繼續(xù)執(zhí)行其剩余部分。要實(shí)現(xiàn)這樣的調(diào)度機(jī)制,系統(tǒng)必須支持多優(yōu)先級(jí)隊(duì)列的設(shè)計(jì)。

然而,這種方法本身也存在潛在缺陷:如果高級(jí)別隊(duì)列中堆積了大量長請(qǐng)求,它們可能會(huì)被頻繁中斷并反復(fù)進(jìn)入緩存狀態(tài),導(dǎo)致:

  • 緩存壓力增大
  • 長請(qǐng)求的整體完成時(shí)間變長
  • 系統(tǒng)調(diào)度開銷上升

6.3 FastServe 的優(yōu)化方案:多級(jí)反饋隊(duì)列 + 智能 KV 緩存管理

為了解決上述問題,FastServe 提出了一個(gè)多級(jí)反饋隊(duì)列(Multi-level Feedback Queue)機(jī)制。該機(jī)制的核心思想是:

在請(qǐng)求到達(dá)系統(tǒng)時(shí),首先預(yù)估其生成第一個(gè) token 所需的時(shí)間,并根據(jù)這一估計(jì)值將請(qǐng)求路由到合適的優(yōu)先級(jí)隊(duì)列中。

這種方式確保了短請(qǐng)求不會(huì)被長請(qǐng)求長時(shí)間阻塞,從而提升了整體服務(wù)質(zhì)量與用戶體驗(yàn)。

此外,F(xiàn)astServe 還結(jié)合了高效的 KV 緩存管理機(jī)制,允許在 GPU 切換隊(duì)列之間進(jìn)行主動(dòng)的數(shù)據(jù)遷移和緩存預(yù)加載,進(jìn)一步降低了上下文切換帶來的延遲。

通過引入多級(jí)反饋隊(duì)列與智能調(diào)度策略,F(xiàn)astServe 成功緩解了傳統(tǒng) LLM 服務(wù)系統(tǒng)中的線頭阻塞問題,提升了短請(qǐng)求的響應(yīng)速度,同時(shí)又避免了長請(qǐng)求因頻繁中斷而導(dǎo)致的性能下降。這一方法為構(gòu)建高性能、低延遲的大模型推理服務(wù)平臺(tái)提供了重要參考。

7. 推理優(yōu)化的其他方法

在大語言模推理優(yōu)化領(lǐng)域,有一些方法已經(jīng)相對(duì)成熟,并被廣大工程師廣泛使用。這些技術(shù)涵蓋了從模型壓縮到推理加速的多個(gè)層面。

首先是量化技術(shù),它通過降低模型權(quán)重和激活值的精度(例如從 FP16 降至 INT4 或 FP8),在幾乎不影響模型性能的前提下顯著縮小模型體積并提升推理速度。多種先進(jìn)的量化方案已陸續(xù)被提出:AWQ 利用激活驅(qū)動(dòng)的重要性評(píng)分實(shí)現(xiàn)激活感知量化,支持低位推理(如 INT3),無需再訓(xùn)練;LLM.int8() 引入帶校準(zhǔn)機(jī)制的 INT8 矩陣乘法,可在不損失準(zhǔn)確率的前提下運(yùn)行 Transformer 模型;SmoothQuant 則通過跨層對(duì)齊激活與權(quán)重范圍,提升后訓(xùn)練量化效果;ZeroQuant 及其后續(xù)版本 V2/FP 結(jié)合了低比特量化與低秩補(bǔ)償技術(shù),支持 INT4 和 FP4 的高效推理;LLM-FP4 展示了 FP4 表示方式在保持模型質(zhì)量的同時(shí)大幅提升推理效率的能力;WINT8 是專為 MoE 架構(gòu)模型設(shè)計(jì)的 INT8 量化方案,已在生產(chǎn)環(huán)境中落地應(yīng)用;SpQR 將量化與稀疏性結(jié)合,實(shí)現(xiàn)了近似無損的 LLM 壓縮,適用于邊緣部署場(chǎng)景;FP8-LM 探索了 FP8 格式在 Transformer 模型中的訓(xùn)練與推理優(yōu)化,有效減少了內(nèi)存占用與計(jì)算開銷;而 NVIDIA 定義的 FP8 格式,也正在成為深度學(xué)習(xí)系統(tǒng)的重要標(biāo)準(zhǔn)之一。

另一個(gè)值得關(guān)注的方向是早期退出機(jī)制。以 LITE 為例,該方法讓模型中間層學(xué)會(huì)做出預(yù)測(cè),并在置信度足夠高時(shí)提前終止生成流程,從而節(jié)省高達(dá) 38% 的推理失敗成本,尤其適用于實(shí)時(shí)性要求高的場(chǎng)景。

在注意力機(jī)制方面,Flash Attention 是一個(gè)里程碑式的優(yōu)化技術(shù),它通過內(nèi)存分塊策略,在速度和內(nèi)存使用上都優(yōu)于傳統(tǒng)注意力實(shí)現(xiàn);ROFormer 引入旋轉(zhuǎn)位置嵌入,增強(qiáng)了模型在長距離依賴建模上的能力;StreamLLM 則支持在流式輸入過程中動(dòng)態(tài)調(diào)整注意力窗口,提升了處理連續(xù)輸入的能力。

此外,非自回歸語言模型也在探索新的生成范式。例如 Diffusion-LM 首次將擴(kuò)散模型的思想引入文本生成任務(wù),為可控文本生成提供了新思路。

當(dāng)然,所有這些技術(shù)最終都需要高效的工具鏈來落地。其中,vLLM 是目前最受歡迎的開源 LLM 推理庫之一,由加州大學(xué)伯克利分校團(tuán)隊(duì)開發(fā),專注于提供高吞吐、低延遲的語言模型服務(wù)。它起源于 Page Attention 的思想,目前已集成上述提到的幾乎所有主流推理優(yōu)化技術(shù),形成了完整的推理加速解決方案。vLLM 社區(qū)活躍、生態(tài)完善,已成為當(dāng)前 LLM 推理優(yōu)化領(lǐng)域最具影響力的技術(shù)平臺(tái)之一。

參考資料

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2024-10-21 16:41:17

2025-06-11 02:30:00

2024-12-23 16:02:39

2025-08-08 09:02:00

AI架構(gòu)模型

2022-12-09 09:52:47

AI深度學(xué)習(xí)

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-04-30 16:48:07

2024-01-02 07:15:59

大模型數(shù)據(jù)庫企業(yè)知識(shí)管家

2024-09-10 08:42:37

2024-05-06 07:58:25

大模型AI智慧芽

2024-02-26 08:15:43

語言模型低代碼

2023-10-11 12:32:53

AI模型

2023-03-08 18:43:50

GPU模型隔離

2023-05-05 13:29:04

模型推理

2024-07-08 12:18:13

2025-08-11 08:00:00

2025-07-31 01:47:00

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2015-03-04 16:19:29

大服務(wù)商業(yè)模式華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)