偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

聊聊大模型推理系統(tǒng)之 Arrow:自適應調(diào)度實現(xiàn)請求吞吐提升7.78倍背后的三大創(chuàng)新

人工智能
Arrow?的核心突破在于其“雙自適應”調(diào)度能力——既能動態(tài)調(diào)整請求的分發(fā)路徑,也能實時重配計算實例的角色。研究團隊發(fā)現(xiàn),現(xiàn)實中的 LLM 請求在輸入和輸出長度上存在巨大波動,導致傳統(tǒng)固定比例的 Prefill(填充)與 Decode(解碼)節(jié)點配置極易失衡。

在大模型(LLM)推理服務中,如何在輸入/輸出長度劇烈波動的現(xiàn)實場景下,依然保持高吞吐與低延遲?傳統(tǒng)靜態(tài)資源分配策略往往導致計算資源嚴重浪費。近期,來自中國科學技術大學、北航與京東的研究團隊提出了一項名為 Arrow 的自適應調(diào)度機制,通過無狀態(tài)實例與彈性實例池,實現(xiàn)了高達 7.78 倍 的請求服務速率提升。這項研究不僅解決了Prefill-Decode 拆分架構(gòu)(PD 拆分)的核心瓶頸,更為大模型服務系統(tǒng)的彈性化設計提供了新范式。

論文鏈接見文末論文鏈接見文末

核心看點

Arrow 的核心突破在于其“雙自適應”調(diào)度能力——既能動態(tài)調(diào)整請求的分發(fā)路徑,也能實時重配計算實例的角色。研究團隊發(fā)現(xiàn),現(xiàn)實中的 LLM 請求在輸入和輸出長度上存在巨大波動,導致傳統(tǒng)固定比例的 Prefill(填充)與 Decode(解碼)節(jié)點配置極易失衡。為此,Arrow 創(chuàng)新性地將計算實例設計為無狀態(tài)(stateless),使其可隨時在 Prefill 和 Decode 任務間切換,徹底消除了傳統(tǒng)“實例翻轉(zhuǎn)”帶來的分鐘級延遲。通過實時監(jiān)控Time-to-First-Token(TTFT,首字延遲)和Time-per-Output-Token(TPOT,字間延遲)等關鍵指標,Arrow 實現(xiàn)了 SLO(服務等級目標)感知的調(diào)度決策,在多種真實工作負載下,請求吞吐率最高提升了 5.62 倍(對比 PD 共置系統(tǒng))和 7.78 倍(對比 PD 拆分系統(tǒng))。

研究背景

當前,大模型推理服務普遍采用Transformer架構(gòu),其推理過程分為兩個階段:Prefill 階段負責處理用戶輸入并生成首個輸出 Token,計算復雜度與輸入長度的平方成正比;Decode 階段則以自回歸方式逐個生成后續(xù) Token,計算復雜度與批處理中的總 Token 數(shù)線性相關。為避免兩階段的相互干擾,學術界提出了Prefill-Decode 拆分架構(gòu),將兩種計算任務分配給專用的實例。然而,這種架構(gòu)引入了一個新問題:如何確定 Prefill 與 Decode 實例的最優(yōu)配比?

傳統(tǒng)方法依賴離線分析或仿真,但在輸入/輸出長度劇烈波動的真實場景中,靜態(tài)配比無法適應動態(tài)負載,導致資源利用率低下。DistServe、Splitwise 等系統(tǒng)雖能動態(tài)“翻轉(zhuǎn)”實例角色,但翻轉(zhuǎn)過程需重啟實例,耗時長達數(shù)分鐘,無法應對突發(fā)流量。因此,如何實現(xiàn)低延遲、高靈活性的實例資源動態(tài)調(diào)度,成為提升 LLM 服務系統(tǒng)整體吞吐(goodput)的關鍵挑戰(zhàn)。

圖片圖片

核心貢獻

圖片圖片

方法創(chuàng)新:無狀態(tài)實例與彈性實例池

Arrow 的首要創(chuàng)新是提出了無狀態(tài)實例(stateless instance)設計。在傳統(tǒng)系統(tǒng)中,一個實例被固化為 Prefill 或 Decode 角色。而在 Arrow 中,每個實例均可處理任意類型的任務。當一個請求的 Prefill 階段完成后,該請求及其KV Cache(鍵值緩存,存儲中間計算結(jié)果以避免重復計算)可被傳輸至任意其他實例進行 Decode。這使得實例的角色切換不再是“物理重啟”,而是“邏輯重分配”,實現(xiàn)了零等待時間的資源重配。

為了高效管理這些無狀態(tài)實例,Arrow 設計了彈性實例池(elastic instance pool),包含四個邏輯池:Prefill 池、Decode 池、P→D 池(正從 Prefill 轉(zhuǎn)向 Decode)和 D→P 池(正從 Decode 轉(zhuǎn)向 Prefill)。全局調(diào)度器通過移動實例在這些池間的歸屬,即可完成角色切換,整個過程無任何中斷。

理論突破:基于 SLO 的實時調(diào)度洞察

圖片圖片

Arrow 的調(diào)度決策并非基于間接的請求長度或利用率,而是直接與 SLO 掛鉤。研究團隊通過分析,得出了幾項關鍵洞察:

  1. TTFT 具有強可預測性:由于 Prefill 時間與輸入長度的平方成正比,系統(tǒng)可以精確預測新請求的 TTFT。Arrow 利用此特性,在請求進入隊列前就判斷其是否可能違反 SLO,從而提前觸發(fā)實例重配。
  2. TPOT 具有弱可預測性但非單調(diào):Decode 階段的延遲受多種因素影響,難以預測。但 TPOT 是所有字間延遲的平均值,具有“非單調(diào)性”,即短暫的延遲高峰不一定會導致 SLO 違規(guī)。因此,Arrow 采取“事后監(jiān)測”策略,當觀察到 TPOT 持續(xù)超標時,再調(diào)度更多實例加入 Decode。

實證成果:性能顯著超越現(xiàn)有系統(tǒng)

圖片圖片

研究團隊基于 vLLM 框架實現(xiàn)了 Arrow,并在 Llama-3.1-8B 模型上,使用 Azure Code、BurstGPT 等四種真實生產(chǎn)流量進行測試。在 90% SLO 達標率的約束下,Arrow 的性能表現(xiàn)如下:

圖片圖片

  • 在高度突發(fā)的 Azure Code 負載下,Arrow 的可持續(xù)請求速率達到50 req/s,是 vLLM(PD 共置)的5.62 倍,是 vLLM-disaggregated(PD 拆分)的7.78 倍
  • 在長上下文場景(Mooncake Conversation)下,Arrow 通過將空閑的 Prefill 實例快速調(diào)度至 Decode 任務,釋放了寶貴的內(nèi)存資源,請求速率提升了3.73 倍(對比 vLLM)。
  • 消融實驗表明,Arrow 的“SLO 感知”調(diào)度策略比僅采用“最小負載”策略的基線高出1.67 倍的請求速率,證明了其自適應機制的有效性。
  • 在擴展性測試中,隨著 GPU 數(shù)量從 2 個增加到 8 個,Arrow 的 SLO 達標率實現(xiàn)了近似線性增長,展現(xiàn)了強大的橫向擴展能力。

行業(yè)意義

Arrow 的研究成果為大模型即服務(LMaaS)領域指明了一條高效、彈性的技術路線。它解決了 PD 拆分架構(gòu)從“理論優(yōu)勢”到“實踐落地”的最后一公里問題,即動態(tài)資源調(diào)度的延遲與靈活性。其設計理念與云原生微服務的彈性思想高度契合,有望成為未來大模型推理平臺的標準組件。

該工作與我國推動算力基礎設施高效利用的政策導向相符,通過提升單 GPU 的請求處理能力,可顯著降低大模型服務的運營成本和能耗,助力實現(xiàn)“雙碳”目標。未來,Arrow 的架構(gòu)有望推動自動駕駛智能客服等對延遲敏感的產(chǎn)業(yè)級應用,實現(xiàn)更快速、更穩(wěn)定的 AI 交互體驗。這一創(chuàng)新,正在悄然推動大模型服務基礎設施的深層變革。

論文鏈接:Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture[1]

參考資料

[1] Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture: https://arxiv.org/abs/2505.11916

責任編輯:武曉燕 來源: 機智流
相關推薦

2025-09-26 07:49:10

2024-10-21 12:30:52

2025-05-28 02:40:00

AdaptThink推理模型AI

2024-11-02 10:28:03

2023-10-23 08:48:04

CSS寬度標題

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-11-01 20:25:28

2023-01-18 09:51:56

模型開源

2025-02-13 08:51:23

DeepSeek大模型

2024-09-27 10:31:22

2024-03-18 10:38:03

模型算法

2025-02-25 09:49:12

2025-06-09 09:32:35

2023-12-11 15:40:32

PyTorch代碼大模型

2024-07-08 13:04:01

2023-12-07 06:51:18

AI模型

2025-07-08 03:11:00

2023-12-14 13:30:00

AI模型

2010-08-24 16:03:22

Div高度
點贊
收藏

51CTO技術棧公眾號