偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<mark id="6gji4"></mark>

<ol id="6gji4"><var id="6gji4"></var></ol>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

聊聊大模型推理系統(tǒng)之 Arrow：自適應調(diào)度實現(xiàn)請求吞吐提升7.78倍背后的三大創(chuàng)新

作者：機智流科技 2025-08-29 01:15:00

Arrow?的核心突破在于其“雙自適應”調(diào)度能力——既能動態(tài)調(diào)整請求的分發(fā)路徑，也能實時重配計算實例的角色。研究團隊發(fā)現(xiàn)，現(xiàn)實中的 LLM 請求在輸入和輸出長度上存在巨大波動，導致傳統(tǒng)固定比例的 Prefill（填充）與 Decode（解碼）節(jié)點配置極易失衡。

在大模型（LLM）推理服務中，如何在輸入/輸出長度劇烈波動的現(xiàn)實場景下，依然保持高吞吐與低延遲？傳統(tǒng)靜態(tài)資源分配策略往往導致計算資源嚴重浪費。近期，來自中國科學技術大學、北航與京東的研究團隊提出了一項名為 Arrow 的自適應調(diào)度機制，通過無狀態(tài)實例與彈性實例池，實現(xiàn)了高達 7.78 倍的請求服務速率提升。這項研究不僅解決了Prefill-Decode 拆分架構(gòu)（PD 拆分）的核心瓶頸，更為大模型服務系統(tǒng)的彈性化設計提供了新范式。

論文鏈接見文末

核心看點

Arrow 的核心突破在于其“雙自適應”調(diào)度能力——既能動態(tài)調(diào)整請求的分發(fā)路徑，也能實時重配計算實例的角色。研究團隊發(fā)現(xiàn)，現(xiàn)實中的 LLM 請求在輸入和輸出長度上存在巨大波動，導致傳統(tǒng)固定比例的 Prefill（填充）與 Decode（解碼）節(jié)點配置極易失衡。為此，Arrow 創(chuàng)新性地將計算實例設計為無狀態(tài)（stateless），使其可隨時在 Prefill 和 Decode 任務間切換，徹底消除了傳統(tǒng)“實例翻轉(zhuǎn)”帶來的分鐘級延遲。通過實時監(jiān)控Time-to-First-Token（TTFT，首字延遲）和Time-per-Output-Token（TPOT，字間延遲）等關鍵指標，Arrow 實現(xiàn)了 SLO（服務等級目標）感知的調(diào)度決策，在多種真實工作負載下，請求吞吐率最高提升了 5.62 倍（對比 PD 共置系統(tǒng)）和 7.78 倍（對比 PD 拆分系統(tǒng)）。

研究背景

當前，大模型推理服務普遍采用Transformer架構(gòu)，其推理過程分為兩個階段：Prefill 階段負責處理用戶輸入并生成首個輸出 Token，計算復雜度與輸入長度的平方成正比；Decode 階段則以自回歸方式逐個生成后續(xù) Token，計算復雜度與批處理中的總 Token 數(shù)線性相關。為避免兩階段的相互干擾，學術界提出了Prefill-Decode 拆分架構(gòu)，將兩種計算任務分配給專用的實例。然而，這種架構(gòu)引入了一個新問題：如何確定 Prefill 與 Decode 實例的最優(yōu)配比？

傳統(tǒng)方法依賴離線分析或仿真，但在輸入/輸出長度劇烈波動的真實場景中，靜態(tài)配比無法適應動態(tài)負載，導致資源利用率低下。DistServe、Splitwise 等系統(tǒng)雖能動態(tài)“翻轉(zhuǎn)”實例角色，但翻轉(zhuǎn)過程需重啟實例，耗時長達數(shù)分鐘，無法應對突發(fā)流量。因此，如何實現(xiàn)低延遲、高靈活性的實例資源動態(tài)調(diào)度，成為提升 LLM 服務系統(tǒng)整體吞吐（goodput）的關鍵挑戰(zhàn)。

圖片

核心貢獻

圖片

方法創(chuàng)新：無狀態(tài)實例與彈性實例池

Arrow 的首要創(chuàng)新是提出了無狀態(tài)實例（stateless instance）設計。在傳統(tǒng)系統(tǒng)中，一個實例被固化為 Prefill 或 Decode 角色。而在 Arrow 中，每個實例均可處理任意類型的任務。當一個請求的 Prefill 階段完成后，該請求及其KV Cache（鍵值緩存，存儲中間計算結(jié)果以避免重復計算）可被傳輸至任意其他實例進行 Decode。這使得實例的角色切換不再是“物理重啟”，而是“邏輯重分配”，實現(xiàn)了零等待時間的資源重配。

為了高效管理這些無狀態(tài)實例，Arrow 設計了彈性實例池（elastic instance pool），包含四個邏輯池：Prefill 池、Decode 池、P→D 池（正從 Prefill 轉(zhuǎn)向 Decode）和 D→P 池（正從 Decode 轉(zhuǎn)向 Prefill）。全局調(diào)度器通過移動實例在這些池間的歸屬，即可完成角色切換，整個過程無任何中斷。

理論突破：基于 SLO 的實時調(diào)度洞察

圖片

Arrow 的調(diào)度決策并非基于間接的請求長度或利用率，而是直接與 SLO 掛鉤。研究團隊通過分析，得出了幾項關鍵洞察：

TTFT 具有強可預測性：由于 Prefill 時間與輸入長度的平方成正比，系統(tǒng)可以精確預測新請求的 TTFT。Arrow 利用此特性，在請求進入隊列前就判斷其是否可能違反 SLO，從而提前觸發(fā)實例重配。
TPOT 具有弱可預測性但非單調(diào)：Decode 階段的延遲受多種因素影響，難以預測。但 TPOT 是所有字間延遲的平均值，具有“非單調(diào)性”，即短暫的延遲高峰不一定會導致 SLO 違規(guī)。因此，Arrow 采取“事后監(jiān)測”策略，當觀察到 TPOT 持續(xù)超標時，再調(diào)度更多實例加入 Decode。

實證成果：性能顯著超越現(xiàn)有系統(tǒng)

圖片

研究團隊基于 vLLM 框架實現(xiàn)了 Arrow，并在 Llama-3.1-8B 模型上，使用 Azure Code、BurstGPT 等四種真實生產(chǎn)流量進行測試。在 90% SLO 達標率的約束下，Arrow 的性能表現(xiàn)如下：

圖片

在高度突發(fā)的 Azure Code 負載下，Arrow 的可持續(xù)請求速率達到50 req/s，是 vLLM（PD 共置）的5.62 倍，是 vLLM-disaggregated（PD 拆分）的7.78 倍。
在長上下文場景（Mooncake Conversation）下，Arrow 通過將空閑的 Prefill 實例快速調(diào)度至 Decode 任務，釋放了寶貴的內(nèi)存資源，請求速率提升了3.73 倍（對比 vLLM）。
消融實驗表明，Arrow 的“SLO 感知”調(diào)度策略比僅采用“最小負載”策略的基線高出1.67 倍的請求速率，證明了其自適應機制的有效性。
在擴展性測試中，隨著 GPU 數(shù)量從 2 個增加到 8 個，Arrow 的 SLO 達標率實現(xiàn)了近似線性增長，展現(xiàn)了強大的橫向擴展能力。

行業(yè)意義

Arrow 的研究成果為大模型即服務（LMaaS）領域指明了一條高效、彈性的技術路線。它解決了 PD 拆分架構(gòu)從“理論優(yōu)勢”到“實踐落地”的最后一公里問題，即動態(tài)資源調(diào)度的延遲與靈活性。其設計理念與云原生和微服務的彈性思想高度契合，有望成為未來大模型推理平臺的標準組件。

該工作與我國推動算力基礎設施高效利用的政策導向相符，通過提升單 GPU 的請求處理能力，可顯著降低大模型服務的運營成本和能耗，助力實現(xiàn)“雙碳”目標。未來，Arrow 的架構(gòu)有望推動自動駕駛、智能客服等對延遲敏感的產(chǎn)業(yè)級應用，實現(xiàn)更快速、更穩(wěn)定的 AI 交互體驗。這一創(chuàng)新，正在悄然推動大模型服務基礎設施的深層變革。

論文鏈接：Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture^[1]

參考資料

[1] Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture: https://arxiv.org/abs/2505.11916

責任編輯：武曉燕來源：機智流

大模型 Arrow 自適應

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營