偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

聊聊大模型推理系統(tǒng)之Hetis:如何讓“高低配”GPU集群跑出2.25倍吞吐?

人工智能
Hetis 的出現(xiàn),為異構(gòu)算力環(huán)境下的大模型部署提供了全新的技術(shù)范式。它標(biāo)志著 LLM 服務(wù)正從粗放式的資源堆砌,邁向精細(xì)化、動(dòng)態(tài)化的智能調(diào)度時(shí)代。這一思路與國家倡導(dǎo)的綠色計(jì)算和算力普惠政策高度契合,有助于盤活存量算力資產(chǎn),降低 AI 應(yīng)用門檻。

在大模型時(shí)代,算力需求如潮水般上漲。然而,現(xiàn)實(shí)中的生產(chǎn)集群往往并非清一色的頂級(jí)顯卡,而是由A100、3090甚至老舊的P100等不同性能和內(nèi)存配置的 GPU 混搭而成——這種異構(gòu) GPU 集群雖能降低成本,卻給大語言模型(LLM)服務(wù)帶來了巨大挑戰(zhàn):高配 GPU 空轉(zhuǎn)等待,低配 GPU 內(nèi)存耗盡,整體效率大打折扣。

面對(duì)這一行業(yè)痛點(diǎn),最新研究提出了一套顛覆性解決方案。來自澳門大學(xué)與中山大學(xué)的研究團(tuán)隊(duì)在 SC '25 上發(fā)表論文,推出了名為 Hetis 的新型 LLM 服務(wù)系統(tǒng)。該系統(tǒng)不僅將服務(wù)吞吐量最高提升了2.25 倍,還將推理延遲降低了1.49 倍,其背后究竟有何創(chuàng)新玄機(jī)?

核心看點(diǎn)

圖片圖片

Hetis 的核心突破在于徹底改變了傳統(tǒng) LLM 服務(wù)中“一刀切”的并行策略。它首次提出了細(xì)粒度動(dòng)態(tài)并行機(jī)制,精準(zhǔn)匹配異構(gòu)硬件資源與模型模塊特性。具體而言,Hetis 通過主工作節(jié)點(diǎn)并行化(Primary Worker Parallelism)優(yōu)化計(jì)算密集型模塊(如 MLP),僅在高性能 GPU 間進(jìn)行協(xié)作;同時(shí)引入動(dòng)態(tài)頭級(jí)注意力并行化(Dynamic Head-wise Attention Parallelism),將輕量級(jí)的Attention計(jì)算靈活分發(fā)至所有 GPU,包括低性能設(shè)備。在此基礎(chǔ)上,系統(tǒng)還設(shè)計(jì)了在線調(diào)度算法,實(shí)時(shí)平衡網(wǎng)絡(luò)、計(jì)算與內(nèi)存負(fù)載,從而實(shí)現(xiàn)了資源利用率的全局最優(yōu)化。

研究背景

當(dāng)前主流的 LLM 服務(wù)系統(tǒng)在異構(gòu)環(huán)境下面臨兩大核心瓶頸:內(nèi)存效率低下與計(jì)算資源錯(cuò)配。以 Splitwise 為代表的階段拆分方案,將預(yù)填充(Prefill)與解碼(Decode)任務(wù)分別交給高/低性能 GPU 執(zhí)行,雖緩解了計(jì)算壓力,卻導(dǎo)致 KV 緩存空間嚴(yán)重不足。而 Hexgen 等采用非對(duì)稱參數(shù)劃分的系統(tǒng),則因計(jì)算能力與內(nèi)存容量的不匹配,造成高端 GPU 內(nèi)存大量閑置。

圖片圖片

更深層的問題在于,現(xiàn)有方法普遍采用靜態(tài)并行策略,無法適應(yīng)請(qǐng)求長度、批次大小等動(dòng)態(tài)變化。例如,MLP 模塊在 A100 與 P100 上的運(yùn)算速度差距可達(dá) 24.5 倍,若強(qiáng)行統(tǒng)一并行,低效設(shè)備將成為拖累整體性能的“短板”。與此同時(shí),Attention 模塊因其無參數(shù)特性和較低的計(jì)算強(qiáng)度,在各類 GPU 上表現(xiàn)相對(duì)均衡,具備更高的并行靈活性。Hetis 正是抓住了這一關(guān)鍵差異,開啟了精細(xì)化調(diào)度的新思路。

核心貢獻(xiàn)

方法創(chuàng)新:模塊級(jí)差異化并行架構(gòu)

圖片圖片

Hetis 的核心是“按需分配”的并行哲學(xué)。對(duì)于計(jì)算密集的 MLP 和預(yù)填充階段的 Attention,系統(tǒng)通過一個(gè)層次化搜索過程,自動(dòng)篩選出最優(yōu)的主工作節(jié)點(diǎn)組合,并在此子集內(nèi)應(yīng)用數(shù)據(jù)、流水線與張量并行(DP/PP/TP),力求最小化通信開銷與計(jì)算延遲。那些未被選中的低端 GPU 則被劃為注意力工作節(jié)點(diǎn)(Attention Workers),專司 Attention 計(jì)算任務(wù)。

圖片圖片

針對(duì) Attention 模塊,Hetis 創(chuàng)新性地采用頭維度(head-wise)進(jìn)行分割。相比按請(qǐng)求或序列長度拆分,頭級(jí)并行能顯著減少跨設(shè)備通信量。實(shí)驗(yàn)表明,在僅卸載 20%負(fù)載時(shí),頭級(jí)分割的通信開銷比序列級(jí)分割降低近2.68 倍;當(dāng)使用 4 個(gè)注意力工作節(jié)點(diǎn)時(shí),延遲優(yōu)勢(shì)可達(dá)3.55 倍。

實(shí)證成果:吞吐與延遲雙重突破

在包含 A100、3090 和 P100 的真實(shí)異構(gòu)集群上,Hetis 展現(xiàn)了卓越性能。測(cè)試涵蓋Llama-13B、OPT-30B和Llama-70B等多種模型及真實(shí)工作負(fù)載(聊天、代碼生成、長文本摘要)。結(jié)果顯示:

圖片圖片

  • 吞吐量最高提升至基線系統(tǒng)的2.25 倍(對(duì)比 Splitwise)和1.33 倍(對(duì)比 Hexgen);
  • 推理延遲方面,P95 的TTFT(首令牌時(shí)間)和TPOT(每令牌處理時(shí)間)分別改善最多1.47 倍和1.39 倍;
  • KV 緩存空間利用率提升顯著,最大可用緩存空間比基線多出1.87 倍,有效支持更多并發(fā)請(qǐng)求。

這些數(shù)據(jù)充分驗(yàn)證了 Hetis 在復(fù)雜動(dòng)態(tài)環(huán)境下的魯棒性與高效性。

圖片圖片

在方法創(chuàng)新的基礎(chǔ)上,團(tuán)隊(duì)進(jìn)一步驗(yàn)證了系統(tǒng)的自適應(yīng)能力。Hetis 內(nèi)置的在線調(diào)度器(Dispatcher)基于對(duì)計(jì)算與通信成本的顯式建模,實(shí)時(shí)決策每個(gè)請(qǐng)求的注意力頭分配方案。當(dāng)遇到超長上下文導(dǎo)致負(fù)載不均時(shí),系統(tǒng)還能觸發(fā)重調(diào)度機(jī)制(Re-dispatching),動(dòng)態(tài)遷移部分計(jì)算任務(wù),避免單點(diǎn)瓶頸。

此外,為支撐頭級(jí)并行,Hetis 實(shí)現(xiàn)了頭粒度 KV 緩存管理,開發(fā)了新的 CUDA 內(nèi)核以高效索引與傳輸緩存塊。盡管存儲(chǔ)元數(shù)據(jù)開銷增加13% ,但得益于 CPU 多核加速,緩存獲取時(shí)間反而減少了26% ,實(shí)現(xiàn)了總體性能凈增益。

行業(yè)意義

Hetis 的出現(xiàn),為異構(gòu)算力環(huán)境下的大模型部署提供了全新的技術(shù)范式。它標(biāo)志著 LLM 服務(wù)正從粗放式的資源堆砌,邁向精細(xì)化、動(dòng)態(tài)化的智能調(diào)度時(shí)代。這一思路與國家倡導(dǎo)的綠色計(jì)算和算力普惠政策高度契合,有助于盤活存量算力資產(chǎn),降低 AI 應(yīng)用門檻。

未來,Hetis 所驗(yàn)證的模塊感知并行(Module-aware Parallelism)理念有望推動(dòng)整個(gè)分布式推理技術(shù)路線的演進(jìn)。無論是邊緣計(jì)算中的混合芯片,還是云平臺(tái)上的搶占式實(shí)例,此類動(dòng)態(tài)適配機(jī)制都將成為提升資源利用效率的關(guān)鍵??梢灶A(yù)見,隨著大模型應(yīng)用場(chǎng)景的不斷下沉,像 Hetis 這樣的智能調(diào)度系統(tǒng),將在構(gòu)建高效、可持續(xù)的 AI 基礎(chǔ)設(shè)施中扮演變革性角色。

論文原文:Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism[1]

參考資料

[1] Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism: https://arxiv.org/abs/2509.08309

責(zé)任編輯:武曉燕 來源: 機(jī)智流
相關(guān)推薦

2025-08-29 01:15:00

大模型Arrow自適應(yīng)

2023-12-11 15:40:32

PyTorch代碼大模型

2024-10-21 12:30:52

2023-06-27 13:49:00

GPU通信RLHF

2023-05-30 14:17:00

模型推理

2024-07-19 09:59:31

2025-10-28 08:50:00

AI模型訓(xùn)練

2024-11-02 10:28:03

2025-07-30 08:40:00

AI編程模型

2023-06-21 13:20:14

系統(tǒng)模型

2025-09-12 09:03:00

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2023-11-30 18:25:57

數(shù)據(jù)訓(xùn)練

2024-11-01 20:25:28

2024-12-27 13:59:33

數(shù)據(jù)訓(xùn)練模型

2023-06-21 13:44:57

模型AI

2023-11-19 23:36:50

2023-09-12 14:45:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)