阿里云GPU用量削減82%的技術(shù)突破:Aegaeon計算池化方案深度解析
1192個GPU削減到213個,82%的用量削減——當(dāng)我看到阿里云Aegaeon系統(tǒng)在三個月測試中的這個數(shù)據(jù)時,第一反應(yīng)是這怎么可能?


要知道,這可是在服務(wù)數(shù)十個720億參數(shù)大模型的情況下實現(xiàn)的。按照現(xiàn)在H20 GPU的價格,這意味著硬件成本直接砍掉了80%以上。
更讓人意外的是,這套系統(tǒng)不僅沒有影響性能,反而在某些指標(biāo)上還有提升。單GPU能同時服務(wù)7個不同模型,吞吐量比現(xiàn)有方案提升1.5-9倍。
GPU資源浪費到底有多嚴(yán)重?
我特意去了解了一下現(xiàn)在AI模型服務(wù)的現(xiàn)狀,發(fā)現(xiàn)問題確實挺嚴(yán)重的。
在阿里云模型市場的真實數(shù)據(jù)中,有17.7%的GPU算力只用來處理1.35%的用戶請求。這就像是一個大型停車場,80%的車位都被長期閑置的車輛占著,而真正需要停車的人卻找不到位置。
造成這種浪費的根本原因是傳統(tǒng)的"一個模型綁定一個GPU"模式。每個AI模型都要獨占一張或多張GPU卡,不管用戶請求多少,GPU都得24小時待命。熱門模型像Qwen這種,一天到晚忙得不行;而那些長尾模型,可能一小時才來幾個請求,但GPU還是得老老實實等著。
這就好比每個員工都要配一個專屬辦公室,不管他一天工作8小時還是1小時,房租都得照付。
Aegaeon是怎么做到的?
阿里云的解決思路其實挺巧妙的:既然GPU閑著也是閑著,為什么不讓它同時服務(wù)多個模型?
但這里面有個技術(shù)難點:AI模型生成文本是一個token一個token往外蹦的,每生成一個詞,都需要基于前面所有內(nèi)容進(jìn)行計算。如果要在多個模型之間切換,就得保存和恢復(fù)大量的中間狀態(tài),這個開銷可能比收益還大。
Aegaeon的核心創(chuàng)新就是Token級調(diào)度。簡單說,就是每生成一個token后,系統(tǒng)會動態(tài)判斷:是繼續(xù)用當(dāng)前模型,還是切換到其他有請求等待的模型?
為了讓這種頻繁切換變得可行,他們做了幾個關(guān)鍵優(yōu)化:
? 組件復(fù)用 - 不同模型的相同組件可以共享,減少重復(fù)加載
? 顯存精細(xì)化管理 - 更智能的內(nèi)存分配和回收機(jī)制
? KV緩存同步優(yōu)化 - 加速模型狀態(tài)的保存和恢復(fù)
最終的效果是,模型切換開銷降低了97%,可以做到亞秒級響應(yīng)。用戶基本感覺不到延遲,但GPU的利用率卻大幅提升了。
這個技術(shù)有多重要?
說實話,我覺得這可能是今年AI基礎(chǔ)設(shè)施領(lǐng)域最重要的突破之一。
首先是成本層面?,F(xiàn)在訓(xùn)練和部署大模型的成本高得離譜,動不動就是幾千萬美元的GPU采購。如果能把硬件需求砍掉80%,那對整個行業(yè)的影響是巨大的。
更重要的是,這降低了AI服務(wù)的門檻。以前可能只有大廠才玩得起大模型服務(wù),現(xiàn)在中小公司也有機(jī)會用更少的資源提供更多樣化的AI服務(wù)。
而且這個技術(shù)已經(jīng)不是紙上談兵了。Aegaeon的論文被SOSP 2025接收,這是系統(tǒng)軟件領(lǐng)域的頂級會議。核心技術(shù)也已經(jīng)在阿里云百煉平臺上線運(yùn)行。
阿里云CEO吳泳銘在云棲大會上說:"大模型是下一代操作系統(tǒng),AI云是下一代計算機(jī)。"從這個角度看,Aegaeon更像是給這臺"下一代計算機(jī)"裝了一個更高效的資源調(diào)度器。
當(dāng)然,這個技術(shù)也不是萬能的。它主要解決的是多模型并發(fā)服務(wù)的場景,對于單一模型的大規(guī)模推理,效果可能沒那么明顯。而且Token級調(diào)度雖然開銷很小,但在極高并發(fā)的情況下,調(diào)度本身也可能成為瓶頸。
不過總的來說,我覺得這是一個很有價值的技術(shù)方向。隨著AI模型越來越多樣化,如何更高效地利用計算資源,肯定會成為一個越來越重要的問題。
阿里云這次算是給出了一個不錯的答案。82%的資源節(jié)省,聽起來確實挺震撼的。















 
 
 






 
 
 
 