偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里云GPU用量削減82%的技術(shù)突破:Aegaeon計算池化方案深度解析

人工智能
阿里云CEO吳泳銘在云棲大會上說:"大模型是下一代操作系統(tǒng),AI云是下一代計算機(jī)。"從這個角度看,Aegaeon更像是給這臺"下一代計算機(jī)"裝了一個更高效的資源調(diào)度器。

1192個GPU削減到213個,82%的用量削減——當(dāng)我看到阿里云Aegaeon系統(tǒng)在三個月測試中的這個數(shù)據(jù)時,第一反應(yīng)是這怎么可能?

圖片

圖片

要知道,這可是在服務(wù)數(shù)十個720億參數(shù)大模型的情況下實現(xiàn)的。按照現(xiàn)在H20 GPU的價格,這意味著硬件成本直接砍掉了80%以上。

更讓人意外的是,這套系統(tǒng)不僅沒有影響性能,反而在某些指標(biāo)上還有提升。單GPU能同時服務(wù)7個不同模型,吞吐量比現(xiàn)有方案提升1.5-9倍。

GPU資源浪費到底有多嚴(yán)重?

我特意去了解了一下現(xiàn)在AI模型服務(wù)的現(xiàn)狀,發(fā)現(xiàn)問題確實挺嚴(yán)重的。

在阿里云模型市場的真實數(shù)據(jù)中,有17.7%的GPU算力只用來處理1.35%的用戶請求。這就像是一個大型停車場,80%的車位都被長期閑置的車輛占著,而真正需要停車的人卻找不到位置。

造成這種浪費的根本原因是傳統(tǒng)的"一個模型綁定一個GPU"模式。每個AI模型都要獨占一張或多張GPU卡,不管用戶請求多少,GPU都得24小時待命。熱門模型像Qwen這種,一天到晚忙得不行;而那些長尾模型,可能一小時才來幾個請求,但GPU還是得老老實實等著。

這就好比每個員工都要配一個專屬辦公室,不管他一天工作8小時還是1小時,房租都得照付。

Aegaeon是怎么做到的?

阿里云的解決思路其實挺巧妙的:既然GPU閑著也是閑著,為什么不讓它同時服務(wù)多個模型?

但這里面有個技術(shù)難點:AI模型生成文本是一個token一個token往外蹦的,每生成一個詞,都需要基于前面所有內(nèi)容進(jìn)行計算。如果要在多個模型之間切換,就得保存和恢復(fù)大量的中間狀態(tài),這個開銷可能比收益還大。

Aegaeon的核心創(chuàng)新就是Token級調(diào)度。簡單說,就是每生成一個token后,系統(tǒng)會動態(tài)判斷:是繼續(xù)用當(dāng)前模型,還是切換到其他有請求等待的模型?

為了讓這種頻繁切換變得可行,他們做了幾個關(guān)鍵優(yōu)化:

組件復(fù)用 - 不同模型的相同組件可以共享,減少重復(fù)加載

顯存精細(xì)化管理 - 更智能的內(nèi)存分配和回收機(jī)制

KV緩存同步優(yōu)化 - 加速模型狀態(tài)的保存和恢復(fù)

最終的效果是,模型切換開銷降低了97%,可以做到亞秒級響應(yīng)。用戶基本感覺不到延遲,但GPU的利用率卻大幅提升了。

這個技術(shù)有多重要?

說實話,我覺得這可能是今年AI基礎(chǔ)設(shè)施領(lǐng)域最重要的突破之一。

首先是成本層面?,F(xiàn)在訓(xùn)練和部署大模型的成本高得離譜,動不動就是幾千萬美元的GPU采購。如果能把硬件需求砍掉80%,那對整個行業(yè)的影響是巨大的。

更重要的是,這降低了AI服務(wù)的門檻。以前可能只有大廠才玩得起大模型服務(wù),現(xiàn)在中小公司也有機(jī)會用更少的資源提供更多樣化的AI服務(wù)。

而且這個技術(shù)已經(jīng)不是紙上談兵了。Aegaeon的論文被SOSP 2025接收,這是系統(tǒng)軟件領(lǐng)域的頂級會議。核心技術(shù)也已經(jīng)在阿里云百煉平臺上線運(yùn)行。

阿里云CEO吳泳銘在云棲大會上說:"大模型是下一代操作系統(tǒng),AI云是下一代計算機(jī)。"從這個角度看,Aegaeon更像是給這臺"下一代計算機(jī)"裝了一個更高效的資源調(diào)度器。

當(dāng)然,這個技術(shù)也不是萬能的。它主要解決的是多模型并發(fā)服務(wù)的場景,對于單一模型的大規(guī)模推理,效果可能沒那么明顯。而且Token級調(diào)度雖然開銷很小,但在極高并發(fā)的情況下,調(diào)度本身也可能成為瓶頸。

不過總的來說,我覺得這是一個很有價值的技術(shù)方向。隨著AI模型越來越多樣化,如何更高效地利用計算資源,肯定會成為一個越來越重要的問題。

阿里云這次算是給出了一個不錯的答案。82%的資源節(jié)省,聽起來確實挺震撼的。

責(zé)任編輯:武曉燕 來源: 阿丸筆記
相關(guān)推薦

2012-11-20 10:23:47

云計算效用計算網(wǎng)格計算

2015-07-22 18:05:31

阿里云GPU高性能計算

2021-04-12 10:07:06

云計算邊緣云阿里云

2009-11-25 13:43:02

CDN內(nèi)容分布網(wǎng)絡(luò)

2018-11-27 16:11:01

阿里云Redis數(shù)據(jù)庫

2013-06-19 09:56:39

2012-06-25 17:00:44

2021-04-01 13:53:26

深度學(xué)習(xí)大數(shù)據(jù)人工智能

2012-09-05 10:17:11

云計算技術(shù)驅(qū)動

2010-03-17 14:33:44

云計算

2018-10-09 15:59:42

數(shù)據(jù)庫SQL SeverAlwaysOn

2017-09-30 10:17:24

云計算PaaS容器云

2016-07-28 22:57:33

云計算Google

2012-08-27 10:56:41

2010-04-23 11:03:01

云計算IT

2014-11-11 19:46:13

雙十一云計算

2018-06-25 13:26:17

云計算混亂云平臺

2009-01-07 18:00:24

服務(wù)器IBM云計算

2024-09-19 08:49:13

2022-12-26 14:39:10

云計算云支出
點贊
收藏

51CTO技術(shù)棧公眾號