無(wú)懼大規(guī)模數(shù)據(jù)挑戰(zhàn)!解讀生成式AI時(shí)代的數(shù)據(jù)存儲(chǔ)技術(shù)
原創(chuàng)進(jìn)入生成式AI時(shí)代,CPU、GPU、DPU等芯片的算力成為越來(lái)越多企業(yè)用戶關(guān)注的重點(diǎn)。的確,面對(duì)動(dòng)輒萬(wàn)億規(guī)模的參數(shù),需要更強(qiáng)大的算力才能滿足模型訓(xùn)練要求。不過(guò),存儲(chǔ)作為數(shù)據(jù)中心中的核心IT基礎(chǔ)設(shè)施,其性能表現(xiàn)也將對(duì)生成式AI帶來(lái)重要的影響。接下來(lái),筆者從生成式AI給存儲(chǔ)帶來(lái)的諸多挑戰(zhàn)談起,詳細(xì)介紹一下AI時(shí)代數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù)。

一、AI給數(shù)據(jù)存儲(chǔ)帶來(lái)的挑戰(zhàn)
筆者認(rèn)為,生成式AI主要給數(shù)據(jù)存儲(chǔ)帶來(lái)了性能、容量、能耗、價(jià)格等方面的挑戰(zhàn)。
一是存儲(chǔ)性能挑戰(zhàn)。在生成式AI模型的訓(xùn)練過(guò)程中,由于需要處理大量的數(shù)據(jù),不僅對(duì)CPU、GPU等性能提出了更高的要求,對(duì)存儲(chǔ)系統(tǒng)同樣也提出了更高的要求。因此,為了提高訓(xùn)練效率,將數(shù)據(jù)更高效地傳輸給CPU與GPU,不僅需要存儲(chǔ)本身具有更高的性能,而且還需要更寬的數(shù)據(jù)傳輸總線,以提高數(shù)據(jù)讀寫性能,降低延遲。
二是存儲(chǔ)容量挑戰(zhàn)。存儲(chǔ)龐大的數(shù)據(jù)量,對(duì)存儲(chǔ)的空間提出了更高的要求,這就需要企業(yè)部署更加靈活的存儲(chǔ)解決方案,持續(xù)滿足生成式AI對(duì)于數(shù)據(jù)存儲(chǔ)的需求。
三是能耗和空間挑戰(zhàn)。由于需要更高密度的存儲(chǔ)解決方案,因此生成式AI還將造成數(shù)據(jù)存儲(chǔ)功耗的提高,以及存儲(chǔ)空間的挑戰(zhàn),這將會(huì)給數(shù)據(jù)中心帶來(lái)整體運(yùn)營(yíng)成本的提高。
二、滿足AI需求的數(shù)據(jù)存儲(chǔ)技術(shù)
面對(duì)AI給數(shù)據(jù)存儲(chǔ)帶來(lái)的挑戰(zhàn),CXL、HBM、SSD等技術(shù)也在不斷演進(jìn),以更高的帶寬、更強(qiáng)的性能和更高的容量,滿足AI應(yīng)用下的數(shù)據(jù)存儲(chǔ)需求。
1)CXL(高速互連技術(shù))
CXL的全稱為Compute Express Link,是一種高速互連技術(shù),它以更高的帶寬解決了數(shù)據(jù)傳輸難題,為人工智能提供了更快、更靈活的數(shù)據(jù)傳輸解決方案。
一方面,CXL實(shí)現(xiàn)了設(shè)備到CPU之間的互聯(lián),實(shí)現(xiàn)了存儲(chǔ)計(jì)算分離。另一方面,CXL允許CPU以低延遲和高帶寬訪問(wèn)連接設(shè)備上更大的內(nèi)存池,從而擴(kuò)展內(nèi)存,以此來(lái)增加AI/ML應(yīng)用程序的內(nèi)存容量和性能。
與PCIe相比,CXL在帶寬方面有著更強(qiáng)的性能表現(xiàn)。其中,CXL2.0支持32GT/s的數(shù)據(jù)傳輸速率,CXL3.支持64GT/s的數(shù)據(jù)傳輸速率,這使得CXL能夠更有效地滿足處理大規(guī)模數(shù)據(jù)和高性能計(jì)算工作負(fù)載的需求。由于CXL能夠在PCIe 或CXL模式下運(yùn)行,利用CXL靈活的處理器端口可以在CIe5.0中實(shí)現(xiàn)32GT/s的數(shù)據(jù)速率,在PCIe6.0 中實(shí)現(xiàn)高達(dá) 64GT/s的數(shù)據(jù)速率,為人工智能應(yīng)用提供了更加靈活的功能。
除此之外,CXL允許不同設(shè)備之間共享內(nèi)存資源,能夠更好地提高內(nèi)存利用率,降低系統(tǒng)成本。另外,CXL支持多種設(shè)備之間的互連,包括CPU、GPU、FPGA和存儲(chǔ)設(shè)備等,這為構(gòu)建異構(gòu)計(jì)算環(huán)境提供了便利。
作為一個(gè)開放的行業(yè)標(biāo)準(zhǔn)組織,CXL旨在創(chuàng)建技術(shù)規(guī)范,促進(jìn)數(shù)據(jù)中心加速器和其他高速改進(jìn)的開放生態(tài)系統(tǒng)。目前 CXL 已經(jīng)發(fā)布了CXL 1.0、CXL 2.0和CXL 3.0三個(gè)版本。其中,最新的CXL 3.0版本基于PCIe 6.0開發(fā),支持比CXL 2.0更高的帶寬和更低的延遲,并增加了設(shè)備熱插拔、電源管理和錯(cuò)誤處理等新功能。
正是由于高帶寬、低延遲、內(nèi)存共享、靈活性、兼容性等方面的優(yōu)勢(shì),CXL為高性能計(jì)算領(lǐng)域帶來(lái)了更好的選擇,能夠很好地滿足生成式AI應(yīng)用中數(shù)據(jù)讀寫的帶寬要求。
2)HBM(高帶寬存儲(chǔ)器)
HBM,即High Bandwidth Memory,是一種具備高性能、高容量的存儲(chǔ)芯片,被廣泛應(yīng)用于高性能計(jì)算、數(shù)據(jù)中心等領(lǐng)域。
HBM最初并不是以存儲(chǔ)性能作為開發(fā)目的,而是以提高存儲(chǔ)容量為主。通過(guò)利用3D芯片堆疊技術(shù)將多個(gè)DRAM芯片堆疊在一起,從而提供更大的存儲(chǔ)容量。隨著技術(shù)的發(fā)展,AI對(duì)GPU性能和功能提出了更高的要求。在此背景之下,GPU的功能越來(lái)越強(qiáng),需要更加快速地從內(nèi)存中訪問(wèn)數(shù)據(jù),以此來(lái)縮短應(yīng)用處理的時(shí)間。特別是在生成式AI出現(xiàn)之后,大型語(yǔ)言模型 (LLM)需要重復(fù)訪問(wèn)數(shù)十億甚至數(shù)萬(wàn)億個(gè)參數(shù),如此龐大且頻繁地?cái)?shù)據(jù)處理,往往需要數(shù)小時(shí)甚至數(shù)天的時(shí)間,這顯然無(wú)法滿足要求。于是,傳輸速度也成了HBM的核心參數(shù)。
與DRAM相比,HBM不但擁有容量上的優(yōu)勢(shì),能夠同時(shí)存儲(chǔ)更多的數(shù)據(jù),而且擁有更高的帶寬,能夠大幅提升數(shù)據(jù)的讀寫速度。自2013年第一代HBM誕生以來(lái),隨著技術(shù)的不斷發(fā)展,HBM也經(jīng)歷了HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的順序迭代,最新的HBM3E是HBM3的擴(kuò)展版本,速率達(dá)到了8Gbps。
作為HBM(高帶寬存儲(chǔ)器)的擴(kuò)展版本,HBM3e采用了垂直互連多個(gè)DRAM芯片的設(shè)計(jì)。相較于傳統(tǒng)的DRAM產(chǎn)品,HBM3E在數(shù)據(jù)處理速度上顯著提高。根據(jù)SK海力士公布的數(shù)據(jù),HBM3E最高每秒可處理1.15TB的數(shù)據(jù),相當(dāng)于在一秒鐘內(nèi)即可處理230多部5GB大小的全高清電影。這種高性能的數(shù)據(jù)處理能力使得HBM3E成為人工智能內(nèi)存產(chǎn)品當(dāng)中的關(guān)鍵規(guī)格。
雖然同為HBM技術(shù),但芯片廠商的發(fā)展路徑卻不相同。三星正在研究在中間件中使用光子技術(shù),光子通過(guò)鏈路的速度比電子編碼的比特更快,而且耗電量更低。海力士正在研究 HBM與邏輯處理器直接連接的概念,在混合使用的半導(dǎo)體中將 GPU 芯片與 HBM 芯片一起制造。美光目前正在生產(chǎn) HBM3e gen-2內(nèi)存,采用8層垂直堆疊的24GB芯片。12層垂直堆疊36GB芯片計(jì)劃于2024年開始出樣。
至于誰(shuí)家的技術(shù)更先進(jìn),目前尚且無(wú)法判斷。不過(guò)可以確認(rèn),隨著HBM技術(shù)的不斷成熟,將會(huì)為人工智能帶來(lái)更強(qiáng)的算力支撐。
3)QLC(4bit存儲(chǔ)單元技術(shù))
QLC是一種四位存儲(chǔ)單元技術(shù),也就是說(shuō)每個(gè)存儲(chǔ)單元可以存儲(chǔ)4個(gè)比特的數(shù)據(jù)。
從最初的SLC、MLC,再到目前的TLC、QLC,閃存顆粒技術(shù)在不斷發(fā)展,存儲(chǔ)容量也在不斷提升。
目前,在3D NAND技術(shù)的突破之下,采用QLC技術(shù)的SSD容量大幅增長(zhǎng)。例如,Solidigm采用192層3D NAND的技術(shù)QLC SSD已經(jīng)達(dá)到61TB,SK海力士的192層QLC閃存不僅容量達(dá)到了61TB,而且讀取速度達(dá)到了7000MB/s,寫入速度也有3300MB/s。
雖然很多用戶對(duì)于QLC的性能和壽命提出了質(zhì)疑,但在筆者看來(lái),隨著數(shù)據(jù)量的爆炸式增加,對(duì)存儲(chǔ)容量的需求越來(lái)越高。而QLC作為存儲(chǔ)密度更高的技術(shù),顯然更為適合應(yīng)對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ)的需求,不但能夠存儲(chǔ)更多的數(shù)據(jù)量,而且還能夠有效地降低存儲(chǔ)的功耗和占地空間,為企業(yè)提供更好的TCO。最后,隨著技術(shù)的不斷發(fā)展,廠商也在通過(guò)新的算法來(lái)不斷提高QLC的壽命,使其適合更多的應(yīng)用場(chǎng)景。
因此,雖然QLC在性能和壽命方面不如TLC,但從目前的發(fā)展趨勢(shì)來(lái)看,QLC將會(huì)成為主流。
總結(jié):
生成式AI不僅對(duì)CPU、GPU等算力提出了更高的要求,也正在加速數(shù)據(jù)存儲(chǔ)技術(shù)的變革。不難發(fā)現(xiàn),除了閃存存儲(chǔ)技術(shù)在不斷突破之外,CPU與存儲(chǔ)、GPU與存儲(chǔ)之間的數(shù)據(jù)傳輸技術(shù)也得到了快速發(fā)展??梢哉f(shuō),隨著以閃存為代表的數(shù)據(jù)存儲(chǔ)技術(shù)在數(shù)據(jù)中心的落地,存儲(chǔ)已經(jīng)不再成為影響生成式AI應(yīng)用的主要瓶頸。















 
 
 












 
 
 
 