HBM技術(shù)有何優(yōu)勢?詳解高帶寬存儲(chǔ)器
原創(chuàng)人工智能技術(shù)在驅(qū)動(dòng)企業(yè)創(chuàng)新發(fā)展的同時(shí),也對算力提出了更高的要求。尤其是隨著生成式AI的出現(xiàn),不但對CPU、GPU性能提出了更高的需求,也對存儲(chǔ)性能的要求越來越高。在高算力、高帶寬的需求下,如何解決存儲(chǔ)的性能瓶頸?為此,高帶寬存儲(chǔ)器(HBM)走進(jìn)了人們的視野。
近期,英偉達(dá)推出的新一代圖形處理器中,便搭載了HBM3e內(nèi)存,使得容量、帶寬和性能得到全面提升,在讓各個(gè)企業(yè)看到了高帶寬存儲(chǔ)器(HBM)的價(jià)值同時(shí),也使得三星、海力士、美光等存儲(chǔ)企業(yè)加大了對高帶寬存儲(chǔ)器(HBM)的投入。
什么是高帶寬存儲(chǔ)器(HBM)?
高帶寬存儲(chǔ)器,簡稱HBM,即High Bandwidth Memory,是一種具備高性能、高容量的存儲(chǔ)芯片,被廣泛應(yīng)用于高性能計(jì)算、數(shù)據(jù)中心等領(lǐng)域。
我們知道,DRAM(動(dòng)態(tài)隨機(jī)存儲(chǔ)器)由于具備較高的讀寫速度、隨機(jī)訪問等優(yōu)點(diǎn),被廣泛應(yīng)用于服務(wù)器和計(jì)算機(jī)的內(nèi)存條等。HBM與DRAM的區(qū)別在于,它采用了3D堆疊技術(shù),將多個(gè)DRAM芯片堆疊在一起,從而實(shí)現(xiàn)了更高容量,更大的存儲(chǔ)帶寬和更低的延遲。
自2013年第一代HBM誕生以來,隨著技術(shù)的不斷發(fā)展,HBM也經(jīng)歷了HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的順序迭代,最新的HBM3E是HBM3的擴(kuò)展版本,速率達(dá)到了8Gbps。
高帶寬存儲(chǔ)器(HBM)有哪些優(yōu)勢?
HBM最初并不是以存儲(chǔ)性能作為開發(fā)目的,而是以提高存儲(chǔ)容量為主。通過利用3D芯片堆疊技術(shù)將多個(gè)DRAM芯片堆疊在一起,從而提供更大的存儲(chǔ)容量。
隨著AI技術(shù)的發(fā)展,其對GPU性能和功能提出了更高的要求。在此背景之下,GPU的功能越來越強(qiáng),需要更加快速地從內(nèi)存中訪問數(shù)據(jù),以此來縮短應(yīng)用處理的時(shí)間。特別是在生成式AI出現(xiàn)之后,大型語言模型 (LLM)需要重復(fù)訪問數(shù)十億甚至數(shù)萬億個(gè)參數(shù),如此龐大且頻繁的數(shù)據(jù)處理,往往需要數(shù)小時(shí)甚至數(shù)天的時(shí)間,這顯然無法滿足要求。于是,傳輸速度也成了HBM的核心參數(shù)。
實(shí)際上,目前HBM大都采用了標(biāo)準(zhǔn)化設(shè)計(jì):HBM 存儲(chǔ)器堆棧通過微凸塊連接到 HBM 堆棧中的硅通孔(TSV 或連接孔),并與放置在基礎(chǔ)封裝層上的中間件相連,中間件上還安裝有處理器,提供 HBM 到處理器的連接。與此同時(shí),HBM通過控制芯片對多個(gè)DRAM芯片進(jìn)行控制,使它們能夠同時(shí)讀取或?qū)懭霐?shù)據(jù),從而提高了存儲(chǔ)帶寬和數(shù)據(jù)處理能力。
不難看出,這樣的設(shè)計(jì)與普通的DRAM相比,能夠同時(shí)垂直連接多個(gè)DRAM并顯著提升數(shù)據(jù)處理速度,這也是HBM具備更高存儲(chǔ)帶寬和更低延遲的關(guān)鍵所在。
可以說,與DRAM相比,HBM不但擁有容量上的優(yōu)勢,能夠同時(shí)存儲(chǔ)更多的數(shù)據(jù),而且擁有更高的帶寬,能夠大幅提升數(shù)據(jù)的讀寫速度。這也是英偉達(dá)在新一代圖形處理器中采用HBM的根本原因。
高帶寬存儲(chǔ)器(HBM)的最新技術(shù)趨勢
雖然HBM已經(jīng)演變到了第五代,甚至第六代HBM4技術(shù)也初露頭角,但時(shí)至今日,HBM3e(第五代)仍舊沒有完全應(yīng)用于產(chǎn)品當(dāng)中。
作為HBM(高帶寬存儲(chǔ)器)的擴(kuò)展版本,HBM3e采用了垂直互連多個(gè)DRAM芯片的設(shè)計(jì)。相較于傳統(tǒng)的DRAM產(chǎn)品,HBM3E在數(shù)據(jù)處理速度上顯著提高。根據(jù)SK海力士公布的數(shù)據(jù),HBM3E最高每秒可處理1.15TB的數(shù)據(jù),相當(dāng)于在一秒鐘內(nèi)即可處理230多部5GB大小的全高清電影。這種高性能的數(shù)據(jù)處理能力使得HBM3E成為人工智能內(nèi)存產(chǎn)品當(dāng)中的關(guān)鍵規(guī)格。
今年7月,美光提供了8hi(24GB)NVIDIA樣品、SK海力士也于今年8月中提供8hi(24GB)樣品,三星于今年10月初提供8hi(24GB)樣品。預(yù)期2024年第一季完成HBM3e產(chǎn)品驗(yàn)證。
從HBM1到HBM3e都保留了相同的1024位(每個(gè)堆棧)接口,即具有以相對適中的時(shí)鐘速度運(yùn)行的超寬接口,為了提高內(nèi)存?zhèn)鬏斔俾?,預(yù)計(jì)下一代HBM4可能需要對高帶寬內(nèi)存技術(shù)進(jìn)行更實(shí)質(zhì)性的改變,即從更寬的2048位內(nèi)存接口開始。
相關(guān)報(bào)道顯示,HBM4在DRAM堆疊方面,2048位內(nèi)存接口需要大幅增加內(nèi)存堆疊的硅通孔數(shù)量。同時(shí),外部芯片接口需要將凸塊間距縮小到遠(yuǎn)小于55微米,而HBM3目前的凸塊總數(shù)(約)為3982個(gè),因此需要大幅增加微型凸塊的總數(shù)。
除此之外,業(yè)界還將打算在一個(gè)模塊中堆疊多達(dá)16個(gè)內(nèi)存模塊,即所謂的16-Hi堆疊,這將使得內(nèi)存供應(yīng)商能夠顯著提高其HBM堆疊的容量。當(dāng)然,HBM4將面臨著更大的技術(shù)挑戰(zhàn),芯片的生產(chǎn)難度也將更大。
為此,臺(tái)積電就曾表示,由于HBM4不是將速度提高了一倍,而是將接口引腳增加了一倍。因此臺(tái)積電要與所有三家合作伙伴合作,確保三星、美光、海力士等的HBM4(采用臺(tái)積電的先進(jìn)封裝方法)符合標(biāo)準(zhǔn),并確保RDL或interposer或任何介于兩者之間的產(chǎn)品都能支持HBM4的布局和速度。
不同廠商的HBM技術(shù)發(fā)展路徑
雖然同為HBM技術(shù),但芯片廠商的發(fā)展路徑卻不相同。
三星正在研究在中間件中使用光子技術(shù),光子通過鏈路的速度比電子編碼的比特更快,而且耗電量更低。除此之外,三星還將HBM堆棧更直接地連接到處理器,這意味著隨著時(shí)間的推移,HBM 堆??梢陨?,以提供更大的容量,但這需要一個(gè)涵蓋該領(lǐng)域的行業(yè)標(biāo)準(zhǔn)才有可能實(shí)現(xiàn)。
海力士正在研究HBM與邏輯處理器直接連接的概念,在混合使用的半導(dǎo)體中將GPU芯片與 HBM芯片一起制造。這個(gè)想法涉及內(nèi)存和邏輯制造商共同設(shè)計(jì)芯片,然后由臺(tái)積電(TSMC)等晶圓廠運(yùn)營商制造。
美光目前正在生產(chǎn)HBM3e gen-2內(nèi)存,采用8層垂直堆疊的24GB芯片。12層垂直堆疊36GB芯片計(jì)劃于2024年開始出樣。此外,美光正與半導(dǎo)體代工運(yùn)營商臺(tái)積電合作,將其 gen-2 HBM3e 用于人工智能和 HPC 設(shè)計(jì)應(yīng)用。
至于誰家的技術(shù)更先進(jìn),目前尚且無法判斷。不過可以確定的是,隨著HBM技術(shù)的不斷成熟,將會(huì)為人工智能帶來更強(qiáng)的算力支撐。