偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

體系結(jié)構(gòu)頂會ISCA'25放榜:中國作者斬獲最佳論文,拿下25%錄用!附超全總結(jié)

人工智能 新聞
香港科技大學謝源教授領(lǐng)導的「賽馬會未來先進計算技術(shù)創(chuàng)科實驗室」對剛剛召開的ISCA會議進行了全面總結(jié),涵蓋歷史發(fā)展和技術(shù)細節(jié),總結(jié)出了體系結(jié)構(gòu)領(lǐng)域有潛力的研究方向!

ISCA(The International Symposium on Computer Architecture)是計算機體系結(jié)構(gòu)領(lǐng)域的頂級會議。第52屆ISCA于2025年6月21日至25日在日本東京早稻田大學舉行。

今年的ISCA共收到了570篇論文投稿,最終錄取132篇,錄用率為23%。錄取文章涵蓋微架構(gòu)設(shè)計、機器學習、領(lǐng)域定制加速器、量子計算、存算一體等眾多話題。

香港科技大學賽馬會未來先進計算技術(shù)創(chuàng)科實驗室(JC STEM Lab of Future Advanced Computing Technology)匯總了2016年以來ISCA上各個話題文章的論文占比。

圖片

通用微架構(gòu)相關(guān)的ISCA文章數(shù)量占比

圖片

加速器相關(guān)的ISCA文章數(shù)量占比

圖片

存儲器與存算一體相關(guān)的文章數(shù)量占比

圖片

量子計算相關(guān)的文章數(shù)量占比

傳統(tǒng)的通用CPU/GPU微架構(gòu)、Cache及架構(gòu)建模仿真的相關(guān)研究依然占據(jù)較高比重,但其占比自2016年以來趨于平穩(wěn)并略有下滑。

與之形成鮮明對比的是,加速器(Accelerator)和機器學習(ML/AI)相關(guān)研究持續(xù)攀升,成為增長最快的領(lǐng)域,稀疏計算、數(shù)據(jù)流與可重構(gòu)加速器、量化等軟硬件協(xié)同優(yōu)化技術(shù)是其中最具代表性的子領(lǐng)域。ISCA 2025中加速器的論文占比超過50%,機器學習相關(guān)文章占比超40%??v向?qū)Ρ蕊@示,過去十年間機器學習在ISCA的占比穩(wěn)定維持在20%-30%區(qū)間。

其中,大模型毫無疑問是當下最熱門的應用方向,面向大模型的架構(gòu)與軟硬件協(xié)同優(yōu)化文章數(shù)量增長迅猛,ISCA 2025超過20%的文章關(guān)注大模型加速。除了AI算法外,圖形渲染、隱私安全與數(shù)據(jù)加密等同樣是ISCA近年來關(guān)注的熱門應用方向。

此外,存算一體和量子計算兩個領(lǐng)域的文章數(shù)量在近年來保持較為平穩(wěn)的增長趨勢。

值得一提的是,基于非易失器件的存算一體文章數(shù)量在近幾年呈下降趨勢,而內(nèi)存級Near-Memory-Computing和外存級In-Storage-Processing的文章占比相對提升,Hybrid Bonding等先進封裝技術(shù)的出現(xiàn)推動越來越多的研究者探索基于3D IC的存算一體架構(gòu)設(shè)計。

本文作者為朱振華,徐策羽,王邦彥,劉時宜,楊朝輝,范心,余江南,王鴻懿,宋如意,劉奇,夏一然(以上排名不分先后)。

東亞第三次

見證中國體系結(jié)構(gòu)研究影響力崛起

ISCA自1973年創(chuàng)辦以來僅有三次在東亞地區(qū)舉辦,分別為2008年北京、2016年首爾,以及2025年東京。從地域分布來看,每一次在東亞地區(qū)舉辦的ISCA會議都極大提升了該地區(qū)學界與工業(yè)界的參與度,也成為觀察本地區(qū)研究力量崛起的歷史節(jié)點。

在2008年北京舉辦的ISCA上,僅有一篇國內(nèi)單位的論文入選:來自復旦大學的「From Speculation to Security: Practical and Efficient Information Flow Tracking Using Speculative Hardware」。

該工作針對動態(tài)信息流追蹤(Dynamic Information Flow Tracking, 又稱 Taint Tracking)在缺乏硬件支持下效率低下的問題,首次提出利用處理器推測執(zhí)行中的延遲異常機制來模擬taint狀態(tài),構(gòu)建出一套無需專用硬件支持、低開銷、適配靈活的追蹤框架,該文章代表了國內(nèi)團隊在體系結(jié)構(gòu)(硬件安全)領(lǐng)域的早期探索。

論文第一作者陳海波,彼時在復旦大學攻讀博士學位。如今他已是上海交通大學特聘教授、國家杰出青年基金獲得者、IEEE Fellow,成為分布式系統(tǒng)與可信計算領(lǐng)域的全球權(quán)威學者。其成長軌跡恰是中國系統(tǒng)架構(gòu)人才從本土培養(yǎng)到國際引領(lǐng)的縮影。

2016年首爾舉辦的ISCA會議,中國團隊共有兩篇論文被接收。其中,來自中國科學院計算技術(shù)研究所的「Cambricon: An Instruction Set Architecture for Neural Networks」率先提出了面向神經(jīng)網(wǎng)絡(luò)的指令集架構(gòu),打破了早期AI加速器對「特定模型+硬編碼控制」的依賴,被廣泛視為后續(xù)AI加速器設(shè)計潮流的重要奠基之作。

另一篇「Power Attack Defense: Securing Battery-Backed Data Centers」來自上海交通大學,關(guān)注于電池供電數(shù)據(jù)中心的安全性問題,體現(xiàn)了中國高校在系統(tǒng)安全與數(shù)據(jù)中心可靠性領(lǐng)域的深入探索與貢獻。

到了2025年東京舉辦的ISCA,中國團隊的參與度實現(xiàn)飛躍:在全部132篇錄用論文中,有34篇來自國內(nèi)團隊,論文內(nèi)容涵蓋微架構(gòu)優(yōu)化、AI加速器、存儲系統(tǒng)、量子計算等多個熱點方向。這不僅是投稿數(shù)量上的增長,更意味著在體系結(jié)構(gòu)各核心議題上,中國團隊正在從「跟跑」邁向「并跑」甚至「領(lǐng)跑」。

值得一提的是,來自北京大學孫廣宇教授團隊、上海交通大學張宸教授團隊、香港科技大學謝源教授團隊、東南大學司鑫教授團隊及阿里巴巴達摩院的合作研究成果「H2-LLM: Hardware-Dataflow Co-Exploration for Heterogeneous Hybrid-Bonding-based Low-Batch LLM Inference」獲會議最佳論文獎,這也是ISCA 52年歷史上首篇來自中國團隊的ISCA會議最佳論文,至此,國內(nèi)團隊集齊計算機架構(gòu)領(lǐng)域四大(ISCA, MICRO, HPCA, ASPLOS)最佳論文。

從2008年的孤篇論文,到2025年高占比、多方向、出佳作,三次在東亞召開的會議見證了中國體系結(jié)構(gòu)研究在全球舞臺上的成長軌跡,也反映出國內(nèi)在計算架構(gòu)領(lǐng)域「從可見到可為」的歷史躍遷。

上述趨勢同樣可以從ISCA名人堂(Hall of Fame)https://pages.cs.wisc.edu/~arch/www/iscabibhall.html的入選名錄里加以印證。ISCA名人堂收錄了在ISCA會議上累積發(fā)表文章不少于8篇的研究者,由體系結(jié)構(gòu)領(lǐng)域著名學者威斯康辛大學的Mark D. Hill和Gurindar S. Sohi于1995年創(chuàng)建,旨在表彰在ISCA會議上做出重要貢獻的杰出研究者。

該榜單目前更新至ISCA 2024。在ISCA名人堂創(chuàng)立后的相當長時間里,上榜的華人學者數(shù)量稀少,僅有UIUC胡文美教授,香港科技大學謝源教授等為數(shù)不多的幾位華人學者入選,而在中國大陸(含香港、澳門、臺灣)本土工作的學者幾乎無人入選,反映出早期國內(nèi)在體系結(jié)構(gòu)頂會上的論文產(chǎn)出相對有限。

然而近10年來情況開始改觀,中國研究團隊在ISCA上實現(xiàn)了一系列突破,在2023年清華大學魏少軍教授和劉雷波教授成為首批入選名人堂的大陸學者。此外,近年來也有多位ISCA名人堂學者從海外歸來,比如香港科技大學的謝源教授(截止ISCA 2025共發(fā)表23篇ISCA論文)和清華大學的錢學海教授,他們進一步推動了中國在體系結(jié)構(gòu)研究的崛起。

除了清華大學外,中國其他高校和中科院也在近年逐步發(fā)力,相信我們可以在ISCA 2025更新后的名人堂中看到更多中國學者。

ISCA 2025最佳論文獎

新興傳統(tǒng)并重,引領(lǐng)前沿發(fā)展

ISCA 2025的最佳論文獎評選結(jié)果充分體現(xiàn)了當今計算機體系結(jié)構(gòu)領(lǐng)域新興與傳統(tǒng)并重、承前啟后的發(fā)展態(tài)勢。

兩篇獲獎?wù)撐膹牟煌S度展現(xiàn)了該領(lǐng)域的創(chuàng)新活力:既有運用現(xiàn)代理論工具重新審視經(jīng)典核心問題的深度探索,更有緊跟時代脈搏、面向AI時代新應用需求的前瞻性研究。

圖片

傳統(tǒng)問題的現(xiàn)代突破:松散架構(gòu)的精確異常處理

來自劍橋大學、愛丁堡大學、奧胡斯大學等頂尖學術(shù)機構(gòu)的研究團隊憑借論文「Precise exceptions in relaxed architectures」榮獲最佳論文獎。該研究針對現(xiàn)代高性能處理器架構(gòu)中的一個核心挑戰(zhàn)——如何在松散內(nèi)存模型環(huán)境中準確定義和處理異常。

傳統(tǒng)的異常精確性定義基于60多年前的順序執(zhí)行模型假設(shè),然而現(xiàn)代架構(gòu)如Arm-A具有程序員可觀察的松散內(nèi)存行為,這使得傳統(tǒng)定義變得不再適用。

研究團隊深入探索了異常在松散內(nèi)存環(huán)境中的行為特征,包括亂序執(zhí)行、推測執(zhí)行以及跨異常邊界的數(shù)據(jù)轉(zhuǎn)發(fā)等現(xiàn)象,并開發(fā)了針對Arm-A架構(gòu)的精確異常公理化模型。該工作不僅澄清了在松散內(nèi)存設(shè)置中討論異常所需的概念和術(shù)語,還探索了軟件生成中斷的松散語義,為Linux內(nèi)核的RCU同步機制和Microsoft Verona編程語言運行時等復雜系統(tǒng)軟件提供了理論基礎(chǔ)。

這項研究體現(xiàn)了「理論深化實踐」的研究精神,為現(xiàn)代處理器架構(gòu)規(guī)范的明確化定義做出了重要貢獻。

圖片

新興應用的前沿探索:邊緣側(cè)LLM推理架構(gòu)突破

另一篇獲獎?wù)撐膭t展現(xiàn)了體系結(jié)構(gòu)領(lǐng)域?qū)θ斯ぶ悄軙r代新挑戰(zhàn)的積極回應。來自北京大學孫廣宇教授團隊、上海交通大學張宸教授團隊、香港科技大學謝源教授團隊、東南大學司鑫教授團隊及阿里巴巴達摩院的合作研究成果「H2-LLM: Hardware-Dataflow Co-Exploration for Heterogeneous Hybrid-Bonding-based Low-Batch LLM Inference」同樣榮獲最佳論文獎。

該研究針對邊緣側(cè)大語言模型推理面臨的關(guān)鍵技術(shù)挑戰(zhàn),創(chuàng)新性地提出了基于混合鍵合(Hybrid Bonding)技術(shù)的異構(gòu)加速架構(gòu)H2-LLM。

針對現(xiàn)有DRAM近存計算架構(gòu)算力供給不足的問題,研究團隊通過提出通用近存計算架構(gòu)模板,抽象設(shè)計空間以協(xié)調(diào)工藝中算力與帶寬的權(quán)衡,并采用「以數(shù)據(jù)為中心"的數(shù)據(jù)流抽象優(yōu)化異構(gòu)硬件資源利用,實現(xiàn)了計算密集型與訪存密集型算子的協(xié)同加速。

實驗結(jié)果顯示,相較于基線DRAM近存架構(gòu),H2-LLM在LLM推理的預填充(Prefill)和解碼(Decoding)階段實現(xiàn)了2.72倍的性能提升與1.48倍的能效優(yōu)化,體現(xiàn)了「應用驅(qū)動架構(gòu)創(chuàng)新」的發(fā)展理念。

圖片

人工智能加速器

技術(shù)驅(qū)動 vs. 應用驅(qū)動

從CNN視覺模型的興起以來,模型規(guī)模的指數(shù)級增長與日新月異的模型結(jié)構(gòu)不斷的為體系結(jié)構(gòu)領(lǐng)域注入著新的活力重塑體系結(jié)構(gòu)研究范式。2016年學者「ISCA的C已成為CNN的C」的論斷,在Transformer時代得到更深刻的印證——2025年的今天,「ISCA的A正演進為AI的A」已成為學界共識。ISCA 2025創(chuàng)下三項里程碑:

  1. 錄用論文135篇,創(chuàng)歷史新高;
  2. 大模型加速器首獲最佳論文獎;
  3. 首次設(shè)立LLM專題Session。

從小模型到大模型,從微架構(gòu)到宏架構(gòu)

隨著模型參數(shù)規(guī)模從小到大的持續(xù)擴展,AI系統(tǒng)面臨的挑戰(zhàn)也從單一節(jié)點的計算效率演變?yōu)楹w計算、通信與存儲的全局優(yōu)化問題。

在硬件與系統(tǒng)微架構(gòu)層面,包括模型量化支持、近存計算在內(nèi)的技術(shù)成為提升能效比和計算密度的核心手段,直接影響單節(jié)點的推理與訓練效率。

而在更大尺度的系統(tǒng)宏架構(gòu)層面,則需關(guān)注超節(jié)點的組網(wǎng)設(shè)計、高效的系統(tǒng)通信算法以及資源池化能力,以實現(xiàn)跨節(jié)點、跨集群的彈性擴展與高吞吐低延遲的協(xié)同計算。

從微觀到宏觀,AI系統(tǒng)的構(gòu)建正演變?yōu)橐粓隹缭杰浻布⑷诤纤惴ㄅc架構(gòu)的系統(tǒng)性工程挑戰(zhàn)。

在相關(guān)文章中,來自香港科技大學(廣州)黃嘉逸教授團隊的Chimera通過系統(tǒng)性地分析通信模式,識別出在并行切換時的通信冗余,提出了一種通用且兼容各種并行組合的優(yōu)化方法,該文章獲ISCA 2025 Distinguished Artifact Award獎項。

Chimera將相鄰的通信操作符進行重排序并融合成更高效的通信原語。該方法不僅減少了通信總量,還避免了中間狀態(tài)的冗余同步,顯著提升了通信帶寬和整體訓練性能。

此外,Chimera兼容現(xiàn)有優(yōu)化方法(如核融合和調(diào)度優(yōu)化),為構(gòu)建更高效的大模型訓練系統(tǒng)提供了新的基礎(chǔ)支持。

晶圓級計算、混合鍵合、光芯片百花齊放

隨著晶體管的微縮逐步到達其物理極限,以及先進芯片的尺寸達到光罩尺寸(reticle size),現(xiàn)在越來越難以通過繼續(xù)傳統(tǒng)的縮小晶體管尺寸、擴大芯片面積的方式提升單芯片集成度;另外一方面,現(xiàn)在的芯片性能在越來越多情況下被內(nèi)存、通信帶寬而非計算所限制,而這也是單純縮小晶體管尺寸所難以解決的。

許多新興制造工藝或許正是解決以上問題的一劑良藥。從3D集成工藝到非易失存儲器件再到芯粒(chiplet)技術(shù),制造工藝上的演進能夠帶來集成度、內(nèi)存帶寬等技術(shù)指標上的顛覆性提升,也不斷刺激著全芯片架構(gòu)的不斷涌現(xiàn)。

本次ISCA會議上,我們主要看到了由三種新型工藝驅(qū)動的架構(gòu)設(shè)計討論:晶圓級計算 (wafer-scale computing)、混合鍵合 (hybrid bonding)、光計算 (photonic computing)。

晶圓級計算無疑是本次會議的一個焦點所在,ISCA 2025共接收了4篇文章。晶圓級計算是一種將整個硅晶圓作為單一超大規(guī)模計算系統(tǒng)的技術(shù)架構(gòu)。其核心理念是不再將晶圓切割成小塊芯片,而是直接在完整晶圓上構(gòu)建計算陣列,通過片上互連網(wǎng)絡(luò)將數(shù)千個處理核心連接起來,形成一個巨型的并行計算平臺。

相比傳統(tǒng)GPU集群,這種架構(gòu)可以提供約50倍的晶體管數(shù)量和6倍的片間帶寬,同時通過短距離片上互連(<5mm)替代傳統(tǒng)PCB走線(50-100mm),顯著降低了通信延遲和功耗。

此外,晶圓級系統(tǒng)消除了外部NVLink交換機、光互連等組件需求,大幅減少了系統(tǒng)復雜度和成本,同時支持近乎完美的線性性能擴展,可實現(xiàn)數(shù)百萬AI優(yōu)化計算核心的協(xié)同工作。

然而,晶圓級計算芯片也面臨著一系列設(shè)計挑戰(zhàn)。晶圓級計算的主要挑戰(zhàn)在于如何在有限的晶圓面積約束下平衡計算、存儲和通信資源的分配。由于晶圓總面積固定(約70,000mm2),增加DRAM容量會占用更多面積并消耗更多片間互連接口,導致可用計算資源和片間通信帶寬的減少。

同時,系統(tǒng)還面臨互連距離限制(超過50mm會導致誤碼率增加10?倍)、封裝可靠性約束、以及復雜的多層級設(shè)計空間優(yōu)化問題。

此外,缺乏細粒度的參數(shù)化建??蚣芎途C合評估系統(tǒng),使得在設(shè)計階段難以實現(xiàn)計算架構(gòu)和硬件架構(gòu)的協(xié)同優(yōu)化,這些都成為實現(xiàn)最優(yōu)集成密度和性能的關(guān)鍵瓶頸。

對于這些問題,清華大學尹首一教授、胡楊教授團隊發(fā)表的「Cramming a Data Center into One Cabinet, a Co-Exploration of Computing and Hardware Architecture of Waferscale Chip」一文針對晶圓級芯片資源分配這一關(guān)鍵問題,通過計算與硬件架構(gòu)的協(xié)同探索,有效解決了在有限晶圓面積下計算、存儲、通信資源的最優(yōu)權(quán)衡難題,并引入垂直集成架構(gòu)約束實現(xiàn)了系統(tǒng)級優(yōu)化。

圖片

晶圓級芯片架構(gòu)

另一個晶圓級架構(gòu)的代表性工作,同樣來自清華大學尹首一教授、胡楊教授團隊的WSC-LLM則專門聚焦于AI時代最重要的大語言模型(LLM)工作負載,通過架構(gòu)與調(diào)度的協(xié)同設(shè)計,創(chuàng)新性地解決了LLM推理中預填充和解碼階段動態(tài)資源需求不匹配的問題,并提出了高效的分布式內(nèi)存管理策略。這兩項工作都體現(xiàn)了軟硬件協(xié)同優(yōu)化的設(shè)計理念,為突破傳統(tǒng)多卡集群的內(nèi)存和通信瓶頸、充分釋放晶圓級計算潛力提供了重要的技術(shù)路徑,代表了在新工藝約束下尋求最優(yōu)系統(tǒng)性能的前沿探索。

圖片

面向LLM的晶圓級架構(gòu)資源分配與管理

混合鍵合是一種先進的鍵合工藝,用于在3D IC的制造中形成上下相鄰的兩晶片間的物理及電路連接。相較于原先的微凸點鍵合(micro-bump bonding)工藝能夠帶來3D IC中垂直互聯(lián)密度和帶寬上數(shù)量級的提升。這一技術(shù)突破為解決長期困擾計算系統(tǒng)的「存儲墻」問題開辟了新的路徑。

本次會議最佳論文獎的H2-LLM一文充分利用混合鍵合帶來的高垂直互聯(lián)密度優(yōu)勢,通過DRAM die與邏輯die的3D異構(gòu)集成,解決了邊緣LLM推理中計算能力與內(nèi)存帶寬的權(quán)衡難題,相比傳統(tǒng)片內(nèi)近存計算方案實現(xiàn)了2.72倍的性能提升。這篇論文也榮獲本屆ISCA會議最佳論文獎,將在本文后續(xù)部分中詳細介紹。

光計算作為突破傳統(tǒng)電子計算瓶頸的新興技術(shù),具有獨特的優(yōu)勢與挑戰(zhàn)。其核心優(yōu)勢在于光互連不受焦耳熱、RF串擾和電容等傳統(tǒng)電子器件的能效限制,能夠?qū)崿F(xiàn)極高的帶寬密度,并支持在每個交叉點同時進行數(shù)十億次乘累加(MAC)操作。

然而,現(xiàn)有光計算工作往往局限于物理層面的概念驗證,缺乏完整的系統(tǒng)級架構(gòu)支持,特別是在內(nèi)存系統(tǒng)設(shè)計、通用ML操作支持等方面存在顯著不足。

美國匹茲堡大學Jun Yang教授團隊發(fā)表的「LightML: A Photonic Accelerator for Efficient General Purpose Machine Learning」提出了首個系統(tǒng)級光子交叉陣列架構(gòu),通過創(chuàng)新的內(nèi)存和緩沖設(shè)計實現(xiàn)了超過80%的光子交叉陣列利用率。該工作巧妙利用相位調(diào)制器和傅里葉級數(shù)實現(xiàn)非線性函數(shù)計算,并通過電路級設(shè)計高效支持矩陣轉(zhuǎn)置、批量歸一化、ReLU等關(guān)鍵ML操作。LightML實現(xiàn)了325 TOP/s計算性能,功耗僅3W,相比GPU獲得13.6倍能效提升,為解決AI時代「算力墻」問題提供了全新技術(shù)路徑。

晶圓級計算、混合鍵合和光計算這三種新興制造工藝代表了在摩爾定律逐步放緩背景下計算架構(gòu)創(chuàng)新的重要方向。

它們分別從超大規(guī)模集成、3D異構(gòu)集成和新型物理計算原理三個維度突破了傳統(tǒng)電子計算的根本限制,為解決當前芯片設(shè)計中面臨的「存儲墻」、「通信墻」和「功耗墻」等關(guān)鍵瓶頸提供了顛覆性的解決方案。

本屆ISCA會議上相關(guān)論文的集中涌現(xiàn),不僅展現(xiàn)了學術(shù)界對這些前沿技術(shù)的高度關(guān)注,更預示著計算架構(gòu)正在從傳統(tǒng)的工藝驅(qū)動模式向工藝與架構(gòu)深度協(xié)同優(yōu)化的新范式轉(zhuǎn)變。這種轉(zhuǎn)變將為AI時代日益增長的算力需求提供更加高效、可持續(xù)的技術(shù)支撐,推動整個計算產(chǎn)業(yè)進入一個全新的發(fā)展階段。

AI時代的存儲系統(tǒng)設(shè)計與優(yōu)化

在ISCA 2025中,一共有5個Session與存儲系統(tǒng)相關(guān),內(nèi)容涵蓋前沿存儲技術(shù)探索、外存系統(tǒng)優(yōu)化、存算一體與存儲加速器以及存儲系統(tǒng)安全性研究。基于ISCA 2025的相關(guān)文章,我們將體系結(jié)構(gòu)視角下的存儲系統(tǒng)發(fā)展總結(jié)為如下三個重要趨勢。

應用驅(qū)動的存儲系統(tǒng)功能擴展:檢索任務(wù)在大模型時代的「文藝復興」

如何面向?qū)嶋H任務(wù)負載,設(shè)計「快速讀寫」的存儲系統(tǒng),是體系結(jié)構(gòu)領(lǐng)域經(jīng)久不衰的重要話題。

在ISCA 2025中,「應用驅(qū)動」成為回答這一問題的關(guān)鍵——結(jié)合應用特征進行軟硬件協(xié)同優(yōu)化,降低冗余訪存量,設(shè)計專用存算架構(gòu),充分挖掘存儲器內(nèi)部帶寬。相關(guān)文章主要關(guān)注檢索增強生成(Retrieval-augmented generation, RAG)、數(shù)據(jù)庫(Database)、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)、生物信息學處理等應用場景。

其中,RAG與近鄰搜索共有5篇文章入選存儲系統(tǒng)的相關(guān)session,成為這一方向最熱門的話題。

RAG是一種將外部檢索到的相關(guān)信息動態(tài)融入生成任務(wù)中的技術(shù),先通過向量檢索模塊從外部知識庫中獲取相關(guān)信息,再將檢索結(jié)果作為附加上下文輸入到生成模型中,以提升生成的準確性與一致性。

從硬件架構(gòu)的角度,RAG中的檢索任務(wù)具有存儲需求高、計算相對簡單的特征,因此,將計算任務(wù)「下放」到內(nèi)存與硬盤里去執(zhí)行,利用Processing-In-Memory與In-Storage-Computing的思想對存儲系統(tǒng)進行計算功能的擴展,可以有效緩解CPU/GPU在信息檢索過程中的數(shù)據(jù)傳輸壓力。

面向檢索任務(wù)的專用硬件架構(gòu)曾是體系結(jié)構(gòu)領(lǐng)域的重要研究話題,如MICRO'19的TensorDIMM、ISCA'20的RecNMP和MICRO'23的DF-GAS,這些架構(gòu)普遍關(guān)注于基于檢索任務(wù)的推薦系統(tǒng)優(yōu)化。

在大模型越來越強的時代背景下,「信息檢索」的應用場景也從經(jīng)典的推薦系統(tǒng)任務(wù),擴展到了檢索生成一體化。

在一些工作負載下,檢索召回的時間可占端到端時間的60%,也使加速RAG中的檢索任務(wù)變得愈發(fā)重要,今年ISCA的相關(guān)論文可以被稱為檢索任務(wù)的「文藝復興」。

圖片

RAG中不同計算階段的延時占比。其中,Llama2-34B運行在A100 GPU上,其他組件運行在Intel Xeon CPU上。[Ref: In-Storage Acceleration of Retrieval Augmented Generation as a Service]

ANSMET,DReX與HeterRAG三篇文章關(guān)注在內(nèi)存(Memory)層級的近存儲檢索架構(gòu)設(shè)計,旨在通過近存儲計算單元,充分挖掘DRAM的內(nèi)部帶寬,降低數(shù)據(jù)搬運的額外開銷。

其中,清華大學高鳴宇教授團隊的ANSMET與美國康奈爾大學Mohammad Alian教授團隊的DReX均采用了軟硬件協(xié)同優(yōu)化的思想,通過「基于距離下界的提前早?!购汀富诜栆恢滦缘南蛄窟^濾」等方法,降低存儲訪問量與冗余計算量。

華中科技大學金海教授、廖小飛教授團隊的HeterRAG在檢索之外更進一步,設(shè)計了基于異構(gòu)DRAM的檢索生成一體化架構(gòu),將檢索任務(wù)交給高容量、低成本的DIMM-PIM,而生成任務(wù)則交給高帶寬的HBM-PIM,并通過局部性感知的調(diào)度優(yōu)化與細粒度并行,實現(xiàn)端到端的帶寬–容量均衡與能效最大化。

圖片

HeterRAG:(左)檢索部分(右)生成部分

蘇黎世聯(lián)邦理工學院Onur Mutlu教授團隊設(shè)計的REIS與加州大學圣地亞哥分校Hadi Esmaeilzadeh教授團隊的RAGX兩篇文章側(cè)重于在外存(Storage)層級支持檢索與嵌入計算,通過利用SSD/Flash的內(nèi)部并行與帶寬,顯著減少主機–外存之間的數(shù)據(jù)搬運延遲。

REIS的特點在于保持現(xiàn)有SSD硬件不變,充分利用現(xiàn)有硬件單元和存儲空間提高近似近鄰搜索效率。REIS利用In-Storage-Embedded-Core以及SSD控制器支持倒排文件(Inverted File)的相似性計算與查找,優(yōu)化嵌入表信息在SSD內(nèi)的數(shù)據(jù)布局,并使用NAND Flash中保留的Out-of-Band(OOB)區(qū)域存儲額外的地址等信息。

與之對應的,RAGX在SSD內(nèi)部增加了可編程加速器,一方面以脈動陣列的模式支持基于小規(guī)模語言模型的查詢嵌入(query embedding),另一方面以向量模式可以在檢索階段直接從NAND陣列中讀取嵌入表。

除了支持嵌入計算外,RAGX實現(xiàn)了多種檢索算法與數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一支持,包括HNSW與倒排索引等。

存算一體的下半場:從「架構(gòu)設(shè)計」到「軟件棧-架構(gòu)協(xié)同優(yōu)化」

存算一體架構(gòu)旨在讓計算發(fā)生在數(shù)據(jù)存儲的位置,從而降低存儲器和處理器之間的數(shù)據(jù)搬運,打破馮·諾依曼架構(gòu)的存儲墻瓶頸。存算一體的設(shè)計思想可以追溯到二十世紀七十年代的Logic-in-Memory(LiM),受限于技術(shù)成熟度較低和應用需求不明確等問題,LiM未能實際落地應用。

近十年來,得益于RRAM等非易失存儲器件的發(fā)展和應用側(cè)日益提升的高效訪存需求,存算一體技術(shù)自ISCA'16的PRIME與ISAAC開始迎來了復興。今天的典型存算一體技術(shù)包括面向矩陣向量乘的模擬域存內(nèi)計算、面向邏輯計算的數(shù)字域存內(nèi)計算以及在存儲陣列外放置計算單元的近存儲計算。

在ISCA 2025,存算一體的相關(guān)文章呈現(xiàn)出近存儲計算成為主流、由「架構(gòu)設(shè)計」到「軟件棧-架構(gòu)協(xié)同優(yōu)化」的發(fā)展趨勢,表明體系結(jié)構(gòu)領(lǐng)域愈加關(guān)注存算一體的生態(tài)建設(shè),在追求高性能、高能效之余還要做到硬件可用、好用。

韓國首爾國立大學Hyojin Sung教授團隊的ATiM和蘇黎世聯(lián)邦理工學院Lana Josipovi?教授團隊與加州大學圣地亞哥分校的Tajana Rosing教授團隊聯(lián)合提出的OptiPIM是兩篇典型的存算一體編譯優(yōu)化工作,兩者均面向DRAM存算一體架構(gòu),基于架構(gòu)特性分析,將算子映射問題形式化為可自動求解的優(yōu)化任務(wù),從而自動生成可執(zhí)行代碼及優(yōu)化的數(shù)據(jù)布局。

值得一提的是,這兩項工作均已開源,并獲得了Artifact Available, Artifact Evaluated以及Results Reproduced三個Badge。ATiM面向商用存算一體產(chǎn)品UPMEM設(shè)計了基于搜索的優(yōu)化張量編譯器,通過復用并擴展TVM的調(diào)度原語,進行主機側(cè)與存算一體單元的聯(lián)合編譯尋優(yōu)與代碼生成,自動搜尋最優(yōu)的tiling、并行與緩存策略。

基于TVM,ATiM提升了UPMEM架構(gòu)的軟件可編程性,用戶無需手寫UPMEM的低級代碼即可獲得高達8.21×的性能加速。OptiPIM更注重面向廣義DRAM存算一體架構(gòu)(包括近存計算與存內(nèi)計算),解決數(shù)據(jù)布局與循環(huán)的優(yōu)化問題。無獨有偶,筆者發(fā)表在HPCA'25的UniNDP同樣對該問題進行優(yōu)化。

不同于UniNDP關(guān)注在細粒度性能建模與基于啟發(fā)式的映射策略搜索,OptiPIM對性能與約束條件進行粗粒度系統(tǒng)性建模,將算子映射問題描述成整數(shù)線性規(guī)劃(Integer Linear Programming, ILP)問題,4分鐘內(nèi)即可求得算子向DRAM PIM的全局最優(yōu)映射。OptiPIM同樣獲得了本次會議的Distinguished Artifact Award獎項。

圖片

OptiPIM優(yōu)化目標

在存內(nèi)計算架構(gòu)方面,ISCA 2025收錄了三篇文章,數(shù)量較之前有所下降,包括一篇RRAM PIM以及兩篇SRAM PIM工作。三篇工作均采用系統(tǒng)級的軟硬件協(xié)同優(yōu)化方法,形成軟件策略和硬件電路的閉環(huán)優(yōu)化,提高計算準確率與能效。

加州大學圣地亞哥分校Mingu Kang 教授團隊的HyFlexPIM在RRAM單元上靈活切換single-level cell(SLC)與 multi-level cell(MLC)兩種模式,SLC模式存儲密度低但可以保證高計算準確率,MLC模式計算存在誤差但存儲密度較高。HyFlexPIM在算法層利用SVD分解與微調(diào)技術(shù),降低重要權(quán)重(具有較大梯度、需要高精度計算)的所占比例,從而節(jié)省低存儲密度SLC的使用,最終兼顧存儲密度與計算準確率。

在基于SRAM介質(zhì)的存內(nèi)計算方面主要有兩篇文章,分別是北京大學孫廣宇教授團隊聯(lián)合東南大學司鑫教授團隊、后摩智能提出的AIM,以及清華大學李兆麟教授與中山大學王明羽教授團隊提出的MagiCache。

AIM關(guān)注存內(nèi)乘法計算中的電路IR-drop問題,在軟件層引入漢明率正則項,在電路層支持自適應電壓頻率動態(tài)調(diào)整,最終達到了接近70%的IR-drop緩解。

MagiCache針對Cache內(nèi)計算的技術(shù)路徑開展系統(tǒng)級優(yōu)化,硬件層將cache行動態(tài)配置為計算行或存儲行;軟件層設(shè)計虛擬計算引擎,基于虛擬寄存器進行緩存空間管理,設(shè)計指令鏈式技術(shù)隱藏數(shù)據(jù)搬運延時,實現(xiàn)40%的緩存利用率提升。

圖片

ISCA 2025中出現(xiàn)的存內(nèi)計算實現(xiàn)方式

存儲系統(tǒng)優(yōu)化:更大、更快、更安全

在ISCA 2025的純存儲系統(tǒng)優(yōu)化專題中,研究者們既關(guān)注存儲訪問效率的極限提升,也聚焦于新型攻擊對數(shù)據(jù)安全性的挑戰(zhàn)。回顧存儲安全領(lǐng)域的奠基工作,Onur Mutlu教授團隊在2014年首次揭示了DRAM row hammer現(xiàn)象,開啟了對DRAM「讀擾動」安全威脅的系統(tǒng)性研究。

時隔十余年,隨著DDR5、PUF、存內(nèi)計算等新技術(shù)的出現(xiàn),row hammer的問題影響變得更加廣泛,安全防護與性能開銷之間的矛盾愈加突出。

除了安全性之外,大規(guī)模數(shù)據(jù)分析與大模型等AI計算對存儲子系統(tǒng)的訪問效率提出了更高要求。

針對上述背景,ISCA 2025收錄了多篇row hammer與存儲系統(tǒng)優(yōu)化工作,呈現(xiàn)出存儲系統(tǒng)向「高效、安全、智能」多維度演進的趨勢。

在row hammer防護方面,四篇工作的側(cè)重點各有不同,分別從防護開銷、防護方法以及新場景下的安全性問題等方面開展研究。

佐治亞理工大學Moinuddin Qureshi教授團隊提出的MoPAC關(guān)注在降低row hammer防護帶來的性能損失,通過概率行激活計數(shù)的方法,在保證同等安全性的前提下降低更新計數(shù)器造成的時序開銷。

該團隊的另一項工作DREAM在存儲控制器側(cè),分析JEDEC DDR5引入的Directed Refresh Management(DRFM)特性對row hammer的影響并進行優(yōu)化。

在挖掘新的安全性問題方面,英屬哥倫比亞大學Prashant Jayaprakash Nair教授團隊在「When Mitigations Backfire」一文探討了DDR5行激活計數(shù)(Per Row Activation Counting, PRAC)中存在的timing channel漏洞問題,提出了對應的側(cè)信道攻擊方法與防御策略。

Onur Mutlu教授團隊的PuDHammer針對DRAM存內(nèi)計算的多行激活特性,首次在商用DDR芯片上開展了系統(tǒng)性的讀擾動影響評估。

在存儲系統(tǒng)性能優(yōu)化方面,阿聯(lián)酋人工智能大學Chun Jason Xue教授團隊提出的ArtMem與AMD提出的Folded Banks兩篇文章分別從系統(tǒng)層和架構(gòu)層開展了相關(guān)研究,通過軟件智能算法驅(qū)動或硬件微架構(gòu)創(chuàng)新實現(xiàn)對存儲訪問模式的動態(tài)適配,以達到帶寬與延時的協(xié)同優(yōu)化。

ArtMem針對數(shù)據(jù)在多層級異構(gòu)存儲系統(tǒng)(DRAM內(nèi)存+持久性內(nèi)存及CXL擴展存儲)中的遷移調(diào)度進行優(yōu)化,利用強化學習方法學習數(shù)據(jù)的訪問行為,動態(tài)地將數(shù)據(jù)頁(page)放置在合適的存儲層級,提高數(shù)據(jù)訪問發(fā)生在DRAM中的相對比例,減少不必要的跨存儲層級數(shù)據(jù)遷移開銷。

Folded Banks一文將視角聚焦在HBM上,著重解決HBM在隨機訪問場景下的有效帶寬低的問題,創(chuàng)新性地在架構(gòu)電路層提出將二維存儲Bank「折疊」到三維堆棧中,實現(xiàn)短距離垂直互連,降低數(shù)據(jù)搬運開銷,提高行激活的并行度。

圖片

Folded Banks存儲架構(gòu)

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-08-13 14:00:00

AI訓練

2022-12-19 14:39:29

機器人論文

2021-10-13 17:53:14

AI 數(shù)據(jù)人工智能

2024-11-15 14:00:00

AI論文

2023-11-10 12:53:35

論文AI

2022-08-18 11:44:19

阿里巴巴達摩院KDD

2025-07-03 01:45:00

LLMCoT思維鏈

2025-02-24 12:33:28

2025-03-03 12:16:48

2024-05-17 10:54:51

2009-06-26 15:58:28

EJB

2009-09-11 10:38:03

LINQ體系結(jié)構(gòu)

2024-11-08 11:06:07

2012-02-06 17:22:44

MySQL

2009-07-15 13:46:26

Swing體系結(jié)構(gòu)

2014-07-23 09:33:52

2024-03-01 20:55:40

Pytorch張量Tensor

2019-09-06 08:35:03

TCPIP算法

2023-06-21 10:33:13

SIGMOD阿里云數(shù)據(jù)庫
點贊
收藏

51CTO技術(shù)棧公眾號