偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例

發(fā)布于 2025-10-11 06:39
瀏覽
0收藏

CXL 3.X技術(shù)正從理論討論轉(zhuǎn)向?qū)嶋H部署,業(yè)界對其必要性和潛力的關(guān)注日益增加。它特別適合作為構(gòu)建大規(guī)模實(shí)用計(jì)算系統(tǒng)的標(biāo)準(zhǔn),因?yàn)樗ㄟ^內(nèi)存共享實(shí)現(xiàn)更高效的資源利用,并通過支持多級交換和基于端口路由(Port-Based Routing,PBR)的互連架構(gòu)來提升可擴(kuò)展性和靈活性。

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例-AI.x社區(qū)

為了探索CXL 3.x技術(shù)的實(shí)際應(yīng)用領(lǐng)域,CXL成員公司Panmnesia的團(tuán)隊(duì)在我們的CXL 3.x全系統(tǒng)框架上運(yùn)行了各種工作負(fù)載。如上圖所示,Panmnesia的CXL 3.x全系統(tǒng)框架包括CXL-GPU、CXL內(nèi)存擴(kuò)展器和CXL-CPU,這些組件均是使用我們CXL 3.x IP在內(nèi)部開發(fā),并通過我們的CXL 3.x交換機(jī)SoC進(jìn)行互連。

**此框架是2022年USENIX年度技術(shù)會議上展示的CXL 2.0全系統(tǒng)框架的升級版本[1]。

通過我們的探索,我們確定CXL 3.x技術(shù)特別適合以下兩個領(lǐng)域:AI基礎(chǔ)設(shè)施和高性能計(jì)算(HPC)。在接下來的部分,我們將介紹為什么這些領(lǐng)域與CXL技術(shù)的特性高度契合,以及我們?nèi)绾问褂肅XL 3.x框架加速每個領(lǐng)域的代表性應(yīng)用。

<應(yīng)用領(lǐng)域#1:AI基礎(chǔ)設(shè)施>

各種AI應(yīng)用,例如大型語言模型(Large Language Models,LLM)和推薦系統(tǒng),已深入融入日常生活。隨著其影響力的持續(xù)增長,各大公司正試圖提升AI模型的性能。提升性能最常見的方法包括:增加訓(xùn)練數(shù)據(jù)量以使模型從更多樣化的示例中學(xué)習(xí),以及增加模型參數(shù)數(shù)量以分析更復(fù)雜的關(guān)系。隨著這些努力的持續(xù),模型和數(shù)據(jù)集的大小迅速增長。因此,許多應(yīng)用現(xiàn)在需要數(shù)TB甚至數(shù)十TB的內(nèi)存[2, 3],這輕易超過了單個GPU的內(nèi)存容量(最新GPU通常為100-200GB[4])。

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例-AI.x社區(qū)

傳統(tǒng)上,為了彌補(bǔ)內(nèi)存容量不足,通常會分配更多GPU或配備GPU的服務(wù)器節(jié)點(diǎn),并通過網(wǎng)絡(luò)互連來運(yùn)行大規(guī)模AI應(yīng)用。然而,考慮到每個AI應(yīng)用對計(jì)算和內(nèi)存資源的需求不同,傳統(tǒng)方法以固定的計(jì)算與內(nèi)存比率分配資源,往往導(dǎo)致資源利用率低下和浪費(fèi)。鑒于主要IT公司運(yùn)營的單個數(shù)據(jù)中心通常容納超過10,000個GPU,總基礎(chǔ)設(shè)施成本達(dá)到數(shù)億美元甚至更多[5, 6],提高資源利用率已成為一項(xiàng)必需。

為了應(yīng)對這一挑戰(zhàn),我們提出了幾種基于CXL的解決方案。如圖所示,我們的方法是根據(jù)計(jì)算需求放置GPU或其他AI加速器,并通過添加高密度內(nèi)存設(shè)備(即CXL內(nèi)存擴(kuò)展器)或內(nèi)存節(jié)點(diǎn)來解決內(nèi)存不足問題。與傳統(tǒng)方法(即僅為了確保足夠內(nèi)存容量而添加更多GPU或配備GPU的服務(wù)器)相比,這種方法能最小化資源浪費(fèi)。換言之,可顯著降低構(gòu)建和運(yùn)營成本。在接下來的部分,我們將介紹兩個基于上述方法的代表性CXL系統(tǒng),以提升AI基礎(chǔ)設(shè)施中的資源效率。

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例-AI.x社區(qū)

第一個系統(tǒng)在GPU/AI加速器本身中集成了CXL根復(fù)雜。通過將CXL內(nèi)存擴(kuò)展器或CXL-SSD連接到此根復(fù)雜,GPU系統(tǒng)的內(nèi)存容量得以增加。對于主機(jī)(將GPU作為端點(diǎn)設(shè)備訪問),它看起來就好像只是GPU的內(nèi)存增長了。

請注意,Panmnesia的CXL IP嵌入在每個設(shè)備的CXL控制器中,能夠以硬件自動化的方式處理諸如緩存一致性管理等操作。因此,相比先前的方法,例如統(tǒng)一虛擬內(nèi)存(Unified Virtual Memory,UVM[7])(其中主機(jī)軟件管理GPU對外部內(nèi)存空間的訪問),可以實(shí)現(xiàn)更高的性能。

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例-AI.x社區(qū)

事實(shí)上,當(dāng)我們基于CXL IP構(gòu)建原型并評估其性能時(shí),我們證實(shí)其性能超過了UVM性能的3倍。有關(guān)此系統(tǒng)的更多細(xì)節(jié),可在Panmnesia的最新博客中找到:https://panmnesia.com/technology/blog/2024-06-25-cxl-gpu-techblog/。

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例-AI.x社區(qū)

第二個系統(tǒng)將GPU/AI加速器用作Type 2設(shè)備。我們在去年的OCP全球峰會上發(fā)布了此系統(tǒng),即CXL使能的AI集群。該框架由GPU節(jié)點(diǎn)和內(nèi)存節(jié)點(diǎn)組成,通過Panmnesia的CXL 3.x交換機(jī)互連。它支持用戶根據(jù)資源需求,從每個節(jié)點(diǎn)(池)中僅分配所需的計(jì)算(GPU/AI加速器)和內(nèi)存資源,從而最小化不必要的資源浪費(fèi)。

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例-AI.x社區(qū)

為了驗(yàn)證此框架的實(shí)用性,我們運(yùn)行并評估了檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)應(yīng)用的性能,該應(yīng)用如今在主要AI聊天機(jī)器人中廣為常用。簡而言之,RAG通過從向量數(shù)據(jù)庫中檢索與用戶查詢相關(guān)的文檔,并將其用作LLM的附加輸入,來提升LLM推理的準(zhǔn)確性。鑒于向量數(shù)據(jù)庫的大小可能達(dá)到數(shù)十TB,許多先前研究提出將它們存儲在SSD等存儲設(shè)備上[8, 9]。在我們的方法中,我們將向量數(shù)據(jù)庫存儲在利用CXL技術(shù)構(gòu)建的大型內(nèi)存池中,并且在GPU池上運(yùn)行LLM。

探索CXL 3.X交換機(jī)在AI應(yīng)用中的用例-AI.x社區(qū)

我們的測試顯示,基于CXL的系統(tǒng)消除了基于SSD的系統(tǒng)中通常由慢速存儲訪問引起的高延遲,并最小化了其通信開銷,因?yàn)槲覀兊腃XL IP實(shí)現(xiàn)了超過六倍的性能提升。

這僅是我們努力的一部分。除了上述工作外,我們還將繼續(xù)通過Panmnesia的核心產(chǎn)品(CXL交換機(jī)SoC和CXL IP)驅(qū)動的各種現(xiàn)實(shí)用例,來展示CXL的實(shí)用性。

參考文獻(xiàn):

[1] Donghyun Gouk, Sangwon Lee, Miryeong Kwon, and Myoungsoo Jung. Direct Access, High-Performance Memory Disaggregation with DirectCXL. 2022 USENIX Annual Technical Conference (USENIX ATC 22).

[2] Harsha Simhadri. Research talk: Approximate nearest neighbor search systems at scale. https://youtu.be/BnYNdSIKibQ?si=WoSWfJTVLEd2Rk62

[3] Cong Fu, Chao Xiang, Changxu Wang, and Deng Cai. Fast approximate nearest neighbor search with the navigating spreading-out graph. Proceedings of the VLDB Endowment, 2019.

[4] NVIDIA. NVIDIA H200 Tensor Core GPU. https://www.nvidia.com/en-us/data-center/h200/

[5] Business Insider. Elon Musk quietly built a 2nd mega-data center for xAI in Atlanta with $700 million worth of chips and cables. https://www.businessinsider.com/xai-elon-musk-x-new-atlanta-data-center-2025-2

[6] The Globe and Mail. OpenAI’ First Stargate Site at Texas to Host 400K Nvidia (NVDA) AI Chips. https://www.theglobeandmail.com/investing/markets/stocks/MSFT/pressreleases/31469159/openai-first-stargate-site-at-texas-to-host-400k-nvidia-nvda-ai-chips/

[7] NVIDIA. Unified Memory for CUDA Beginners. https://developer.nvidia.com/blog/unified-memory-cuda-beginners/

[8] Suhas Jayaram Subramanya, Fnu Devvrit, Harsha Vardhan Simhadri, Ravishankar Krishnawamy, and Rohan Kadekodi. Diskann: Fast accurate billion-point nearest neighbor search on a single node. Advances in Neural Information Processing Systems (NeurIPS), 2019.

[9] Siddharth Gollapudi, Neel Karia, Varun Sivashankar, Ravishankar Krishnaswamy, Nikit Begwani, Swapnil Raz, Yiyong Lin, Yin Zhang, Neelam Mahapatro, Premkumar Srinivasan, et al. Filtered-diskann: Graph algorithms for approximate nearest neighbor search with filters. Proceedings of the ACM Web Conference 2023 (WWW 23), 2023

本文轉(zhuǎn)載自??Andy730??,作者:常華

已于2025-10-11 06:39:42修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦