創(chuàng)新無界,亞馬遜云科技重塑云基礎(chǔ)設(shè)施新未來
原創(chuàng)在全球科技創(chuàng)新日新月異的今天,亞馬遜云科技再次站在了技術(shù)變革的前沿。在 re:Invent 2024 大會(huì)上,亞馬遜云科技進(jìn)一步拓寬了其基礎(chǔ)設(shè)施創(chuàng)新的邊界,從自研芯片到高性能服務(wù)器,從革命性的網(wǎng)絡(luò)架構(gòu)到綠色數(shù)據(jù)中心的設(shè)計(jì),亞馬遜云科技正在以其創(chuàng)新的技術(shù)實(shí)力,開啟了全棧云和 AI 服務(wù)的無限可能。
縱向擴(kuò)展創(chuàng)新:提升計(jì)算性能,助力 AI 訓(xùn)練突破極限
在云計(jì)算和 AI 領(lǐng)域,計(jì)算能力始終是推動(dòng)技術(shù)進(jìn)步的核心因素。隨著生成式 AI 和大模型的復(fù)雜度不斷增加,芯片性能的提升變得尤為關(guān)鍵。早在十年前,亞馬遜云科技便開始布局自研芯片,并在這一領(lǐng)域持續(xù)深耕。通過自研芯片的戰(zhàn)略,亞馬遜云科技不僅提升了計(jì)算能力,還在降低成本和提高效率方面取得了顯著進(jìn)展。
在 re:Invent 2024 上,亞馬遜云科技發(fā)布了全新的 Amazon Trainium2 AI 訓(xùn)練芯片。作為亞馬遜云科技自研的最新一代 AI 專用芯片,Trainium2 采用了最新的技術(shù)架構(gòu),專門為大規(guī)模訓(xùn)練和實(shí)時(shí)推理需求進(jìn)行了優(yōu)化。

Trainium2 采用脈動(dòng)陣列(Systolic Arrays)硬件架構(gòu),使得計(jì)算步驟之間能夠避免頻繁內(nèi)存訪問,直接將結(jié)果從一個(gè)計(jì)算單元傳遞到下一個(gè),從而減輕內(nèi)存帶寬壓力,優(yōu)化計(jì)算資源。這一架構(gòu)特別適合 AI 中常見的矩陣和張量操作。除此之外,Trainium2 還提供了 Neuron 內(nèi)核接口(NKI),允許開發(fā)者直接訪問硬件,編寫計(jì)算內(nèi)核,最大化計(jì)算密集型任務(wù)的性能。
Amazon Trainium2芯片除了芯片創(chuàng)新,亞馬遜云科技在縱向擴(kuò)展方面也取得了重要突破。傳統(tǒng)的云計(jì)算擴(kuò)展通常依賴于水平擴(kuò)展,但隨著 AI 模型和數(shù)據(jù)量的激增,單純擴(kuò)展集群已無法有效解決訓(xùn)練和推理的瓶頸。
因此,亞馬遜云科技突破單服務(wù)器性能,推出 Amazon EC2 Trn2 實(shí)例和Amazon EC2 Trn2 UltraServers 服務(wù)器。Amazon EC2 Trn2 實(shí)例配備 16 個(gè) Trainium2 芯片,提供高達(dá) 20.8 Petaflops 的浮點(diǎn)算力,特別適用于大規(guī)模生成式 AI 訓(xùn)練、超大語言模型(LLM)及其他計(jì)算密集型 AI 任務(wù),從而大幅提升了訓(xùn)練和推理的效率。
亞馬遜云科技全新推出 Amazon EC2 Trn2 UltraServers 服務(wù)器,配備 64 顆 Trainium2 芯片,采用 NeuronLink 超速互連技術(shù),提供高達(dá) 83.2 Petaflops 的浮點(diǎn)算力,計(jì)算、內(nèi)存和網(wǎng)絡(luò)能力是單一實(shí)例的四倍,能夠支持超大規(guī)模模型的訓(xùn)練和部署。正如亞馬遜云科技高級(jí)副總裁Peter Desantis 所言,“如果你要構(gòu)建一個(gè)萬億參數(shù)的 AI 模型,這就是你需要的服務(wù)器。”
Amazon EC2 Trn2 UltraServers 服務(wù)器
此外,亞馬遜云科技還發(fā)布了新一代 Amazon Trainium3 訓(xùn)練芯片。Trainium3 是亞馬遜云科技首款采用 3 納米工藝制造的芯片,標(biāo)志著在性能、能效和芯片密度方面的新突破。搭載 Trainium3 的 UltraServers 預(yù)計(jì)將比 Trn2 UltraServers 提供 4 倍的性能,幫助客戶加快模型的迭代速度,并在部署時(shí)提供卓越的實(shí)時(shí)性能。首批基于 Trainium3 的實(shí)例預(yù)計(jì)將在 2025 年末上線,將進(jìn)一步推動(dòng) AI 訓(xùn)練技術(shù)的進(jìn)步。
橫向擴(kuò)展創(chuàng)新:突破性網(wǎng)絡(luò)架構(gòu)與路由協(xié)議,提升 AI 訓(xùn)練效率
隨著 AI 集群規(guī)模的不斷擴(kuò)大,數(shù)據(jù)傳輸和網(wǎng)絡(luò)效率變得愈發(fā)重要。正如 Peter Desantis 所言,“在 AI 集群的世界里,時(shí)間就是金錢?!睘榱藨?yīng)對(duì)大規(guī)模 AI 訓(xùn)練的挑戰(zhàn),亞馬遜云科技在橫向擴(kuò)展方面進(jìn)行了重要?jiǎng)?chuàng)新,推出了帶寬高達(dá) 10Pb/s、延遲低于 10ms 的 10p10u 網(wǎng)絡(luò)架構(gòu)。
這一架構(gòu)通過將 16 根光線電纜整合成單一連接器,在工廠完成復(fù)雜組裝,從而減少了 54% 的安裝時(shí)間。定制的光纖插頭和光纖電纜確保了網(wǎng)絡(luò)連接在機(jī)架到達(dá)數(shù)據(jù)中心前就已進(jìn)行全面測(cè)試和驗(yàn)證,避免了調(diào)試布線的時(shí)間浪費(fèi),同時(shí)保護(hù)接口免受灰塵侵入。這些創(chuàng)新不僅提高了集群間的數(shù)據(jù)傳輸速度,也顯著縮短了模型訓(xùn)練所需的時(shí)間。過去 12 個(gè)月,亞馬遜云科技已安裝超過 300 萬條鏈路,使其成為擴(kuò)展速度最快的網(wǎng)絡(luò)之一。

此外,亞馬遜云科技還推出了全新的 SIDR(Scalable,Intent Driven Routing)路由協(xié)議。傳統(tǒng)網(wǎng)絡(luò)協(xié)議在光鏈路發(fā)生故障時(shí),恢復(fù)速度較慢,影響 AI 集群的高效運(yùn)轉(zhuǎn)。SIDR 協(xié)議結(jié)合了集中控制和去中心化響應(yīng),能夠在故障發(fā)生時(shí)更迅速地恢復(fù)網(wǎng)絡(luò)。通過預(yù)先生成“網(wǎng)絡(luò)意圖”,中央控制器可以將其推送到各交換機(jī),確保交換機(jī)在故障發(fā)生時(shí)能自主決策并快速恢復(fù)網(wǎng)絡(luò)。與傳統(tǒng)的 BGP 和 OSPF 協(xié)議相比,SIDR 能夠在不到 1 秒內(nèi)恢復(fù)網(wǎng)絡(luò),速度是傳統(tǒng)方法的 10 倍,大大提高了 AI 訓(xùn)練的可靠性和實(shí)時(shí)性。
通過這一系列的創(chuàng)新,亞馬遜云科技有效解決了 AI 集群中網(wǎng)絡(luò)故障恢復(fù)慢和數(shù)據(jù)傳輸瓶頸的問題,顯著提升了 AI 訓(xùn)練的效率與可靠性。無論在故障發(fā)生時(shí)的快速恢復(fù),還是在確保高效運(yùn)行方面,這些技術(shù)都為大規(guī)模 AI 計(jì)算提供了堅(jiān)實(shí)的支持。
綠色創(chuàng)新:高效冷卻系統(tǒng)與低碳設(shè)計(jì),推動(dòng)云基礎(chǔ)設(shè)施可持續(xù)發(fā)展
在推動(dòng)云計(jì)算和 AI 技術(shù)發(fā)展的同時(shí),綠色可持續(xù)性已成為亞馬遜云科技基礎(chǔ)設(shè)施創(chuàng)新的重要考量。隨著數(shù)據(jù)處理能力和服務(wù)器功率密度的不斷提升,如何在滿足日益增長的計(jì)算需求的同時(shí)降低能源消耗和環(huán)境影響,已成為亞馬遜云科技面臨的關(guān)鍵挑戰(zhàn)。
為應(yīng)對(duì)這一挑戰(zhàn),亞馬遜云科技持續(xù)優(yōu)化數(shù)據(jù)中心設(shè)施,推出了簡(jiǎn)化的電氣分配和機(jī)械系統(tǒng)設(shè)計(jì),提升了基礎(chǔ)設(shè)施的可用性,達(dá)到了 99.9999% 的高可靠性。這些改進(jìn)不僅減少了電氣故障對(duì)機(jī)架的影響,還通過優(yōu)化電力分配降低了故障發(fā)生的頻率。簡(jiǎn)化的系統(tǒng)不僅降低了復(fù)雜度,還增強(qiáng)了系統(tǒng)的穩(wěn)定性,從而確保了數(shù)據(jù)中心在運(yùn)營過程中的高效可靠性。
此外,亞馬遜云科技還在冷卻系統(tǒng)、機(jī)架設(shè)計(jì)和控制系統(tǒng)方面進(jìn)行了一系列創(chuàng)新。為滿足 AI 芯片對(duì)高密度計(jì)算的需求,亞馬遜云科技引入了液體冷卻系統(tǒng),并在現(xiàn)有和新建數(shù)據(jù)中心中實(shí)施了“液體到芯片”的冷卻方案,將空氣冷卻和液體冷卻無縫集成,可以高效支持 AI 工作負(fù)載,同時(shí)降低運(yùn)營成本。新型冷卻系統(tǒng)不僅適用于如 Amazon Trainium2 AI 芯片,還能支持傳統(tǒng)工作負(fù)載,確保不同應(yīng)用場(chǎng)景下的最佳性能和效率。
為了進(jìn)一步提升高密度 AI 工作負(fù)載的支持能力,亞馬遜云科技優(yōu)化了數(shù)據(jù)中心的機(jī)架布局和電力傳輸系統(tǒng),預(yù)計(jì)未來兩年內(nèi)機(jī)架功率密度將提高 6 倍,顯著提升計(jì)算能力。同時(shí),亞馬遜云科技還通過數(shù)據(jù)和生成式 AI 驅(qū)動(dòng)的軟件,精確預(yù)測(cè)服務(wù)器的最佳部署方式,從而最大化電力使用效率。
在建筑設(shè)計(jì)方面,亞馬遜云科技采用了低碳鋼和低碳混凝土,將數(shù)據(jù)中心的碳排放降低了 35%。此外,亞馬遜云科技還在備用發(fā)電機(jī)中使用可再生柴油,這種生物降解且無毒的燃料能將溫室氣體排放量減少 90%,進(jìn)一步推動(dòng)了綠色計(jì)算和可持續(xù)發(fā)展的目標(biāo)。
結(jié)語
Peter 表示,“持續(xù)的領(lǐng)先,來自于對(duì)硬件細(xì)節(jié)極致的追求?!蓖ㄟ^在芯片、網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)中心設(shè)計(jì)等多個(gè)維度的持續(xù)創(chuàng)新,亞馬遜云科技不僅提升了自身云計(jì)算基礎(chǔ)設(shè)施的技術(shù)水平,也推動(dòng)了整個(gè)行業(yè)的發(fā)展。
這些創(chuàng)新不僅讓亞馬遜云科技在市場(chǎng)競(jìng)爭(zhēng)中占據(jù)了技術(shù)領(lǐng)先地位,也為客戶提供了更強(qiáng)大、更靈活、更高效的服務(wù)支持,幫助各行各業(yè)加速數(shù)字化轉(zhuǎn)型。亞馬遜云科技的基礎(chǔ)設(shè)施創(chuàng)新,正不斷推動(dòng)著云計(jì)算和 AI 領(lǐng)域的技術(shù)進(jìn)步,改變著全球科技的格局。






























