AI與芯片的共生飛輪:NVIDIA的加速帝國
一、芯片和 AI 左腳踩右腳飛升
看幾個新聞:
- 9月22日,英偉達宣布與OpenAI達成價值1000億美元的協(xié)議,英偉達將投資OpenAI并為其構(gòu)建100億瓦的AI數(shù)據(jù)中心。
- 10月6日,OpenAI與AMD宣布在AI基礎(chǔ)設(shè)施領(lǐng)域達成里程碑式合作,雙方將會通過“技術(shù)+股權(quán)”的深度綁定模式,構(gòu)建長期戰(zhàn)略協(xié)同的關(guān)系。具體來說,OpenAI計劃將在未來幾年部署總計60億瓦的AMD GPU算力,而為了強化戰(zhàn)略利益一致性,AMD直接向OpenAI發(fā)行了最多1.6億股普通股,這將讓OpenAI最多持有AMD約10%的股權(quán)。
兩家龍頭芯片公司,NVIDIA 和 AMD 開始和 OpenAI 抱團,左腳踩右腳飛升了。
二、黃教主的野望:通用計算推向加速計算
黃仁勛 9 月 26 日在接受 BG2 采訪,再次提了將通用計算推向加速計算,將軟件從人類編寫演進到AI編寫。
AI 的增長最初來自模型訓(xùn)練,規(guī)模持續(xù)增長。當(dāng)前是推理,主要增長動力來自用戶數(shù)和單次使用量:
- 第一個指數(shù)增長來自用戶數(shù)量,因為 AI 效果越來越好,應(yīng)用場景不斷豐富,幾乎所有應(yīng)用都在接入 OpenAI,導(dǎo)致使用量爆炸式增長。
- 第二個指數(shù)增長來自單次使用的計算量。因為 AI 不再是‘一次性’推理,而是需要‘思考’后才能回答。這兩個指數(shù)增長疊加,導(dǎo)致他們的算力需求呈復(fù)合式增長。
下一個市場是傳統(tǒng)數(shù)據(jù)處理,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。很快,NVIDIA將宣布一項重大的加速數(shù)據(jù)處理計劃。目前,數(shù)據(jù)處理消耗了全球絕大多數(shù)的 CPU 算力,并且仍然完全運行在 CPU 上。 Databricks、Snowflake,絕大多數(shù)是 CPU;Oracle 的 SQL 處理,絕大多數(shù)也是 CPU。每個人都在使用 CPU 進行 SQL 查詢,處理結(jié)構(gòu)化數(shù)據(jù)。未來,這一切都將轉(zhuǎn)向由 AI 處理數(shù)據(jù)。NVIDIA 所做的一切都需要一個加速層,需要特定領(lǐng)域的數(shù)據(jù)處理庫和方法。
1.“加速計劃”的核心是什么?
這個計劃的核心,是將目前幾乎完全由CPU主導(dǎo)的數(shù)據(jù)處理工作負載,全面遷移到NVIDIA的加速計算平臺上來。它包含“硬件”和“軟件”兩個層面。
a. 硬件層面:從“GPU”到“數(shù)據(jù)中心加速器”的整體方案
NVIDIA提供的不再僅僅是GPU,而是一個由三部分組成的、協(xié)同工作的“數(shù)據(jù)中心加速單元”:
- GPU (圖形處理器): 提供無與倫比的并行計算能力,用于執(zhí)行大規(guī)模的數(shù)據(jù)轉(zhuǎn)換、查詢和計算。
- DPU (數(shù)據(jù)處理器 - BlueField): 專門負責(zé)處理數(shù)據(jù)中心的東西向流量、網(wǎng)絡(luò)、存儲和安全任務(wù)。它將傳統(tǒng)上由CPU承擔(dān)的“數(shù)據(jù)中心操作系統(tǒng)”的雜活“卸載”下來,讓CPU和GPU能更專注于計算任務(wù)本身。
- 高速互聯(lián) (NVLink / InfiniBand): 像神經(jīng)網(wǎng)絡(luò)一樣,將成千上萬的GPU和DPU高速連接在一起,形成一個整體的、超高性能的計算結(jié)構(gòu)。
這個硬件組合的戰(zhàn)略意圖是:在數(shù)據(jù)中心里,將CPU的角色邊緣化,使其從“主角”降級為處理串行任務(wù)和系統(tǒng)管理的“配角”。
b. 軟件層面:為數(shù)據(jù)處理打造一個新的“CUDA”——RAPIDS
這是整個計劃的靈魂。硬件再強,沒有軟件生態(tài)也無法成功。NVIDIA正在復(fù)制其在AI領(lǐng)域的成功 playbook:
- CUDA的成功: CUDA是一個讓開發(fā)者能夠用類似C++的語言,輕松地在GPU上進行通用計算的軟件平臺。正是CUDA,釋放了GPU的潛力,才引爆了深度學(xué)習(xí)革命。
- 新的“CUDA”——RAPIDS: 黃仁勛提到的“特定領(lǐng)域的數(shù)據(jù)處理庫和方法”,指的就是以 RAPIDS 為核心的開源軟件棧。RAPIDS的目標(biāo),是提供一套與當(dāng)今最流行的數(shù)據(jù)科學(xué)生態(tài)(如Pandas, Scikit-learn)API兼容的、但在底層完全由GPU加速的替代方案。
- cuDF: 一個GPU加速版的Pandas,用于處理結(jié)構(gòu)化數(shù)據(jù)(DataFrame)。
- cuML: 一個GPU加速版的Scikit-learn,用于傳統(tǒng)的機器學(xué)習(xí)任務(wù)。
- cuGraph: 一個GPU加速版的NetworkX,用于圖分析。
- Spark-RAPIDS: 一個讓Apache Spark能夠無縫利用GPU進行加速的插件。
2.為什么現(xiàn)在提出這個計劃?
這個計劃是NVIDIA在正確的時間,做出的一個極具遠見的戰(zhàn)略選擇。
a、AI的成功鋪平了道路:
全世界的數(shù)據(jù)中心已經(jīng)因為AI的需求,采購和部署了大量的NVIDIA GPU。NVIDIA現(xiàn)在可以順理成章地對這些客戶說:“你們已經(jīng)為AI推理部署了強大的GPU,為什么讓它們在空閑時等待?用它們來加速你們的數(shù)據(jù)處理,可以讓整個工作流效率提升10倍!”這是一個無法抗拒的價值主張。
b、數(shù)據(jù)處理是AI的“前傳”,也是最大的瓶頸:
業(yè)界公認,數(shù)據(jù)科學(xué)家花費了近80%的時間在數(shù)據(jù)準(zhǔn)備和清洗上。這個過程目前幾乎完全運行在CPU上,速度慢且效率低。通過加速這個“前傳”,NVIDIA不僅能讓AI開發(fā)的全流程受益,還能反過來刺激更多的AI應(yīng)用落地,從而賣出更多的GPU,形成一個完美的商業(yè)飛輪。
c、開辟萬億級新市場:
黃仁勛明確點出了Databricks, Snowflake, Oracle。這些公司所代表的、以SQL為核心的結(jié)構(gòu)化數(shù)據(jù)處理市場,是一個規(guī)模數(shù)萬億美元、且至今仍被CPU(主要是Intel和AMD)牢牢統(tǒng)治的領(lǐng)域。對NVIDIA來說,這是一個比現(xiàn)有AI訓(xùn)練市場大一個數(shù)量級的全新增長空間。
3.這個計劃將帶來什么改變?
如果這個計劃成功,將從根本上重構(gòu)整個企業(yè)計算市場:
- 對于數(shù)據(jù)平臺(Databricks, Snowflake): 他們別無選擇,必須深度擁抱GPU加速。事實上,他們已經(jīng)開始行動。例如,Databricks的Photon引擎已經(jīng)集成了RAPIDS。未來,誰能更好地利用GPU,誰就能在性能和成本上獲得決定性優(yōu)勢。
- 對于傳統(tǒng)數(shù)據(jù)庫(Oracle, SQL Server): 這是釜底抽薪式的打擊。如果GPU數(shù)據(jù)庫在處理海量數(shù)據(jù)查詢時,能比傳統(tǒng)CPU數(shù)據(jù)庫快10-100倍,且成本更低,那么后者的核心價值主張將被嚴重削弱。
- 對于CPU廠商(Intel, AMD): 這是對其數(shù)據(jù)中心核心業(yè)務(wù)的直接挑戰(zhàn)。未來,數(shù)據(jù)中心可能不再以采購CPU的數(shù)量為核心指標(biāo),而是以采購“NVIDIA加速計算單元”的數(shù)量為核心。CPU的角色將被大大削弱。
- 對于開發(fā)者和數(shù)據(jù)科學(xué)家: 工作體驗將發(fā)生巨變。過去需要跑一個通宵的ETL任務(wù)或復(fù)雜查詢,未來可能只需要幾分鐘。數(shù)據(jù)工程和AI工程之間的界限將徹底模糊。
三、總結(jié)和未來展望
黃仁勛口中的“加速計劃”,是NVIDIA試圖將其在AI計算領(lǐng)域的“專制”地位,擴展到整個數(shù)據(jù)處理領(lǐng)域的“帝國藍圖”。
這是一個宣言:數(shù)據(jù)中心的未來不屬于CPU或GPU的單打獨斗,而屬于一個由GPU、DPU和高速互聯(lián)構(gòu)成的、軟硬件一體的“加速計算”架構(gòu)。 在這個架構(gòu)里,CPU負責(zé)它擅長的部分,而所有高價值、大規(guī)模的并行數(shù)據(jù)處理任務(wù),都將在NVIDIA的平臺上完成。這是NVIDIA從一家“芯片公司”,邁向一家“未來計算平臺公司”的最關(guān)鍵一步。































