編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
Pytorch 贏了。
大家可能沒注意到,現(xiàn)在每一款與你互動的Chatbot,背后運行的都是 PyTorch??梢哉f,它已經(jīng)成為了主流LLM研發(fā)鏈路中事實上的標準。
首先,不管是大洋彼岸的OpenAI、Anthropic,還是國內(nèi)的通義千問、智譜、月之暗面,他們推出的大模型或開源實現(xiàn),都提供或偏好Pytorch框架。
OpenAI早在2020年就官方聲明中就明確表示將研究標準化在 PyTorch 平臺上,來提高研究迭代效率。
圖片
而從 OpenAI 出走的 Anthropic,也公開披露了對于 Pytorch 框架的偏好,甚至其研究團隊使用 PyTorch 來定義、訓練和推理他們的 Transformer 模型(包括 Claude 1~3 系列)。更夸張地是,Claude 甚至從未發(fā)布過TF版本,也沒有兼容的推理接口。其生態(tài)完全圍繞 PyTorch 和 CUDA 展開。
圖片
甚至擁有TensorFlow、JAX 的谷歌,也毫不避諱地在自己官方文檔中將推出 Gemma 運行在 Pytorch 上的教程。
圖片
國內(nèi)的大模型頂流們,亦是如此。阿里的Qwen、智譜的ChatGLM、月暗的 Kimi,社區(qū)上沒有發(fā)現(xiàn)TF版本,甚至官方技術說明都為提到TF。
圖片
可以說現(xiàn)在除了谷歌系模型(也用最新的JAX,而不是TF),幾乎所頂流大模型公司都在采用Pytorch作為首選。而 TensorFlow 目前更多“活”在移動端、課本和教程視頻上。
那么,為什么 Pytorch 贏了?
這個問題,相信每一位在用Pytorch的朋友,都有自己的答案。
但要回答好這個問題,沒有比Pytorch最早的參與成員來回答更合適了。
上周,于舊金山舉行的 PyTorch 2025 年大會 上, PyTorch 基金會技術顧問委員會的主席 Luca Antiga 發(fā)表了事關 Pytorch 長遠發(fā)展的重要觀點。Luca 不僅是最早參與撰寫 PyTorch 論文的團隊成員之一,還共同編寫了《Deep Learning with PyTorch》一書。
這就為大家梳理下 Luca 的發(fā)言內(nèi)容。
研究者友好的“Pythonic”設計
擁有生物醫(yī)學工程學術背景的 Luca 指出,PyTorch 之所以能迅速流行,是因為它對研究者非常友好。許多早期用戶都是學術界的研究人員,后來他們進入工業(yè)界,也將 PyTorch 帶了進去。
它非常 Pythonic。在過去,雖然很多框架號稱用 Python,但你實際上需要寫一種‘元語言’,讓代碼和問題本身之間多了一層隔閡,調試也更困難。
而 PyTorch 在這方面是革命性的,它把 Python 的易用性、快速迭代能力,以及那種‘先干起來’的精神,帶進了神經(jīng)網(wǎng)絡、反向傳播和 GPU 計算的世界。
從神經(jīng)網(wǎng)絡到生成式 AI,PyTorch 始終在牌桌上
PyTorch 誕生之初,行業(yè)的重心還在神經(jīng)網(wǎng)絡,主要用于圖像識別或情感分析。直到 ChatGPT 出現(xiàn),生成式 AI 才讓公眾真正意識到 AI 的潛力。但 Antiga 認為,PyTorch 從未“過時”。
無論經(jīng)歷了多少次技術革命,你總能看到 PyTorch 的身影。
當然,還有像 JAX 這樣的強勁對手,但相比之下,PyTorch 已經(jīng)發(fā)展成一整個產(chǎn)業(yè)的基石,它支撐起整個生態(tài)。
如今,PyTorch 不再只是訓練模型的工具,它也成為 模型推理階段的核心。
看看現(xiàn)在最流行的推理框架——vLLM、SGLang——它們都在用 PyTorch,而且是用在生產(chǎn)環(huán)境里的。
今天你與任何一個聊天機器人互動時,很可能后臺運行的就是 PyTorch。
強化學習讓 PyTorch 再次走在前列
近來 PyTorch 人氣再度攀升的另一個原因,是 強化學習 的廣泛應用。強化學習通過“獎勵正確行為、懲罰錯誤行為”的方式,來微調預訓練的大語言模型(LLM),而 PyTorch 對這類任務也特別契合。
強化學習會鼓勵模型在面對環(huán)境時,做出能帶來更大獎勵的行動。
PyTorch 的靈活性非常適合在這種動態(tài)、交互式的場景下使用。
PyTorch 基金會的最新動向
至于 PyTorch 基金會本身,值得注意的是,幾個月前它剛開始接納更多項目,首先是 vLLM 和 DeepSpeed。如今,隨著分布式計算框架 Ray 的加入,基金會旗下已有四個重要項目。
但 Luca 強調,基金會并不打算變成一個“巨型傘形組織”。
我最關心的是生態(tài)系統(tǒng)里的用戶——他們在進入由 PyTorch 基金會“背書”的生態(tài)時,會經(jīng)歷怎樣的旅程?
我的目標是讓他們能成功。
個人最關心的AI突破方向:LLM微型化
如今,大模型狂奔向前,哪些研究方向值得關注呢?
Luca非常篤定地表達了自己的看法:現(xiàn)在的大模型還是太笨重了,雖然能用,但成本消耗巨大。
我一直覺得,人類其實在做一件驚人的事:我們在訓練一種“類比機器”,一種不需要精確指令、能通過模式和類比自我推理的機器。
但我們現(xiàn)在造的這臺“飛行機器”,更像是靠一堆齒輪和螺旋槳的龐然大物——能飛,卻笨重。真正的“飛行證明”其實是鳥類。
人類大腦才是我們真正的“對照組”——我們的大腦在思考時消耗的能量極低,卻能完成復雜的推理。
未來的突破方向,是能否把LLM那種龐大結構“微型化”,讓模型能從頭到尾學習,而不需要如此多的顯存與能量。
PS:這一點毫不夸張,現(xiàn)在就連個體開發(fā)者都可能在代碼工具上開銷達上萬美元。
“這讓我非常著迷。我不確定PyTorch基金會是否會沿這個方向演進,但我個人對此充滿熱情?!?/p>
對于這個方向,Luca 也正在身體力行地做出了很多投入。Luca 還是 Lightning AI的首席技術官,他們團隊提供了一個PyTorch友好的訓推平臺,其中很多客戶更大的訴求就是:想盡可能優(yōu)化每一份資源的使用。
所以,我們非常關注訓練與推理的全鏈路優(yōu)化,從GPU核心層到數(shù)據(jù)加載、任務調度、流式處理,每一層都可能成為瓶頸。
有時你卡在數(shù)據(jù)加載,有時是計算沒有并行,有時是模型本身沒調優(yōu)。要真正優(yōu)化性能,得從端到端去分析。
我們也希望幫助開發(fā)者提高算力利用率,讓他們能在研發(fā)之外,用得其所。
好了,文章到這里結束了。目前,PyTorch 已經(jīng)成為全球 AI 模型的“操作系統(tǒng)”。無論是研究者造模型,還是企業(yè)部署模型,底層框架首選,當之無愧。
大家如何看待Pytorch的王者之路呢?































