AI 成本賬:LLM 推理成本鏈條分析
一、背景
最近看到 SemiAnalysis 團隊制作了一個《AI Token Factory Economics Stack》的圖片(來自 SemiAnalysis (@SemiAnalysis_) / X [1]),深入分析了 LLM 推理成本鏈條中各個參與者的成本與利潤情況,涵蓋從硬件資本支出(Neocloud)、推理服務(wù)提供商(Inference Providers)到終端應(yīng)用層(Applications)的全棧視角,并且以 H200 GPU 為例,進行定量分析。

考慮到之前主要關(guān)注整體的 CapEx(資本成本)和 Opex(運維成本),因此借此機會進一步理解成本計算的相關(guān)邏輯和方式。
二、Neocloud(基礎(chǔ)設(shè)施)
Neocloud 主要是云廠商,提供 GPU 租賃服務(wù),比如 Lambda、Vast.ai、Oracle Cloud 等。
2.1 關(guān)鍵概念
Capital Cost per GPU(資本支出):可以理解為一次性支出的買入價,是資產(chǎn)價格。
Colocation Cost(托管成本):指將 GPU 服務(wù)器放入一個已有數(shù)據(jù)中心機房中,由該數(shù)據(jù)中心提供電力、冷卻、物理空間、安全、網(wǎng)絡(luò)接入等基礎(chǔ)設(shè)施服務(wù)所需支付的費用。簡單理解就是:“我出設(shè)備,你出機房+電力+空調(diào)+網(wǎng)絡(luò),我按月支付托管費用?!?/p>
Cost of Capital(資本成本率):使用這筆資金(一次性支出的資產(chǎn)成本)必須計算“時間成本”,比如一個企業(yè)獲得一個 GPU 有兩種方式:
- 現(xiàn)金購買 GPU(自有資金):這些錢本可以去買理財、股票,比如年回報 ≥13.3%。
- 貸款買 GPU(外部融資):銀行利率是 13.3%。
2.2 數(shù)據(jù)指標(biāo)
核心數(shù)據(jù):
- Capital Cost per GPU(每張 H200 GPU 的資本支出):$34,698
- Colocation Cost(托管成本):$130 / kW / 月
- Electricity Cost(電費):$0.087 / kWh
- Cost of Capital(資本成本率):13.3%/年
- 這些值用于計算 GPU 的總擁有成本(TCO)為: $1.66/hr/GPU。
收益指標(biāo):
- Neocloud Pre-tax Profit Margin(稅前利潤率):16.8%
- Neocloud Rental Price(對外出租價格):$2.00/hr/GPU
總結(jié):說明云廠商通過租賃 GPU,可以獲得 16.8% 的利潤空間。
2.3 計算方式
2.3.1 CapEx
其中的 Capital Cost per GPU 和 Cost of Capital 共同構(gòu)成了我們常說的 CapEx,通常將其在 GPU 的使用生命周期內(nèi)進行攤銷。業(yè)內(nèi)常見最短的攤銷周期是 3 年,主要是 AI 硬件的更新迭代周期往往不會超過 3 年;AI 模型、應(yīng)用場景也在不斷演進,3 年后通常也會有更有性價比的 GPU 出現(xiàn)。然而,即使新的 GPU 開始投入使用,上一代 GPU 仍可持續(xù)發(fā)揮一定性能價值。在公司內(nèi),通常會進一步將攤銷周期延長到 4 年甚至 5 年。
如果按照 3 年的攤銷周期,則相應(yīng)的成本為:
34698*(1+13.3%*3)/(3 * 365 * 24) = $1.847/hr/GPU
如果按照 4 年的攤銷周期,則相應(yīng)的成本為:
34698*(1+13.3%*4)/(4 * 365 * 24) = $1.517/hr/GPU
如果按照 5 年的攤銷周期,則相應(yīng)的成本為:
34698*(1+13.3%*5)/(5 * 365 * 24) = $1.319/hr/GPU
當(dāng)然,有些時候也會采用年金法按固定時間周期(比如每年)平均“攤銷”,則對應(yīng)的年金 A 可以表述為(假設(shè)還是按照 4 年的攤銷周期):

則相應(yīng)的成本為:
11928/(365*24) = $1.362/hr/GPU
2.3.2 Opex
其中 Opex 主要對應(yīng)上述的 Colocation Cost 和 Electricity Cost,折算到每 GPU 每小時的成本為:
Colocation Cost:130 / 30 / 24 ≈ $0.181/hr/GPU
Electricity Cost:0.7kW × $0.087 = $0.061/hr/GPU
0.181 + 0.061 = $ 0.242/hr/GPU?
?2.3.3 TCO
基于上述 CapEx 和 Opex 可以推出大概的 TCO(Total Cost of Ownership)為:
3 年期攤銷:1.847 + 0.242 = $2.089/hr/GPU
4 年期攤銷:1.517 + 0.242 = $1.759/hr/GPU
5 年期攤銷:1.319 + 0.242 = $1.561/hr/GPU
4 年期攤銷(年金法):1.362 + 0.242 = $1.604/hr/GPU
而上述表格中估計的 TCO 為 $1.66/hr/GPU,而實際的租賃價格 Neocloud Rental Price 為 $2/hr/GPU。由此可見,以約 4 年期攤銷為基礎(chǔ)的成本估算較為合理,按照上述價格,Neocloud 大概有 16.8% 的利潤空間。?
2.4 補充
?需要說明的是,隨著供需關(guān)系變化、硬件及算法的迭代,GPU 租賃的價格往往會隨著時間的發(fā)展逐漸降低,上述只是比較粗略的計算方式。
比如說,H100 剛上市時的租賃價格甚至高達(dá) $8/hr/GPU,一年前也有 $4-$5 左右。如下圖所示,一年前 Lepton AI 上 H100 的租賃價格為 $4.2/hr/GPU。?

而現(xiàn)在(更新于 2025 年 6 月 25 日)很多云廠商的價格已經(jīng)下降到 $2-$3 之間。此外,對于大客戶或長期租賃通常還能拿到更低的價格(來自:Nvidia H100 - GPU Price Comparison [2]):

三、Inference Provider(推理服務(wù)提供商)
3.1 資產(chǎn)成本與利用率
?其中的主要成本是 GPU 租賃成本,也就是上述由 Neocloud 決定的 $2.00/hr/GPU。
租賃的 GPU 不可能 100% 使用,對于 Online 流量(比如 OpenAI 的在線 Chat 場景),受流量波動影響,GPU 難以實現(xiàn)持續(xù)滿負(fù)荷運行。此時,可以考慮使用 Offline 流量(比如 Batch Process,當(dāng)然價格可能更便宜)來充分利用波谷的空閑資源。圖中作者簡化為 Effective Utilization Rate(有效利用率)為 75%,也就是 GPU 只有 75% 的有效使用。?
3.2 推理成本

3.3 銷售定價 & 利潤率
?在資產(chǎn)成本與利用率確定的情況下,Inference Provider 想要提升利潤率的主要手段就是提升 LLM 推理性能,降低推理成本。這里作者以 TRT-LLM 框架為例,使用 FP8 推理,以保證盡可能的高效推理。以 1K 輸入 + 4K 輸出(總共 5K Token)為例,其推理耗時 190s,吞吐可以達(dá)到 442 Tokens/s/GPU。
基于上述數(shù)據(jù)可以推算出:
有效 Tokens/hr/GPU:442 * 3600 * 75% = 1,193,400
考慮到 GPU 租賃成本為 $2,則每百萬 Token 成本為:
Inference Compute Cost:2 / 1,193,400 * 1,000,000 = $1.676
相比于輸入、輸出 Token 按照相同價格計費的方式,輸入輸出分別計價的方式會更加靈活,比如 OpenAI 就是這種方式。并且其早期的定價策略為:輸出價格為輸入價格的 3 倍。后來都改成 4 倍,如下圖所示。對于用戶而言,如果是長輸入、短輸出的場景(比如文獻(xiàn)總結(jié)、知識庫等),使用這種方式也許可以獲得更低的總成本。?
四、Application(應(yīng)用產(chǎn)品)
Application 主要是 ChatGPT、Perplexity、Claude、Notion AI、Cursor 等終端產(chǎn)品。
4.1 用戶層面關(guān)鍵數(shù)據(jù)
假設(shè)每個用戶每月使用 Token 數(shù)量為:6M Tokens。
Token 單價為:$2.00 / M Tokens。
每月活躍用戶數(shù)(MAU)為:1.8M。
月均用戶收入(Average Revenue per User):$20。
4.2 利潤率
基于上述數(shù)據(jù)可以得出:
每月每用戶毛利(Gross profit per User per Month):20 - 6 * 2 = $8
應(yīng)用層毛利率(Application Gross Margin):(20 - 8) / 20 = 40%
五、利潤率優(yōu)化
考慮到上述 3 層中每一層都需要保留比較可觀的利潤率,那么針對不同的“用戶”也就可以針對性的采用相應(yīng)的方案來降低成本。
5.1 個人或小規(guī)模初創(chuàng)公司
對于個人或小規(guī)模初創(chuàng)公司,可以考慮從直接使用按月付費的應(yīng)用切換為使用推理服務(wù)提供商的 API,然后接入支持自定義 API 的應(yīng)用或者開源替代,甚至可以考慮自研應(yīng)用。
當(dāng)然,直接使用推理服務(wù)提供商的 API 也存在一定問題,例如可能帶來額外的模型切換成本。此時也可以考慮 OpenRouter 這類 AI 模型聚合 + API 中介平臺。它類似于 AI 模型的 API 市場,為開發(fā)者和用戶提供各種 LLM 的統(tǒng)一入口,用戶通過一個統(tǒng)一的 API,就能調(diào)用多個不同廠商的模型,減少開發(fā)和切換成本。
OpenRouter 這類平臺主要靠如下幾種模式獲得利潤:
- API 調(diào)用抽成 / 加價(最主要)
對通過平臺調(diào)用模型的 API 收取費用,并在推理服務(wù)提供商的價格基礎(chǔ)上加價。
允許開發(fā)者主動注冊并接入自有模型,平臺提供計費、鑒權(quán)等能力,并從其中抽成。
- 用戶訂閱 / 使用套餐
類似于 OpenAI 的包月服務(wù)。
- 增值服務(wù)
比如提供額外的日志、統(tǒng)計分析、鑒權(quán)等服務(wù)。
5.2 中型公司
對于中等規(guī)模的公司,可以考慮進一步跳過推理服務(wù)提供商,直接從 Neocloud 廠商租賃 GPU,然后獨立部署相應(yīng)的模型。當(dāng)然,這個前提是使用的開源模型或者自研的模型。
針對這個場景,也需要“用戶”儲備相應(yīng)的 LLM 部署、優(yōu)化能力,并且購買或者自建相應(yīng)的依賴組件。
5.3 大型公司
對于大型公司或者有巨大流量的中小型公司,直接跳過上述的 3 層,自建 IDC 必然是最優(yōu)的選擇,可以直接將成本降到最低。當(dāng)然,也會帶來額外的負(fù)擔(dān):
- 一次性投入成本大。
- 相應(yīng)的人力成本、運維成本增加。
- 彈性擴展能力降低,比如 Neocloud 上可以快速 Scale-out,而自建 IDC 需要考慮更長遠(yuǎn)的規(guī)劃。(PS:這也是各大廠既有自用 IDC,又有公有云的一個顯著優(yōu)勢)
- 資源利用率低,需要考慮容災(zāi),也會有各種各樣的場景,整體資源利用率可能不如預(yù)期。
自建 IDC 也有兩種常見的方式,一種是完全自建,還有一種是租用機房并托管自有服務(wù)器的方式。
資源利用率可從兩個維度衡量:其一是 GPU 的使用率(例如 GPU Util);其二是算力利用效率(如 Tensor Active 或 MFU 指標(biāo))。
本文轉(zhuǎn)載自??AI閑談????,作者:AI閑談

















