偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI 成本賬:LLM 推理成本鏈條分析

發(fā)布于 2025-7-11 07:20
瀏覽
0收藏


一、背景

最近看到 SemiAnalysis 團隊制作了一個《AI Token Factory Economics Stack》的圖片(來自 SemiAnalysis (@SemiAnalysis_) / X [1]),深入分析了 LLM 推理成本鏈條中各個參與者的成本與利潤情況,涵蓋從硬件資本支出(Neocloud)、推理服務(wù)提供商(Inference Providers)到終端應(yīng)用層(Applications)的全棧視角,并且以 H200 GPU 為例,進行定量分析。

AI 成本賬:LLM 推理成本鏈條分析-AI.x社區(qū)

考慮到之前主要關(guān)注整體的 CapEx(資本成本)和 Opex(運維成本),因此借此機會進一步理解成本計算的相關(guān)邏輯和方式。

二、Neocloud(基礎(chǔ)設(shè)施)

Neocloud 主要是云廠商,提供 GPU 租賃服務(wù),比如 Lambda、Vast.ai、Oracle Cloud 等。

2.1 關(guān)鍵概念

Capital Cost per GPU(資本支出):可以理解為一次性支出的買入價,是資產(chǎn)價格。

Colocation Cost(托管成本):指將 GPU 服務(wù)器放入一個已有數(shù)據(jù)中心機房中,由該數(shù)據(jù)中心提供電力、冷卻、物理空間、安全、網(wǎng)絡(luò)接入等基礎(chǔ)設(shè)施服務(wù)所需支付的費用。簡單理解就是:“我出設(shè)備,你出機房+電力+空調(diào)+網(wǎng)絡(luò),我按月支付托管費用?!?/p>

Cost of Capital(資本成本率):使用這筆資金(一次性支出的資產(chǎn)成本)必須計算“時間成本”,比如一個企業(yè)獲得一個 GPU 有兩種方式:

  • 現(xiàn)金購買 GPU(自有資金):這些錢本可以去買理財、股票,比如年回報 ≥13.3%。
  • 貸款買 GPU(外部融資):銀行利率是 13.3%。

2.2 數(shù)據(jù)指標(biāo)

核心數(shù)據(jù):

  • Capital Cost per GPU(每張 H200 GPU 的資本支出):$34,698
  • Colocation Cost(托管成本):$130 / kW / 月
  • Electricity Cost(電費):$0.087 / kWh
  • Cost of Capital(資本成本率):13.3%/年
  • 這些值用于計算 GPU 的總擁有成本(TCO)為: $1.66/hr/GPU。

收益指標(biāo):

  • Neocloud Pre-tax Profit Margin(稅前利潤率):16.8%
  • Neocloud Rental Price(對外出租價格):$2.00/hr/GPU

總結(jié):說明云廠商通過租賃 GPU,可以獲得 16.8% 的利潤空間。

2.3 計算方式

2.3.1 CapEx

其中的 Capital Cost per GPU 和 Cost of Capital 共同構(gòu)成了我們常說的 CapEx,通常將其在 GPU 的使用生命周期內(nèi)進行攤銷。業(yè)內(nèi)常見最短的攤銷周期是 3 年,主要是 AI 硬件的更新迭代周期往往不會超過 3 年;AI 模型、應(yīng)用場景也在不斷演進,3 年后通常也會有更有性價比的 GPU 出現(xiàn)。然而,即使新的 GPU 開始投入使用,上一代 GPU 仍可持續(xù)發(fā)揮一定性能價值。在公司內(nèi),通常會進一步將攤銷周期延長到 4 年甚至 5 年。

如果按照 3 年的攤銷周期,則相應(yīng)的成本為:

34698*(1+13.3%*3)/(3 * 365 * 24) = $1.847/hr/GPU

如果按照 4 年的攤銷周期,則相應(yīng)的成本為:

34698*(1+13.3%*4)/(4 * 365 * 24) = $1.517/hr/GPU

如果按照 5 年的攤銷周期,則相應(yīng)的成本為:

34698*(1+13.3%*5)/(5 * 365 * 24) = $1.319/hr/GPU

當(dāng)然,有些時候也會采用年金法按固定時間周期(比如每年)平均“攤銷”,則對應(yīng)的年金 A 可以表述為(假設(shè)還是按照 4 年的攤銷周期):

AI 成本賬:LLM 推理成本鏈條分析-AI.x社區(qū)

則相應(yīng)的成本為:

11928/(365*24) = $1.362/hr/GPU

2.3.2 Opex

其中 Opex 主要對應(yīng)上述的 Colocation Cost 和 Electricity Cost,折算到每 GPU 每小時的成本為:

Colocation Cost:130 / 30 / 24 ≈ $0.181/hr/GPU

Electricity Cost:0.7kW × $0.087 = $0.061/hr/GPU

H100/H200 GPU 的峰值功耗為 700W,而 8 卡 DGX H100/H200 的峰值功耗為 10.2kW(還額外包括 CPU、散熱等其他組件)。實際整機的最大功耗通常只能達(dá)到 70%-80% 左右,因此平均到每個 GPU 的功耗可能在 1kW 左右,考慮到 GPU 并非始終滿載運行,且這里的電力成本占比相對較小,故依然按 700W 進行估算。綜上,總的 Opex 為:

0.181 + 0.061 = $ 0.242/hr/GPU?

?2.3.3 TCO

基于上述 CapEx 和 Opex 可以推出大概的 TCO(Total Cost of Ownership)為:

3 年期攤銷:1.847 + 0.242 = $2.089/hr/GPU

4 年期攤銷:1.517 + 0.242 = $1.759/hr/GPU

5 年期攤銷:1.319 + 0.242 = $1.561/hr/GPU

4 年期攤銷(年金法):1.362 + 0.242 = $1.604/hr/GPU

而上述表格中估計的 TCO 為 $1.66/hr/GPU,而實際的租賃價格 Neocloud Rental Price 為 $2/hr/GPU。由此可見,以約 4 年期攤銷為基礎(chǔ)的成本估算較為合理,按照上述價格,Neocloud 大概有 16.8% 的利潤空間。?

2.4 補充

?需要說明的是,隨著供需關(guān)系變化、硬件及算法的迭代,GPU 租賃的價格往往會隨著時間的發(fā)展逐漸降低,上述只是比較粗略的計算方式。

比如說,H100 剛上市時的租賃價格甚至高達(dá) $8/hr/GPU,一年前也有 $4-$5 左右。如下圖所示,一年前 Lepton AI 上 H100 的租賃價格為 $4.2/hr/GPU。?

AI 成本賬:LLM 推理成本鏈條分析-AI.x社區(qū)

而現(xiàn)在(更新于 2025 年 6 月 25 日)很多云廠商的價格已經(jīng)下降到 $2-$3 之間。此外,對于大客戶或長期租賃通常還能拿到更低的價格(來自:Nvidia H100 - GPU Price Comparison [2]):

AI 成本賬:LLM 推理成本鏈條分析-AI.x社區(qū)

三、Inference Provider(推理服務(wù)提供商)

3.1 資產(chǎn)成本與利用率

?其中的主要成本是 GPU 租賃成本,也就是上述由 Neocloud 決定的 $2.00/hr/GPU。

租賃的 GPU 不可能 100% 使用,對于 Online 流量(比如 OpenAI 的在線 Chat 場景),受流量波動影響,GPU 難以實現(xiàn)持續(xù)滿負(fù)荷運行。此時,可以考慮使用 Offline 流量(比如 Batch Process,當(dāng)然價格可能更便宜)來充分利用波谷的空閑資源。圖中作者簡化為 Effective Utilization Rate(有效利用率)為 75%,也就是 GPU 只有 75% 的有效使用。?

3.2 推理成本

AI 成本賬:LLM 推理成本鏈條分析-AI.x社區(qū)

3.3 銷售定價 & 利潤率

?在資產(chǎn)成本與利用率確定的情況下,Inference Provider 想要提升利潤率的主要手段就是提升 LLM 推理性能,降低推理成本。這里作者以 TRT-LLM 框架為例,使用 FP8 推理,以保證盡可能的高效推理。以 1K 輸入 + 4K 輸出(總共 5K Token)為例,其推理耗時 190s,吞吐可以達(dá)到 442 Tokens/s/GPU。

基于上述數(shù)據(jù)可以推算出:

有效 Tokens/hr/GPU:442 * 3600 * 75% = 1,193,400

考慮到 GPU 租賃成本為 $2,則每百萬 Token 成本為:

Inference Compute Cost:2 / 1,193,400 * 1,000,000 = $1.676

相比于輸入、輸出 Token 按照相同價格計費的方式,輸入輸出分別計價的方式會更加靈活,比如 OpenAI 就是這種方式。并且其早期的定價策略為:輸出價格為輸入價格的 3 倍。后來都改成 4 倍,如下圖所示。對于用戶而言,如果是長輸入、短輸出的場景(比如文獻(xiàn)總結(jié)、知識庫等),使用這種方式也許可以獲得更低的總成本。?

四、Application(應(yīng)用產(chǎn)品)

Application 主要是 ChatGPT、Perplexity、Claude、Notion AI、Cursor 等終端產(chǎn)品。

4.1 用戶層面關(guān)鍵數(shù)據(jù)

假設(shè)每個用戶每月使用 Token 數(shù)量為:6M Tokens。

Token 單價為:$2.00 / M Tokens。

每月活躍用戶數(shù)(MAU)為:1.8M。

月均用戶收入(Average Revenue per User):$20。

4.2 利潤率

基于上述數(shù)據(jù)可以得出:

每月每用戶毛利(Gross profit per User per Month):20 - 6 * 2 = $8

應(yīng)用層毛利率(Application Gross Margin):(20 - 8) / 20 = 40%

五、利潤率優(yōu)化

考慮到上述 3 層中每一層都需要保留比較可觀的利潤率,那么針對不同的“用戶”也就可以針對性的采用相應(yīng)的方案來降低成本。

5.1 個人或小規(guī)模初創(chuàng)公司

對于個人或小規(guī)模初創(chuàng)公司,可以考慮從直接使用按月付費的應(yīng)用切換為使用推理服務(wù)提供商的 API,然后接入支持自定義 API 的應(yīng)用或者開源替代,甚至可以考慮自研應(yīng)用。

當(dāng)然,直接使用推理服務(wù)提供商的 API 也存在一定問題,例如可能帶來額外的模型切換成本。此時也可以考慮 OpenRouter 這類 AI 模型聚合 + API 中介平臺。它類似于 AI 模型的 API 市場,為開發(fā)者和用戶提供各種 LLM 的統(tǒng)一入口,用戶通過一個統(tǒng)一的 API,就能調(diào)用多個不同廠商的模型,減少開發(fā)和切換成本。

OpenRouter 這類平臺主要靠如下幾種模式獲得利潤:

  • API 調(diào)用抽成 / 加價(最主要)

對通過平臺調(diào)用模型的 API 收取費用,并在推理服務(wù)提供商的價格基礎(chǔ)上加價。

允許開發(fā)者主動注冊并接入自有模型,平臺提供計費、鑒權(quán)等能力,并從其中抽成。

  • 用戶訂閱 / 使用套餐

類似于 OpenAI 的包月服務(wù)。

  • 增值服務(wù)

比如提供額外的日志、統(tǒng)計分析、鑒權(quán)等服務(wù)。

5.2 中型公司

對于中等規(guī)模的公司,可以考慮進一步跳過推理服務(wù)提供商,直接從 Neocloud 廠商租賃 GPU,然后獨立部署相應(yīng)的模型。當(dāng)然,這個前提是使用的開源模型或者自研的模型。

針對這個場景,也需要“用戶”儲備相應(yīng)的 LLM 部署、優(yōu)化能力,并且購買或者自建相應(yīng)的依賴組件。

5.3 大型公司

對于大型公司或者有巨大流量的中小型公司,直接跳過上述的 3 層,自建 IDC 必然是最優(yōu)的選擇,可以直接將成本降到最低。當(dāng)然,也會帶來額外的負(fù)擔(dān):

  • 一次性投入成本大。
  • 相應(yīng)的人力成本、運維成本增加。
  • 彈性擴展能力降低,比如 Neocloud 上可以快速 Scale-out,而自建 IDC 需要考慮更長遠(yuǎn)的規(guī)劃。(PS:這也是各大廠既有自用 IDC,又有公有云的一個顯著優(yōu)勢)
  • 資源利用率低,需要考慮容災(zāi),也會有各種各樣的場景,整體資源利用率可能不如預(yù)期。

自建 IDC 也有兩種常見的方式,一種是完全自建,還有一種是租用機房并托管自有服務(wù)器的方式。

資源利用率可從兩個維度衡量:其一是 GPU 的使用率(例如 GPU Util);其二是算力利用效率(如 Tensor Active 或 MFU 指標(biāo))。

    ?六、參考鏈接

  1. ??https://x.com/SemiAnalysis_??

  2. ??https://getdeploying.com/reference/cloud-gpu/nvidia-h100??


本文轉(zhuǎn)載自??AI閑談????,作者:AI閑談





標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦