偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<code id="3lanc"><form id="3lanc"></form></code>

<thead id="3lanc"></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

AI 成本賬：LLM 推理成本鏈條分析

發(fā)布于 2025-7-11 07:20

瀏覽

0收藏

一、背景

最近看到 SemiAnalysis 團隊制作了一個《AI Token Factory Economics Stack》的圖片（來自 SemiAnalysis (@SemiAnalysis_) / X [1]），深入分析了 LLM 推理成本鏈條中各個參與者的成本與利潤情況，涵蓋從硬件資本支出（Neocloud）、推理服務(wù)提供商（Inference Providers）到終端應(yīng)用層（Applications）的全棧視角，并且以 H200 GPU 為例，進行定量分析。

AI 成本賬：LLM 推理成本鏈條分析-AI.x社區(qū)

考慮到之前主要關(guān)注整體的 CapEx（資本成本）和 Opex（運維成本），因此借此機會進一步理解成本計算的相關(guān)邏輯和方式。

二、Neocloud（基礎(chǔ)設(shè)施）

Neocloud 主要是云廠商，提供 GPU 租賃服務(wù)，比如 Lambda、Vast.ai、Oracle Cloud 等。

2.1 關(guān)鍵概念

Capital Cost per GPU（資本支出）：可以理解為一次性支出的買入價，是資產(chǎn)價格。

Colocation Cost（托管成本）：指將 GPU 服務(wù)器放入一個已有數(shù)據(jù)中心機房中，由該數(shù)據(jù)中心提供電力、冷卻、物理空間、安全、網(wǎng)絡(luò)接入等基礎(chǔ)設(shè)施服務(wù)所需支付的費用。簡單理解就是：“我出設(shè)備，你出機房+電力+空調(diào)+網(wǎng)絡(luò)，我按月支付托管費用?！?/p>

Cost of Capital（資本成本率）：使用這筆資金（一次性支出的資產(chǎn)成本）必須計算“時間成本”，比如一個企業(yè)獲得一個 GPU 有兩種方式：

現(xiàn)金購買 GPU（自有資金）：這些錢本可以去買理財、股票，比如年回報 ≥13.3%。
貸款買 GPU（外部融資）：銀行利率是 13.3%。

2.2 數(shù)據(jù)指標(biāo)

核心數(shù)據(jù)：

Capital Cost per GPU（每張 H200 GPU 的資本支出）：$34,698
Colocation Cost（托管成本）：$130 / kW / 月
Electricity Cost（電費）：$0.087 / kWh
Cost of Capital（資本成本率）：13.3%/年
這些值用于計算 GPU 的總擁有成本（TCO）為： $1.66/hr/GPU。

收益指標(biāo)：

Neocloud Pre-tax Profit Margin（稅前利潤率）：16.8%
Neocloud Rental Price（對外出租價格）：$2.00/hr/GPU

總結(jié)：說明云廠商通過租賃 GPU，可以獲得 16.8% 的利潤空間。

2.3 計算方式

2.3.1 CapEx

其中的 Capital Cost per GPU 和 Cost of Capital 共同構(gòu)成了我們常說的 CapEx，通常將其在 GPU 的使用生命周期內(nèi)進行攤銷。業(yè)內(nèi)常見最短的攤銷周期是 3 年，主要是 AI 硬件的更新迭代周期往往不會超過 3 年；AI 模型、應(yīng)用場景也在不斷演進，3 年后通常也會有更有性價比的 GPU 出現(xiàn)。然而，即使新的 GPU 開始投入使用，上一代 GPU 仍可持續(xù)發(fā)揮一定性能價值。在公司內(nèi)，通常會進一步將攤銷周期延長到 4 年甚至 5 年。

如果按照 3 年的攤銷周期，則相應(yīng)的成本為：

34698*(1+13.3%*3)/(3 * 365 * 24) = $1.847/hr/GPU

如果按照 4 年的攤銷周期，則相應(yīng)的成本為：

34698*(1+13.3%*4)/(4 * 365 * 24) = $1.517/hr/GPU

如果按照 5 年的攤銷周期，則相應(yīng)的成本為：

34698*(1+13.3%*5)/(5 * 365 * 24) = $1.319/hr/GPU

當(dāng)然，有些時候也會采用年金法按固定時間周期（比如每年）平均“攤銷”，則對應(yīng)的年金 A 可以表述為（假設(shè)還是按照 4 年的攤銷周期）：

AI 成本賬：LLM 推理成本鏈條分析-AI.x社區(qū)

則相應(yīng)的成本為：

11928/(365*24) = $1.362/hr/GPU

2.3.2 Opex

其中 Opex 主要對應(yīng)上述的 Colocation Cost 和 Electricity Cost，折算到每 GPU 每小時的成本為：

Colocation Cost：130 / 30 / 24 ≈ $0.181/hr/GPU

Electricity Cost：0.7kW × $0.087 = $0.061/hr/GPU

H100/H200 GPU 的峰值功耗為 700W，而 8 卡 DGX H100/H200 的峰值功耗為 10.2kW（還額外包括 CPU、散熱等其他組件）。實際整機的最大功耗通常只能達(dá)到 70%-80% 左右，因此平均到每個 GPU 的功耗可能在 1kW 左右，考慮到 GPU 并非始終滿載運行，且這里的電力成本占比相對較小，故依然按 700W 進行估算。綜上，總的 Opex 為：

0.181 + 0.061 = $ 0.242/hr/GPU?

?2.3.3 TCO

基于上述 CapEx 和 Opex 可以推出大概的 TCO（Total Cost of Ownership）為：

3 年期攤銷：1.847 + 0.242 = $2.089/hr/GPU

4 年期攤銷：1.517 + 0.242 = $1.759/hr/GPU

5 年期攤銷：1.319 + 0.242 = $1.561/hr/GPU

4 年期攤銷（年金法）：1.362 + 0.242 = $1.604/hr/GPU

而上述表格中估計的 TCO 為 $1.66/hr/GPU，而實際的租賃價格 Neocloud Rental Price 為 $2/hr/GPU。由此可見，以約 4 年期攤銷為基礎(chǔ)的成本估算較為合理，按照上述價格，Neocloud 大概有 16.8% 的利潤空間。?

2.4 補充

?需要說明的是，隨著供需關(guān)系變化、硬件及算法的迭代，GPU 租賃的價格往往會隨著時間的發(fā)展逐漸降低，上述只是比較粗略的計算方式。

比如說，H100 剛上市時的租賃價格甚至高達(dá) $8/hr/GPU，一年前也有 $4-$5 左右。如下圖所示，一年前 Lepton AI 上 H100 的租賃價格為 $4.2/hr/GPU。?

AI 成本賬：LLM 推理成本鏈條分析-AI.x社區(qū)

而現(xiàn)在（更新于 2025 年 6 月 25 日）很多云廠商的價格已經(jīng)下降到 $2-$3 之間。此外，對于大客戶或長期租賃通常還能拿到更低的價格（來自：Nvidia H100 - GPU Price Comparison [2]）：

AI 成本賬：LLM 推理成本鏈條分析-AI.x社區(qū)

三、Inference Provider（推理服務(wù)提供商）

3.1 資產(chǎn)成本與利用率

?其中的主要成本是 GPU 租賃成本，也就是上述由 Neocloud 決定的 $2.00/hr/GPU。

租賃的 GPU 不可能 100% 使用，對于 Online 流量（比如 OpenAI 的在線 Chat 場景），受流量波動影響，GPU 難以實現(xiàn)持續(xù)滿負(fù)荷運行。此時，可以考慮使用 Offline 流量（比如 Batch Process，當(dāng)然價格可能更便宜）來充分利用波谷的空閑資源。圖中作者簡化為 Effective Utilization Rate（有效利用率）為 75%，也就是 GPU 只有 75% 的有效使用。?

3.2 推理成本

AI 成本賬：LLM 推理成本鏈條分析-AI.x社區(qū)

3.3 銷售定價 & 利潤率

?在資產(chǎn)成本與利用率確定的情況下，Inference Provider 想要提升利潤率的主要手段就是提升 LLM 推理性能，降低推理成本。這里作者以 TRT-LLM 框架為例，使用 FP8 推理，以保證盡可能的高效推理。以 1K 輸入 + 4K 輸出（總共 5K Token）為例，其推理耗時 190s，吞吐可以達(dá)到 442 Tokens/s/GPU。

基于上述數(shù)據(jù)可以推算出：

有效 Tokens/hr/GPU：442 * 3600 * 75% = 1,193,400

考慮到 GPU 租賃成本為 $2，則每百萬 Token 成本為：

Inference Compute Cost：2 / 1,193,400 * 1,000,000 = $1.676

相比于輸入、輸出 Token 按照相同價格計費的方式，輸入輸出分別計價的方式會更加靈活，比如 OpenAI 就是這種方式。并且其早期的定價策略為：輸出價格為輸入價格的 3 倍。后來都改成 4 倍，如下圖所示。對于用戶而言，如果是長輸入、短輸出的場景（比如文獻(xiàn)總結(jié)、知識庫等），使用這種方式也許可以獲得更低的總成本。?

四、Application（應(yīng)用產(chǎn)品）

Application 主要是 ChatGPT、Perplexity、Claude、Notion AI、Cursor 等終端產(chǎn)品。

4.1 用戶層面關(guān)鍵數(shù)據(jù)

假設(shè)每個用戶每月使用 Token 數(shù)量為：6M Tokens。

Token 單價為：$2.00 / M Tokens。

每月活躍用戶數(shù)（MAU）為：1.8M。

月均用戶收入（Average Revenue per User）：$20。

4.2 利潤率

基于上述數(shù)據(jù)可以得出：

每月每用戶毛利（Gross profit per User per Month）：20 - 6 * 2 = $8

應(yīng)用層毛利率（Application Gross Margin）：(20 - 8) / 20 = 40%

五、利潤率優(yōu)化

考慮到上述 3 層中每一層都需要保留比較可觀的利潤率，那么針對不同的“用戶”也就可以針對性的采用相應(yīng)的方案來降低成本。

5.1 個人或小規(guī)模初創(chuàng)公司

對于個人或小規(guī)模初創(chuàng)公司，可以考慮從直接使用按月付費的應(yīng)用切換為使用推理服務(wù)提供商的 API，然后接入支持自定義 API 的應(yīng)用或者開源替代，甚至可以考慮自研應(yīng)用。

當(dāng)然，直接使用推理服務(wù)提供商的 API 也存在一定問題，例如可能帶來額外的模型切換成本。此時也可以考慮 OpenRouter 這類 AI 模型聚合 + API 中介平臺。它類似于 AI 模型的 API 市場，為開發(fā)者和用戶提供各種 LLM 的統(tǒng)一入口，用戶通過一個統(tǒng)一的 API，就能調(diào)用多個不同廠商的模型，減少開發(fā)和切換成本。

OpenRouter 這類平臺主要靠如下幾種模式獲得利潤：

API 調(diào)用抽成 / 加價（最主要）

對通過平臺調(diào)用模型的 API 收取費用，并在推理服務(wù)提供商的價格基礎(chǔ)上加價。

允許開發(fā)者主動注冊并接入自有模型，平臺提供計費、鑒權(quán)等能力，并從其中抽成。

用戶訂閱 / 使用套餐

類似于 OpenAI 的包月服務(wù)。

增值服務(wù)

比如提供額外的日志、統(tǒng)計分析、鑒權(quán)等服務(wù)。

5.2 中型公司

對于中等規(guī)模的公司，可以考慮進一步跳過推理服務(wù)提供商，直接從 Neocloud 廠商租賃 GPU，然后獨立部署相應(yīng)的模型。當(dāng)然，這個前提是使用的開源模型或者自研的模型。

針對這個場景，也需要“用戶”儲備相應(yīng)的 LLM 部署、優(yōu)化能力，并且購買或者自建相應(yīng)的依賴組件。

5.3 大型公司

對于大型公司或者有巨大流量的中小型公司，直接跳過上述的 3 層，自建 IDC 必然是最優(yōu)的選擇，可以直接將成本降到最低。當(dāng)然，也會帶來額外的負(fù)擔(dān)：

一次性投入成本大。
相應(yīng)的人力成本、運維成本增加。
彈性擴展能力降低，比如 Neocloud 上可以快速 Scale-out，而自建 IDC 需要考慮更長遠(yuǎn)的規(guī)劃。（PS：這也是各大廠既有自用 IDC，又有公有云的一個顯著優(yōu)勢）
資源利用率低，需要考慮容災(zāi)，也會有各種各樣的場景，整體資源利用率可能不如預(yù)期。

自建 IDC 也有兩種常見的方式，一種是完全自建，還有一種是租用機房并托管自有服務(wù)器的方式。

資源利用率可從兩個維度衡量：其一是 GPU 的使用率（例如 GPU Util）；其二是算力利用效率（如 Tensor Active 或 MFU 指標(biāo)）。

?六、參考鏈接
??https://x.com/SemiAnalysis_??
??https://getdeploying.com/reference/cloud-gpu/nvidia-h100??

本文轉(zhuǎn)載自??AI閑談????，作者：AI閑談

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍

輕薄滴假象 ? 4150瀏覽 ? 0回復(fù)
低成本LLM應(yīng)用開發(fā)利器——開源FrugalGPT框架

51CTO內(nèi)容精選 ? 4384瀏覽 ? 0回復(fù)
精打細(xì)算用好 LLMs ：LLM 落地應(yīng)用成本及響應(yīng)延遲優(yōu)化

Baihai_IDP ? 4359瀏覽 ? 0回復(fù)
混合模型：HybridLLM、RouterLLM 等優(yōu)化 LLM 推理成本的新思路

amei2000go ? 8603瀏覽 ? 0回復(fù)
簡潔思考：輸出長度對大型語言模型推理和成本的影響

sbf_2000 ? 5707瀏覽 ? 0回復(fù)
利用多Lora節(jié)省大模型部署成本

卓勝微wjp ? 4083瀏覽 ? 0回復(fù)
大廠也玩不起AI，6000億美元剛夠成本，AI應(yīng)用或是最優(yōu)解

InfonityAI智推星 ? 3398瀏覽 ? 0回復(fù)
成本降低1000倍！微軟將開源超強RAG— LazyGraphRAG

Aceryt ? 3916瀏覽 ? 0回復(fù)
微軟LazyGraphRAG來了，700倍成本壓縮！

NLP前沿1 ? 3496瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.4w瀏覽 ? 0回復(fù)
奧特曼最新AGI斷言：人工智能的成本每 12 個月下降約 10 倍，但推動AI能力邊界的成本不會變便宜

51CTO技術(shù)棧 ? 2407瀏覽 ? 0回復(fù)
大模型前綴緩存技術(shù)，有望將服務(wù)成本降低90%

51CTO內(nèi)容精選 ? 4111瀏覽 ? 0回復(fù)
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。?！

玄姐聊AGI ? 1.1w瀏覽 ? 0回復(fù)
推理成本降低近94%，低時延，準(zhǔn)確率更高！

51CTO技術(shù)棧 ? 2833瀏覽 ? 0回復(fù)
這 10 個低成本開源 AI 智能體好使

PyTorch研習(xí)社 ? 4386瀏覽 ? 0回復(fù)
95%性能 + 85%成本節(jié)??？RouteLLM讓AI推理聰明又省錢！

AI博物院 ? 873瀏覽 ? 0回復(fù)
算力成本大降！馬爾可夫思考機讓LLM推理成本直接降為線性

柏企閱文 ? 1411瀏覽 ? 0回復(fù)
AI 推理服務(wù)是否真的無利可圖？從第一性原理看 AI 推理成本

Baihai_IDP ? 725瀏覽 ? 0回復(fù)
推理成本吞噬AI未來，云計算如何平衡速度與成本的難題？

算家計算 ? 285瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里 Roll Flash：異步 RL，加速 RLVR 和 Agentic 訓(xùn)練 5天前發(fā)布
Meta ScaleRL：40 萬 B200 GPU 小時，讓 RL 擁有“可預(yù)測 Scaling Law” 5天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： LLM Inference 中的低精度陷阱：數(shù)值穩(wěn)定性和可復(fù)現(xiàn)性

下一篇： NVSHMEM 深度解析：初始化流程與核心機制

社區(qū)精華內(nèi)容

目錄

<pre id="36psa"></pre>