編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
“說來挺奇怪的,token 的成本是越來越便宜了,但我們的 token 賬單卻指數(shù)級增長,業(yè)務(wù)的利潤一降再降?!?/p>
最近,加州一家初創(chuàng)公司 TextQL 的創(chuàng)始人 & CEO, Ethan Ding(沒錯,又是一位華人創(chuàng)業(yè)者),近日拋出了一個很獨特的觀點。
“別被‘杠桿率’忽悠住了!”

Ding 認(rèn)為,雖然現(xiàn)在許多大模型廠商都實打?qū)嵉亟档土送评?token 的價格,但這并不是大家所預(yù)期的那樣利好。
其一,大模型雖然降價,但都是降的非 SOTA 模型的價格,SOTA 模型的價格反而一直保持穩(wěn)定,未曾下降。
其二,有了 SOTA 模型,大家還是喜歡花不菲的金錢來訂閱 SOTA。
此外,token 的調(diào)用量也呈現(xiàn)出了指數(shù)級爆發(fā)。
所以,單個 token 的成本看似成本降了,但其實整體的token調(diào)用所花的錢越來越昂貴。
那,作為創(chuàng)業(yè)公司而言,最終該怎么辦?是包月提供訂閱服務(wù),還是像 Devin 一樣作 B 端,按照用量進(jìn)行計費,又或者像 Replit 做深度的開發(fā)者工作流整合,掙基礎(chǔ)設(shè)施平臺的服務(wù)費。
當(dāng)然最值得琢磨的還是 Anthropic 取消無限制套餐、提高定價、限流等一波為盈利而采取的措施。
作者從創(chuàng)業(yè)者的視角分析了目前大模型應(yīng)用創(chuàng)業(yè)與競品之間的囚徒困境,并指出了未來突圍的三種可能的商業(yè)做法。
總之,不要被token成本降低忽悠了,想一想你的大模型 token 賬單,絕對是一場值得警戒的災(zāi)難!
1.每年LLM成本砍九成,但業(yè)務(wù)毛率卻愁云慘淡
想象你創(chuàng)辦了一家公司,心里清楚用戶最多只愿意為訂閱每月支付 20 美元。你覺得沒問題,經(jīng)典 VC 劇本——以成本價收費,為增長犧牲利潤。你已經(jīng)算好了 CAC、LTV,各項數(shù)據(jù)都齊了。但故事的轉(zhuǎn)折在這:
你看過 a16z 那張圖,說 LLM 成本每年會便宜為原來的 1/10。

你心想:第一年 20 美元/月剛好打平,等模型明年便宜降到 1/10,Boom——毛利率 90%。虧損只是暫時的,盈利是必然的。
這個思路很簡單,簡單到一個 VC 實習(xí)生都能懂:
- 第一年:20 美元/月打平
 - 第二年:模型便宜 10 倍,毛利 90%
 - 第三年:準(zhǔn)備去看游艇了
 
而且邏輯看起來應(yīng)該也很穩(wěn):"推理成本每 6 個月降 3 倍,我們撐得住。"
結(jié)果呢?18 個月過去,毛利率比以前還差。Windsurf 被拆掉賣了,Claude Code 也在最近取消了原本每月 200 美元的無限制套餐。
公司們還在流血。模型確實便宜了——GPT-3.5 成本是以前的 1/10,但毛利不是變好了,而是變差了。
哪里出問題了?
2.沒人想訂昨天的報紙
GPT-3.5 是便宜了,但它現(xiàn)在的吸引力跟 iPhone 發(fā)布時的翻蓋機(jī)差不多。
每當(dāng)一個新模型發(fā)布,幾乎 99% 的需求立刻轉(zhuǎn)移過去。消費者的產(chǎn)品預(yù)期也是這樣設(shè)定的。
現(xiàn)在我們回頭看看“前沿模型”的真實定價歷史,也就是 99% 用戶真正使用的那些模型:

看出什么了嗎?
GPT-4 上線時標(biāo)價 60 美元,大家還是用它,盡管 GPT-3.5 是它的 1/26 價。Claude 3 Opus 上線時也定價 60 美元,大家還是切過去了,即使 GPT-4 已經(jīng)降價了。
模型是便宜了,但只限于那些“跟 Commodore 64(84年生產(chǎn)的古董電視) 一樣過時”的型號。
這是“成本會降”的戰(zhàn)略第一個錯誤支點:用戶只想用“當(dāng)前最強(qiáng)模型”。而最強(qiáng)模型的價格始終穩(wěn)定,因為這是當(dāng)前推理所需的真實成本。
你說“這車現(xiàn)在可便宜了!”然后指著 1995 年的本田 Civic。
可 2025 年的豐田 Camry 指導(dǎo)價還是 $30K 啊。
當(dāng)人們在和 AI 互動——無論是寫代碼、寫作、還是深度思考——大家都傾向于選擇最強(qiáng)的模型。沒人打開 Claude 會說:“我今天要省老板點錢,用差的版本吧?!?/p>
我們是認(rèn)知貪婪的動物。尤其當(dāng)另一端是我們自己的時間時,我們只想要最好的大腦。
3.模型在“燒更多的token”,比你想的還多
你可能會說,“好吧,那還可以接受吧?那就一直維持打平運營。”
哎,天真的夏日孩子……
雖然每一代前沿模型在每 token 成本上沒有變貴,但還有一個更糟的趨勢出現(xiàn)了:模型使用的 token 數(shù)量已經(jīng)呈指數(shù)爆發(fā)。
過去,你問一句 ChatGPT,它回你一句。
現(xiàn)在,Deep Research 會花 3 分鐘計劃,20 分鐘閱讀,5 分鐘寫報告。O3 則可能花 20 分鐘來回復(fù)一句“你好啊”。
RL(強(qiáng)化學(xué)習(xí))與推理時計算的大爆炸帶來了一個沒人預(yù)料的現(xiàn)象:AI 一次性完成任務(wù)的“長度”每六個月翻一倍。
過去輸出 1000 tokens,現(xiàn)在直接 10 萬起步。

現(xiàn)在一輪 20 分鐘的 “deep research” 成本大約是 1 美元。按這個推算,到 2027 年我們可能會有持續(xù)運行 24 小時的智能體,任務(wù)不斷線。再加上前沿模型的靜態(tài)定價?那就是每天平均每個用戶一輪 72 美元的操作。。別忘了其實大家有時候還會并發(fā)運行。
到那個時候,我們不會讓智能體接一個任務(wù)然后等結(jié)果,而是批量派發(fā),整隊 AI 工人并行處理問題,tokens 燒得跟 1999 年一樣。
顯然——而且我必須強(qiáng)調(diào)——一個每月 20 美元的訂閱,連用戶每天用一次“深度研究”都撐不起。
可我們正在全速奔向這個場景。
每一次模型能力的提升,都會提升它在同一時間里可以有效利用的計算量。
這就像造出了更省油的引擎,然后直接造成了怪獸卡車。你是更省油了,但你同時也燒了 50 倍的油。
這就是導(dǎo)致 windsurf 被 margin call、導(dǎo)致所有“包月訂閱 + 高 token 消耗”創(chuàng)業(yè)公司焦頭爛額的“空頭擠壓”。
4.Anthropic 曾英勇抵抗這場擠壓
Claude Code 的“無限制套餐”是目前最復(fù)雜的一次抗擠壓嘗試。他們動用了所有手段,還是崩了。
他們的策略,其實很聰明:
- 定價更高 10 倍起步就是 200 美元/月(Cursor 是 $20/月),先拉開緩沖空間。
 - 按負(fù)載自動切模型忙時從 Opus($75/M token)切到 Sonnet($15/M),閱讀用 Haiku 優(yōu)化。像 AWS Auto Scaling,但用于模型腦力。
 
可能這些邏輯甚至被直接寫進(jìn)了模型權(quán)重,這是個范式轉(zhuǎn)變,未來會很常見。
- 3.轉(zhuǎn)移一部分算力到用戶電腦用戶的 CPU 白白閑著干嘛?不如讓他們幫忙跑沙箱。
 
但就算做了這些,token 消耗還是失控。

100 億 tokens。。。這可相當(dāng)于 12,500 本《戰(zhàn)爭與和平》。一個月內(nèi)。
怎么做到的?就算每次運行 10 分鐘,怎么撐得起這么大消耗?
答案是:10–20 分鐘足以讓用戶發(fā)現(xiàn) for 循環(huán)。
一旦 token 消耗和“人在不在 App 里”的時間脫鉤,物理規(guī)律就接管了。
你指派 Claude 一個任務(wù) → 它檢查結(jié)果 → 重寫 → 優(yōu)化 → 再檢查 → 無限循環(huán),直到燒光成本為止。
用戶變成了 API 編排者,在 Anthropic 的賬單上運行 24/7 的代碼轉(zhuǎn)換引擎。從聊天到智能體的躍遷,是突變式的,不是漸進(jìn)的。token 消耗直接爆了 1000 倍。
于是 Anthropic 被迫取消無限制套餐。他們或許能試試 $2000/月,但真正的教訓(xùn)不是“價格不夠高”,而是:
在這個新世界里,根本不可能再提供“無限使用”的包月服務(wù)。
數(shù)學(xué)邏輯已經(jīng)崩盤。
5.所有 AI 公司,都在玩“囚徒困境”
那剩下的公司怎么辦?
所有 AI 公司都知道:按用量收費是唯一可持續(xù)的方式。
他們也知道:但那樣做會死得更快。
你老老實實每 1000 tokens 收用戶 1 分錢,你的競爭對手卻提供 $20/月無限用。
你覺得用戶去哪?這是一個經(jīng)典的囚徒困境:
- 都收用量費 → 行業(yè)可持續(xù)
 - 都走包月 → 集體死掉
 - 你收用量,別人包月 → 你先死
 - 你包月,別人收用量 → 你先贏,然后死得更晚一點
 
所以最后,大家都會選擇背叛,都去補(bǔ)貼重度用戶,都拼命發(fā) hockey stick 增長圖。然后都在發(fā)“重要定價調(diào)整”。
Cursor、Replit、Lovable 都清楚這筆賬。他們選擇的是:現(xiàn)在增長,未來盈利,最終破產(chǎn)(但那是下任 CEO 的問題)。
老實說?也許沒錯。
在搶地盤階段,市場份額>利潤率。只要 VC 還愿意補(bǔ)貼單用戶虧損……
問問 Jasper 當(dāng)音樂停了會發(fā)生什么。
6.有沒有辦法避免這場“margin call”?
現(xiàn)在還有逃生通道嗎?
最近有傳言 Cognition 正在以 150 億美元估值融資,而他們公布的 ARR 連 1 億都不到(我猜也就 5000 萬)。
相比之下,Cursor 是以 100 億美元估值融資,ARR 有 5 億,增長曲線也陡得多。營收差 8 倍,估值卻只差 1/3。
7.VC 們在 Devin 身上看到了什么?
它和 Cursor 都是 AI 編程智能體。難道 Cognition (Devin 的創(chuàng)造者)找到了逃出生天的路徑?(下篇再說)
可能的三條路:
1)從一開始就按用量計費
不補(bǔ)貼、不先圈用戶后變現(xiàn),一上來就走真實經(jīng)濟(jì)模型。理論聽起來很好。
問題是——沒有一家爆火的 ToC AI 公司是用用量計費的。
消費者討厭被按量計費。他們寧愿為無限制套餐多付點,也不想看到突如其來的賬單。
所有成功的訂閱消費服務(wù)——Netflix、Spotify、ChatGPT——都是統(tǒng)一定價。
一旦你加了計量表,增長就死了。
2)搞超高“切換成本” → 超高利潤
這正是 Devin 的玩法。他們最近和花旗、高盛合作,把 Devin 投入到每家企業(yè)的 4 萬名工程師中。
哪怕每人每月 $20,總計也才 $1000 萬 ARR。但你更想要的是高盛、花旗的這筆 1000 萬,還是消費型開發(fā)者給你的 5 億 ARR?
答案顯然是前者。
六個月的部署流程、合規(guī)審查、安全評估、采購流程 —— 這一套流程走完你就徹底“鎖死”了。一旦簽下這種客戶,流失幾乎不可能。
這是為什么所有大型軟件公司都是“系統(tǒng)記錄型”的,服務(wù)對象就是這些人(CRM、ERP、EHR)。它們毛利都能做到 80–90%,因為客戶根本不在意價格,只在意穩(wěn)定。
當(dāng)有競爭對手出現(xiàn)時,你的系統(tǒng)已經(jīng)深入到企業(yè)流程中,切換成本太高,沒人愿意重來一次。
3)做垂直整合 → 在基礎(chǔ)設(shè)施層賺錢
這是 Replit 的策略:
把編程智能體、應(yīng)用托管、數(shù)據(jù)庫管理、部署監(jiān)控、日志分析……全打包在一起。
每個 token 都虧錢,但整個開發(fā)者工作流其他環(huán)節(jié)全被你吃下了。
你純賣推理服務(wù)不掙錢,但你現(xiàn)在可是在賣一個完整的平臺,而推理只是獲客成本。
代碼生成天然帶來“托管”需求。每個 app 需要部署點,每個數(shù)據(jù)庫要管理,每次發(fā)布要監(jiān)控。
讓 OpenAI 和 Anthropic 去卷推理價格,而你吃下整個堆棧其他層的利潤。

那些還在玩“包月 + 極致增長”的公司?都是“行尸走肉”。
只不過他們的葬禮訂在了 Q4。
8.展望:成本下降只是一場糖衣炮彈
我??吹絼?chuàng)始人說:“明年模型會繼續(xù)便宜,降成 1/10!”就像抓住了救命稻草。
是的,模型的價格會砍成 1/10,但用戶的預(yù)期也會提高 20 倍。
你還記得 Windsurf 嗎?
他們就是撐不住 Cursor 給 P&L 帶來的壓力。連最強(qiáng)應(yīng)用層垂直整合的 Anthropic 都做不成“無限使用”的包月模式。
9.杠桿必須搶先抓,但前提通向的不是墳?zāi)?/h3>
在《Levered Beta is all you need》這篇文章中我總結(jié)過:搶先起跑勝過聰明布局。
但如果你只是早到了“墓地”,那也不是勝利。
沒人會為虧損模型買單 24 億美元了。沒有“以后我們會想辦法盈利”的緩沖。
當(dāng)你的 AWS 賬單比收入還高時,“以后”就沒有以后了。
那我們該怎么在這個時代做 AI 生意?
簡短答案是:做一個 Neocloud——這就是我下一篇的標(biāo)題。
小編解釋下 Neocloud :即 Neo(新潮)+cloud(云計算),新型云計算,小編猜測,作者這是打算來分享一篇新瓶裝舊酒式的“偽創(chuàng)新”的故事。
但嘿,起碼模型明年真的會便宜 10 倍。
10.網(wǎng)友:千萬別按量計費,別逼我去計算該不該用API
"完全同意!按使用計費的焦慮感太大了,如果是我自己掏錢,我根本不會用這種服務(wù)。
就算是公司買單,我也會因為太過小心謹(jǐn)慎,結(jié)果把效率提升的好處都抹平了。
如果你要賺錢,就提高那些“包月無限用”的計劃的價格沒問題。但別逼我去計算每天到底該不該用 API。"
那么,對于開發(fā)者而言,很多朋友點贊了上訴這位網(wǎng)友的觀點。提高包月費用我可以接受,但按量計費的方式著實會讓自己焦慮感太重。

另一位網(wǎng)友表示:對于 AI 在某些具體工具和工作場景下的使用來說,按量計費幾乎是毀滅性的打擊。
在這些場景下,按量計費會極大地勸退用戶使用產(chǎn)品,因為這意味著你在每次使用前都要做一遍“成本/收益分析”,這本身就是巨大阻力。
而如果你是在公司使用這個工具,說不定你還得拿去找管理層審批才能繼續(xù)用。
對于一個本意是提高工作效率的工具來說,沒人愿意一天做 250 次“這個模板代碼值不值 $3”的判斷。
總之一句話,如果是按量計費,這 AI 工具根本不會被用。
好了,文章到這里就結(jié)束了。大家目前的大模型API賬單招標(biāo)了嗎?最后都是如何處理的呢?較以前又應(yīng)該漲了還是降了呢?
參考鏈接:
https://ethanding.substack.com/p/ai-subscriptions-get-short-squeezed















 
 
 










 
 
 
 