所謂"廉價"的開源AI模型 正在吞噬你的算力預(yù)算

一項全新的綜合研究表明,在執(zhí)行相同任務(wù)時,開源AI模型比閉源競爭對手消耗的計算資源要多得多,這可能會削弱其成本優(yōu)勢,并重塑企業(yè)評估AI部署策略的方式。
該研究由AI公司Nous Research開展,發(fā)現(xiàn)開放權(quán)重模型使用的token(AI計算的基本單位)數(shù)量是OpenAI和Anthropic等閉源模型的1.5到4倍,對于簡單的知識問答,差距會大幅擴大,某些開源模型使用的token數(shù)量最多可達閉源模型的10倍。
研究人員在周三發(fā)布的報告中寫道:“開放權(quán)重模型使用的token數(shù)量是閉源模型的1.5至4倍(對于簡單的知識問答,這一差距可達10倍),因此盡管每個token的成本較低,但每次查詢的成本有時反而更高。”
這些發(fā)現(xiàn)對AI行業(yè)的一個普遍假設(shè)提出了挑戰(zhàn),即開源模型比專有替代方案具有明顯的經(jīng)濟優(yōu)勢,雖然開源模型的每個token運行成本通常較低,但研究表明,如果解決特定問題需要更多token,那么這一優(yōu)勢很容易被抵消。
AI的真正成本:為何“更便宜”的模型可能超出你的預(yù)算
該研究對19種不同的AI模型進行了評估,任務(wù)分為三類:基礎(chǔ)知識問答、數(shù)學問題和邏輯謎題。研究團隊測量了“token效率”,即模型相對于解決方案復(fù)雜度所使用的計算單元數(shù)量,盡管這一指標對成本影響重大,但此前很少得到系統(tǒng)性研究。
研究人員指出:“出于多種實際原因,token效率是一個關(guān)鍵指標。雖然托管開放權(quán)重模型的成本可能較低,但如果解決特定問題需要更多token,那么這一成本優(yōu)勢很容易被抵消?!?/p>
對于使用擴展“思維鏈”來解決復(fù)雜問題的大型推理模型(LRM),這種低效性尤為明顯,這些模型旨在逐步思考問題,可能會在思考本應(yīng)只需極少量計算的簡單問題時消耗數(shù)千個token。
對于“澳大利亞的首都是哪里?”等基礎(chǔ)知識問題,研究發(fā)現(xiàn)推理模型會“耗費數(shù)百個token來思考本可單字回答的簡單知識問題”。
哪些AI模型真正物有所值
該研究揭示了不同模型供應(yīng)商之間的顯著差異。OpenAI的模型,特別是其o4-mini和新發(fā)布的開源gpt-oss變體,在數(shù)學問題上展現(xiàn)出了卓越的token效率。研究發(fā)現(xiàn),OpenAI的模型“在解決數(shù)學問題時token效率極高”,使用的token數(shù)量比其他商業(yè)模型少三倍。
在開源選項中,英偉達的llama-3.3-nemotron-super-49b-v1成為“所有領(lǐng)域中token效率最高的開放權(quán)重模型”,而Mistral等公司的新模型則“token使用量異常高”,成為例外。
效率差距因任務(wù)類型而異。雖然開源模型在解決數(shù)學和邏輯問題時使用的token數(shù)量大約是閉源模型的兩倍,但對于本不需要高效推理的簡單知識問答,差距則進一步拉大。
企業(yè)領(lǐng)導(dǎo)者需要了解的AI計算成本
這些發(fā)現(xiàn)對企業(yè)采用AI具有直接影響,因為計算成本會隨著使用量的增加而迅速上升。企業(yè)在評估AI模型時,往往關(guān)注準確度基準和每個token的價格,但可能會忽視實際任務(wù)所需的總計算量。
研究人員在分析總推理成本時發(fā)現(xiàn):“閉源模型更好的token效率往往能彌補其較高的API定價。”
該研究還揭示,閉源模型供應(yīng)商似乎在積極優(yōu)化效率。“閉源模型經(jīng)過迭代優(yōu)化,減少了推理成本所需的token數(shù)量”,而開源模型“新版本的token使用量有所增加,這可能反映了其更注重提升推理性能”。
研究人員如何破解AI效率測量難題
研究團隊在衡量不同模型架構(gòu)的效率時面臨獨特挑戰(zhàn)。許多閉源模型不公開其原始推理過程,而是提供內(nèi)部計算的壓縮摘要,以防止競爭對手模仿其技術(shù)。
為解決這一問題,研究人員使用完成token(即每次查詢所計費的總計算單元)作為推理工作量的替代指標,他們發(fā)現(xiàn),“大多數(shù)最新的閉源模型不會共享其原始推理軌跡”,而是“使用較小的語言模型將思維鏈轉(zhuǎn)錄為摘要或壓縮表示”。
該研究的方法包括使用修改后的知名問題進行測試,以盡量減少記憶解決方案的影響,例如改變美國數(shù)學邀請賽(AIME)數(shù)學競賽問題中的變量。
AI效率的未來:接下來會發(fā)生什么
研究人員建議,在未來的模型開發(fā)中,token效率應(yīng)與準確度一起成為主要的優(yōu)化目標。他們寫道:“更密集的思維鏈(CoT)也將允許更高效地利用上下文,并可能在對抗挑戰(zhàn)性推理任務(wù)期間的上下文退化?!?/p>
OpenAI開源的gpt-oss模型展示了“可自由訪問的思維鏈”的先進效率,可作為優(yōu)化其他開源模型的參考點。
完整的研究數(shù)據(jù)集和評估代碼可在GitHub上獲取,其他研究人員可借此驗證并擴展這些發(fā)現(xiàn)。隨著AI行業(yè)競相提升推理能力,這項研究表明,真正的競爭可能不在于誰能打造最聰明的AI,而在于誰能打造最高效的AI。
畢竟,在每個token都至關(guān)重要的世界里,最浪費的模型無論思考能力有多強,都可能因價格過高而被市場淘汰。
































