偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型訓(xùn)練“練兵千日”,別輸在AI推理“用兵一時(shí)”

人工智能
隨著AI應(yīng)用爆發(fā),算力的需求邏輯也正在被重塑:AI推理——而不是訓(xùn)練,將成為未來算力需求的核心增長點(diǎn)。

2025年被認(rèn)為是AI智能體的元年,是AI走向大規(guī)模應(yīng)用的開始。隨著AI應(yīng)用爆發(fā),算力的需求邏輯也正在被重塑:AI推理——而不是訓(xùn)練,將成為未來算力需求的核心增長點(diǎn)。

這種趨勢在剛剛結(jié)束的2025年世界人工智能大會(huì)(WAIC)多有體現(xiàn)。一方面,主流大模型玩家紛紛推動(dòng)成熟產(chǎn)品“瘦身”,以輕量化模型適配更多終端設(shè)備。另一方面,多家AI Infra創(chuàng)企押注AI推理芯片,搶抓AI模型從實(shí)驗(yàn)室走向生產(chǎn)場景的紅利。

中信建投在2025 WAIC期間發(fā)布的白皮書指出,隨著AI算力消耗從訓(xùn)練向推理的結(jié)構(gòu)性轉(zhuǎn)變,國內(nèi)算力消耗正快速增長(如字節(jié)跳動(dòng)每三個(gè)月Token消耗接近翻一倍,5月底為16.4萬億Token),按此趨勢主流云服務(wù)商將很快感受到算力緊張、出現(xiàn)算力缺口。

就在這個(gè)節(jié)骨眼上,中美AI推理體驗(yàn)的鴻溝已經(jīng)顯現(xiàn)。相比以美國為代表的領(lǐng)先國家,中國大模型的推理體驗(yàn)(包括時(shí)延、準(zhǔn)確度、上下文推理等方面)已大幅落后;風(fēng)靡一時(shí)的DeepSeek等國內(nèi)開源大模型,活躍用戶數(shù)遭遇了嚴(yán)重下滑。

如果說大模型訓(xùn)練是“練兵千日”,那么推理就是“用兵一時(shí)”。站在2025這個(gè)本該兌現(xiàn)AI商用價(jià)值的關(guān)鍵時(shí)刻,推理算力卻成了新的“吞金獸”,不持續(xù)“堆芯片”用戶體驗(yàn)就難以為繼,這要求全球各國、各行各業(yè)都引起高度重視,找到推理體驗(yàn)與算力成本的平衡點(diǎn)。

尤其是對于高端算力芯片受限、軟件及生態(tài)薄弱的中國AI產(chǎn)業(yè)來說,我們必須在“戴著鐐銬跳舞”的現(xiàn)實(shí)中尋求新的突破、找到新的解法,別讓中美AI競爭輸在“最后一公里”!

Token經(jīng)濟(jì)時(shí)代:打不起的價(jià)格戰(zhàn),輸不得的體驗(yàn)戰(zhàn)

在AI商業(yè)化過程中,Token(詞元)被迅速推至臺前。它既是大模型訓(xùn)練及推理過程中處理的最小語義單元,也是最基礎(chǔ)的計(jì)量計(jì)費(fèi)單位,用于衡量AI產(chǎn)品服務(wù)使用量和商業(yè)化收費(fèi)標(biāo)準(zhǔn),因而AI時(shí)代也被稱為Token經(jīng)濟(jì)時(shí)代。

類似于移動(dòng)通信數(shù)據(jù)流量伴隨3G-4G-5G升級而大幅提升,隨著模型逐漸復(fù)雜化和業(yè)務(wù)場景不斷豐富,用戶的Token消耗量也在與日俱增。比如,智能體(Agent)執(zhí)行一次任務(wù)平均消耗的Token已達(dá)到10萬量級;海量用戶匯聚使得單個(gè)頭部大模型日均Token消耗量已達(dá)百億級,推理成本持續(xù)攀升。

這種成本攀升折射到國內(nèi)市場,可以發(fā)現(xiàn)去年打得火熱的Token價(jià)格戰(zhàn)到今年已經(jīng)趨于冷靜,主流大模型廠商已從單純降價(jià)轉(zhuǎn)向技術(shù)升級與場景優(yōu)化結(jié)合(包括支持超長文本處理、多模態(tài)推理等差異化能力),避免淪為芯片廠商的“打工人”,甚至賠本賺吆喝。

即便如此,受限于高端芯片供給和資本開支差距,中國大模型的推理體驗(yàn)已經(jīng)落后于美國領(lǐng)先大模型。資料顯示,OpenAI O3 mini、Google Gemini等模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),中國普遍小于60 Tokens/s(時(shí)延50~100ms)。比如OpenAI O3 mini每秒能輸出的Token(214個(gè))約為DeepSeek(21個(gè))的10倍,用戶會(huì)直接感受到OpenAI給出回答的時(shí)間要比DeepSeek快很多。

體驗(yàn)掉隊(duì)的代價(jià)是巨大的。有數(shù)據(jù)顯示,相比其他頂尖模型用戶數(shù)持續(xù)增長,DeepSeek用戶數(shù)自發(fā)布后絕對流量一直在下降,其使用率已從年初的50%暴跌至當(dāng)前的3%左右,用戶正在從DeepSeek流失轉(zhuǎn)向其他模型應(yīng)用。

一言以蔽之,不同于邊際成本極低的互聯(lián)網(wǎng)時(shí)代,算力成本高企(GPU價(jià)格昂貴且超負(fù)荷使用兩三年就得換新)的Token經(jīng)濟(jì)時(shí)代,Token量越大越是打不起價(jià)格戰(zhàn),當(dāng)然也輸不得體驗(yàn)戰(zhàn)。要在AI時(shí)代健康可持續(xù)發(fā)展,必須解決推理體驗(yàn)與算力成本平衡的難題。

“戴著鐐銬跳舞”:GPU+HBM被鎖死,軟件生態(tài)也旁落

面對這一難題,在以美國為首的算力充沛國家,中高端GPU搭載HBM(高帶寬內(nèi)存)的產(chǎn)品形態(tài)已成為主流趨勢。MLPerfTM基準(zhǔn)測試顯示,HBM可使推理速度提升30-60%;反之,HBM不足時(shí),推理體驗(yàn)會(huì)明顯下降,如出現(xiàn)任務(wù)卡頓、響應(yīng)慢等問題。

背后的技術(shù)邏輯在于,AI推理需要頻繁讀取模型參數(shù)和輸入數(shù)據(jù),而HBM是解決“數(shù)據(jù)搬運(yùn)”的關(guān)鍵。作為一種通過3D堆疊和超寬接口實(shí)現(xiàn)極高數(shù)據(jù)傳輸帶寬的先進(jìn)內(nèi)存技術(shù),HBM可顯著提升內(nèi)存與GPU、NPU等處理器之間傳輸數(shù)據(jù)的速度,確保計(jì)算核心以極高的速度獲取所需的數(shù)據(jù),從而最大限度利用AI加速器的強(qiáng)大算力,提高推理吞吐量。

然而,和中高端GPU一樣,全球HBM市場也高度集中并掌握在國外頭部廠商手里。它們與先進(jìn)芯片一起被納入美國“長臂管轄”的銷售管制清單,中國廠商無法獲取(特供版GPU和HBM能力都被嚴(yán)重“閹割”),導(dǎo)致中國大模型的推理體驗(yàn)提升受到極大制約,“錢花了還辦不成事”。

更觸目驚心的是,“戴著鐐銬跳舞”(比如使用英偉達(dá)的低端H20產(chǎn)品)的中國模型服務(wù)商,正匍匐在一條將應(yīng)用生態(tài)構(gòu)筑在別人“地基”(比如英偉達(dá)CUDA)之上的老路。當(dāng)英偉達(dá)通過“硬件迭代→軟件優(yōu)化→生態(tài)綁定”構(gòu)建起推理時(shí)代的“鐵三角”時(shí),中國廠商連對方的低端產(chǎn)品也很難離開(調(diào)研顯示從英偉達(dá)等生態(tài)遷移至國產(chǎn)平臺需重構(gòu)70%代碼,成本相當(dāng)于三個(gè)程序員年薪),完全陷入美國編織的AI秩序里。

這里面涉及的技術(shù)賬、經(jīng)濟(jì)賬、安全賬都是十分沉重的,必須引起高度的重視!從技術(shù)效率上講,低端技術(shù)長期看肯定打不過中高端技術(shù),必然導(dǎo)致產(chǎn)品競爭力下降;從經(jīng)濟(jì)成本看,“質(zhì)次價(jià)高”的特供芯片,絕非平衡推理體驗(yàn)與算力成本的優(yōu)選方案;從供應(yīng)鏈安全角度看,國產(chǎn)化遷移改造的歷史進(jìn)程,絕對容不得算力芯片漏洞后門的掣肘。

破局之道暢想:從單點(diǎn)突破到系統(tǒng)創(chuàng)新,重視軟件及生態(tài)

何以破局?參照我國在AI訓(xùn)練階段的突圍之道(比如昇騰384超節(jié)點(diǎn)以集群方式突破性能極限),AI推理或許也可以從單點(diǎn)突破走向系統(tǒng)創(chuàng)新,重視軟件能力并及早培育生態(tài),彌補(bǔ)硬件物理層面的不足和限制,探尋一條可持續(xù)、可復(fù)制的最佳路徑。

從技術(shù)層面看,AI推理的關(guān)鍵在于鍵值緩存(KV Cache),其好比一份“上下文備忘錄”——緩存前面所有內(nèi)容的關(guān)鍵信息(Key和Value),讓AI生成下一個(gè)詞時(shí)不用重復(fù)計(jì)算歷史信息,從而大幅加速推理過程。但KV Cache需要占用GPU的顯存(如HBM),生成的文本越長,緩存的數(shù)據(jù)量就越大,容易觸發(fā)容量限制,導(dǎo)致推理時(shí)延增加、吞吐量下降。業(yè)界可以考慮通過硬件+軟件系統(tǒng)創(chuàng)新的方式,將KV Cache緩存至存儲層,以AI存儲方案加速AI推理,減少對昂貴HBM的依賴。

從生態(tài)層面看,面對國產(chǎn)化改造和AI推理爆發(fā)的巨大機(jī)遇,業(yè)界龍頭廠商、行業(yè)頭部用戶要站出來先行先試,驗(yàn)證技術(shù)方案,打造聯(lián)盟生態(tài),別讓“樓房建起來了再去重構(gòu)地基”,費(fèi)時(shí)費(fèi)力又費(fèi)錢。特別是數(shù)字化程度高、數(shù)據(jù)密度大、AI應(yīng)用場景豐富的金融、醫(yī)療、教育等行業(yè),一定要從一開始便算好技術(shù)賬、經(jīng)濟(jì)賬和安全賬,以生態(tài)之力護(hù)航AI轉(zhuǎn)型行穩(wěn)致遠(yuǎn)。

回顧過去,美國憑借龍頭企業(yè)技術(shù)引領(lǐng)+產(chǎn)業(yè)生態(tài)深度協(xié)同的“組合拳”,統(tǒng)治了計(jì)算產(chǎn)業(yè)從專用計(jì)算到通用計(jì)算的大部分時(shí)期。就在7月下旬,美國又發(fā)布了《贏得AI競賽:美國AI行動(dòng)計(jì)劃》,再次顯露主導(dǎo)全球人工智能發(fā)展的野心。此時(shí)此刻,在AI大模型“練兵千日,用兵一時(shí)”的歷史拐點(diǎn),產(chǎn)業(yè)各界必須警覺起來,別讓中美AI競爭輸在“最后一公里”!

責(zé)任編輯:龐桂玉 來源: 極客網(wǎng)
相關(guān)推薦

2020-02-11 13:32:36

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)應(yīng)用

2013-10-30 16:25:10

雙11360網(wǎng)購木馬

2023-01-05 09:33:37

視覺模型訓(xùn)練

2024-02-19 00:21:45

開源圖片

2025-08-14 09:00:00

模型訓(xùn)練數(shù)據(jù)

2023-10-11 12:32:53

AI模型

2025-04-01 09:54:09

AI算法大模型AI

2025-01-21 13:15:37

2025-01-09 08:01:10

2014-11-28 14:55:57

WiFi藍(lán)牙

2025-10-10 01:25:00

大模型訓(xùn)練數(shù)據(jù)OpenAI

2025-03-18 09:46:27

2025-02-27 10:33:36

2024-09-09 08:31:15

2024-09-26 00:11:01

2024-03-28 14:45:56

2024-09-20 10:02:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號