o3崛起,但推理模型離「撞墻」只剩一年?
最多一年,推理模型就會撞上訓(xùn)練算力的「天花板」。
OpenAI的o3這樣的推理模型,誕生還不到一年,能力已經(jīng)突飛猛進(jìn)。OpenAI的研究人員非常樂觀地認(rèn)為,這種趨勢會持續(xù)下去。
但問題來了:推理模型到底還能進(jìn)步到什么程度?
Epoch AI是一個(gè)獨(dú)立的AI研究團(tuán)隊(duì),專注于對大模型的發(fā)展速度、發(fā)展軌跡以及可能產(chǎn)生的社會影響進(jìn)行前瞻性研究。
他們認(rèn)為,推理模型確實(shí)還有進(jìn)步空間,但想讓OpenAI或者其他頂尖AI公司實(shí)現(xiàn)「指數(shù)級大飛躍」,基本不太可能。
按現(xiàn)在的節(jié)奏,每幾個(gè)月計(jì)算能力翻10倍(就像o1到o3那樣),估計(jì)最多一年就會撞墻。
到2026年,擴(kuò)展速度將會放緩,回落到每年4倍的增速水平,模型的升級速度也會跟著變慢。
如果類似o1到o3這樣的規(guī)模提升持續(xù)下去,推理計(jì)算資源增長的可能軌跡
研究的主要線索如下:
- o3的訓(xùn)練算力是o1的10倍,基本是指推理訓(xùn)練階段,o3在o1發(fā)布4個(gè)月后就推出了。
- 雖然不知道o1具體用了多少算力,但DeepSeek-R1可以用來參考。
- 英偉達(dá)的Llama-Nemotron、微軟的Phi-4-reasoning,也透露出一些訓(xùn)練細(xì)節(jié)。
Anthropic CEO Dario Amodei也發(fā)表過相關(guān)看法。
前沿推理模型得燒多少算力?
OpenAI的o3和其他推理模型,都是從傳統(tǒng)大語言模型發(fā)展而來的。
最開始,模型會用海量人工標(biāo)注數(shù)據(jù)進(jìn)行「預(yù)訓(xùn)練」;然后進(jìn)入強(qiáng)化學(xué)習(xí)階段,通過反饋優(yōu)化模型解決難題的能力,這就是「推理訓(xùn)練」。
從歷史上看,算力是AI發(fā)展的關(guān)鍵。
所以得搞清楚:現(xiàn)在推理訓(xùn)練到底用了多少算力?還能增加多少,這又會怎么影響模型的能力?
雖然推理模型在AI圈火得一塌糊涂,但推理模型的推理訓(xùn)練算力的公開信息卻很少。
從o1到o3:推理算力翻了十倍
OpenAI發(fā)過一張圖,對比o1和o3在AIME基準(zhǔn)測試的表現(xiàn),橫軸是推理訓(xùn)練的算力。
它表明,o3的訓(xùn)練算力是o1的10倍。
摘自O(shè)penAI的o3直播發(fā)布會
為啥說橫軸不是總算力?
因?yàn)閛1早期版本的算力比o3少4個(gè)數(shù)量級,但AIME得分也有25%,要是算總算力,這個(gè)成績就太離譜了。
此外,如果橫軸是總計(jì)算資源,就意味著OpenAI訓(xùn)練了許多預(yù)訓(xùn)練階段高度不完整的o1版本。
OpenAI研究員最近也透露,公司接下來打算重點(diǎn)發(fā)展強(qiáng)化學(xué)習(xí),投入的計(jì)算資源會比訓(xùn)練初始模型時(shí)還要多。
o3具體用了多少算力?目前沒實(shí)錘,得從其他模型和業(yè)內(nèi)人士的話里找線索。
來自DeepSeek-R1的見解
大部分AI公司都把訓(xùn)練細(xì)節(jié)捂得嚴(yán)嚴(yán)實(shí)實(shí),但DeepSeek大方公開了R1的數(shù)據(jù):
DeepSeek-R1在強(qiáng)化學(xué)習(xí)階段花了6×1023次浮點(diǎn)運(yùn)算(成本約100萬美元),生成了2萬億個(gè)token,大約是基礎(chǔ)模型DeepSeek-V3預(yù)訓(xùn)練成本的20%。
這個(gè)數(shù)據(jù)雖然有誤差,但仍然很有幫助,DeepSeek-R1和o1水平差不多,可作為基準(zhǔn)。
不過,由于各種原因,DeepSeek-R1的推理算力可能與o1不同。兩個(gè)模型參數(shù)量、計(jì)算效率都不一樣,所以結(jié)果僅供參考。
其他推理模型的啟示
英偉達(dá)的Llama-Nemotron Ultra 253B和微軟的Phi-4-reasoning也公開過數(shù)據(jù):
- Llama-Nemotron Ultra:強(qiáng)化學(xué)習(xí)階段用了14萬小時(shí)H100算力(約1×1023次浮點(diǎn)運(yùn)算),不到基礎(chǔ)模型預(yù)訓(xùn)練成本的1%。
- Phi-4-reasoning:推理階段規(guī)模更小,生成4.6億個(gè)token,計(jì)算成本不到1×102?次浮點(diǎn)運(yùn)算,算力消耗不到預(yù)訓(xùn)練的0.01%。
這兩個(gè)模型在基準(zhǔn)測試中都取得了出色的成績,Llama-Nemotron的成績與DeepSeek-R1和o1相當(dāng)。
但它們在強(qiáng)化學(xué)習(xí)階段之前都做了「監(jiān)督微調(diào)」,用了大量其他推理模型生成的高質(zhì)量推理鏈?zhǔn)纠?,和o1、o3這種前沿模型的訓(xùn)練邏輯不太一樣,參考價(jià)值有限。
業(yè)內(nèi)大佬怎么看?
總體而言,這些信息對于了解o1或o3的訓(xùn)練算力規(guī)模幫助有限。
有一點(diǎn)可以確定:像Phi-4這樣的某些模型,推理訓(xùn)練計(jì)算資源(至少在強(qiáng)化學(xué)習(xí)階段)可能相對較少。
這并不意味著o3也是用同樣少的計(jì)算資源進(jìn)行訓(xùn)練的,但這確實(shí)表明,僅從一個(gè)推理模型在基準(zhǔn)測試中表現(xiàn)良好,很難判斷其推理算力的規(guī)模。
此外,傳統(tǒng)的監(jiān)督微調(diào)在推理模型的開發(fā)中可能發(fā)揮著重要作用。由于訓(xùn)練方法多種多樣,在沒有公開訓(xùn)練細(xì)節(jié)的情況下,很難猜測推理模型的推理訓(xùn)練規(guī)模。
Anthropic CEO Dario Amodei今年1月提到:
現(xiàn)在的強(qiáng)化學(xué)習(xí)訓(xùn)練還在「新手村」,花100萬美元就能比花10萬美元強(qiáng)很多。大家都在拼命砸錢擴(kuò)大訓(xùn)練規(guī)模,把這個(gè)階段的投入提到數(shù)億、數(shù)十億,我們正處在一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn),新范式剛起步,所以增長特別快。
無法確定10萬美元或100萬美元是否反映了他對特定模型(如o1、o3或DeepSeek-R1)的訓(xùn)練成本的估計(jì)。
但能看出他覺得,目前推理模型的訓(xùn)練成本,還沒到燒錢燒到飛起的程度,遠(yuǎn)低于數(shù)億美元,即1×102?次浮點(diǎn)運(yùn)算。
總體而言,這些估計(jì)表明,o1和o3的推理算力規(guī)模和「算力天花板」的差距可能不會達(dá)到多個(gè)數(shù)量級,畢竟已經(jīng)有模型(如DeepSeek-R1和Llama-Nemotron Ultra)在推理階段用到1×1023次浮點(diǎn)運(yùn)算以上,o1、o3用的計(jì)算資源可能更多。
推理算力增長如何影響AI進(jìn)步?
推理模型目前的算力水平,對AI短期發(fā)展有重要影響。
o3靠10倍算力碾壓o1,數(shù)學(xué)、編程、寫代碼全面升級,至少在這些領(lǐng)域,訓(xùn)練算力和模型能力掛鉤,砸越多算力,效果越明顯。
這些模型可以對問題進(jìn)行更多計(jì)算,從而提高其性能,但缺點(diǎn)是它們完成任務(wù)所需的時(shí)間比傳統(tǒng)模型更長。
雖然目前還沒有像預(yù)訓(xùn)練規(guī)模定律那樣關(guān)于推理訓(xùn)練規(guī)模定律的嚴(yán)謹(jǐn)研究,但OpenAI展示的規(guī)模曲線與經(jīng)典的對數(shù)線性規(guī)模定律頗為相似。
DeepSeek-R1論文中的圖表也顯示,隨著推理訓(xùn)練步數(shù)的增加,準(zhǔn)確率大致呈對數(shù)線性增長。
這表明,至少在數(shù)學(xué)和編程任務(wù)上,推理模型的性能與推理訓(xùn)練之間的關(guān)系,和預(yù)訓(xùn)練類似,存在一定的規(guī)模效應(yīng)。
因此,在接下來的幾次規(guī)模擴(kuò)展中,可能會看到模型性能出現(xiàn)顯著且快速的提升。
o1在AIME測試中的表現(xiàn)與訓(xùn)練計(jì)算資源的關(guān)系
但推理算力一旦摸到天花板,增長速度可能就會從「幾個(gè)月翻10倍」掉到「每年翻4倍」。
如果推理訓(xùn)練和整體前沿算力差距只有幾個(gè)數(shù)量級(如小于三個(gè)數(shù)量級),估計(jì)一年內(nèi)增速就得放緩。
推理真能Scaling嗎?
現(xiàn)實(shí)沒那么簡單。光堆顯卡可不夠,數(shù)據(jù)才是卡脖子的關(guān)鍵。
推理訓(xùn)練需要大量難題數(shù)據(jù),但高質(zhì)量的題目不是無限的,找題、編題、生成數(shù)據(jù)都不容易。
在數(shù)學(xué)、編程以外的復(fù)雜場景里,比如理解人類復(fù)雜情感,推理模型能不能同樣好用,目前還是未知數(shù)。
開發(fā)推理模型,真正花錢的可能不是訓(xùn)練本身,而是大量的試錯(cuò)實(shí)驗(yàn)——測試不同的題目、打分規(guī)則、訓(xùn)練方法,這些成本目前沒人公開。
雖然隨著技術(shù)成熟,成本可能會降下來,但這些隱藏成本可能限制模型的擴(kuò)展。
對AI行業(yè)來說,任何暗示推理模型在短期內(nèi)可能會觸及發(fā)展瓶頸的消息,都讓人心里一緊。
畢竟,AI行業(yè)為了開發(fā)這類模型,砸進(jìn)去了大量資源。
已有研究表明,運(yùn)行推理模型的成本極高,相比某些傳統(tǒng)模型,更容易出現(xiàn)幻覺。
不過也有好消息:即使算力增長放緩,模型說不定還能靠數(shù)據(jù)、算法創(chuàng)新接著變強(qiáng)。但無論如何,算力增長依然是關(guān)鍵,值得重點(diǎn)關(guān)注。
畢竟,OpenAI和行業(yè)大佬們都信心滿滿,o3大概率沒觸達(dá)極限,后面肯定還有驚喜!