偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

o3崛起,但推理模型離「撞墻」只剩一年?

人工智能 新聞
OpenAI的o3推理模型席卷AI界,算力暴增10倍,能力突飛猛進!但專家警告:最多一年,推理模型可能一年內撞上算力資源極限。OpenAI還能否帶來驚喜?

最多一年,推理模型就會撞上訓練算力的「天花板」。

OpenAI的o3這樣的推理模型,誕生還不到一年,能力已經突飛猛進。OpenAI的研究人員非常樂觀地認為,這種趨勢會持續(xù)下去。

但問題來了:推理模型到底還能進步到什么程度?

Epoch AI是一個獨立的AI研究團隊,專注于對大模型的發(fā)展速度、發(fā)展軌跡以及可能產生的社會影響進行前瞻性研究。

他們認為,推理模型確實還有進步空間,但想讓OpenAI或者其他頂尖AI公司實現(xiàn)「指數(shù)級大飛躍」,基本不太可能。

按現(xiàn)在的節(jié)奏,每幾個月計算能力翻10倍(就像o1到o3那樣),估計最多一年就會撞墻。

到2026年,擴展速度將會放緩,回落到每年4倍的增速水平,模型的升級速度也會跟著變慢。

圖片

如果類似o1到o3這樣的規(guī)模提升持續(xù)下去,推理計算資源增長的可能軌跡

研究的主要線索如下:

  • o3的訓練算力是o1的10倍,基本是指推理訓練階段,o3在o1發(fā)布4個月后就推出了。
  • 雖然不知道o1具體用了多少算力,但DeepSeek-R1可以用來參考。
  • 英偉達的Llama-Nemotron、微軟的Phi-4-reasoning,也透露出一些訓練細節(jié)。

Anthropic CEO Dario Amodei也發(fā)表過相關看法。

前沿推理模型得燒多少算力?

OpenAI的o3和其他推理模型,都是從傳統(tǒng)大語言模型發(fā)展而來的。

最開始,模型會用海量人工標注數(shù)據(jù)進行「預訓練」;然后進入強化學習階段,通過反饋優(yōu)化模型解決難題的能力,這就是「推理訓練」。

從歷史上看,算力是AI發(fā)展的關鍵。

所以得搞清楚:現(xiàn)在推理訓練到底用了多少算力?還能增加多少,這又會怎么影響模型的能力?

雖然推理模型在AI圈火得一塌糊涂,但推理模型的推理訓練算力的公開信息卻很少。

從o1到o3:推理算力翻了十倍

OpenAI發(fā)過一張圖,對比o1和o3在AIME基準測試的表現(xiàn),橫軸是推理訓練的算力。

它表明,o3的訓練算力是o1的10倍。

圖片

摘自OpenAI的o3直播發(fā)布會

為啥說橫軸不是總算力?

因為o1早期版本的算力比o3少4個數(shù)量級,但AIME得分也有25%,要是算總算力,這個成績就太離譜了。

此外,如果橫軸是總計算資源,就意味著OpenAI訓練了許多預訓練階段高度不完整的o1版本。

OpenAI研究員最近也透露,公司接下來打算重點發(fā)展強化學習,投入的計算資源會比訓練初始模型時還要多。

o3具體用了多少算力?目前沒實錘,得從其他模型和業(yè)內人士的話里找線索。

來自DeepSeek-R1的見解

大部分AI公司都把訓練細節(jié)捂得嚴嚴實實,但DeepSeek大方公開了R1的數(shù)據(jù):

DeepSeek-R1在強化學習階段花了6×1023次浮點運算(成本約100萬美元),生成了2萬億個token,大約是基礎模型DeepSeek-V3預訓練成本的20%。

這個數(shù)據(jù)雖然有誤差,但仍然很有幫助,DeepSeek-R1和o1水平差不多,可作為基準。

不過,由于各種原因,DeepSeek-R1的推理算力可能與o1不同。兩個模型參數(shù)量、計算效率都不一樣,所以結果僅供參考。

其他推理模型的啟示

英偉達的Llama-Nemotron Ultra 253B和微軟的Phi-4-reasoning也公開過數(shù)據(jù):

  • Llama-Nemotron Ultra:強化學習階段用了14萬小時H100算力(約1×1023次浮點運算),不到基礎模型預訓練成本的1%。
  • Phi-4-reasoning:推理階段規(guī)模更小,生成4.6億個token,計算成本不到1×102?次浮點運算,算力消耗不到預訓練的0.01%。

這兩個模型在基準測試中都取得了出色的成績,Llama-Nemotron的成績與DeepSeek-R1和o1相當。

但它們在強化學習階段之前都做了「監(jiān)督微調」,用了大量其他推理模型生成的高質量推理鏈示例,和o1、o3這種前沿模型的訓練邏輯不太一樣,參考價值有限。

業(yè)內大佬怎么看?

總體而言,這些信息對于了解o1或o3的訓練算力規(guī)模幫助有限。

有一點可以確定:像Phi-4這樣的某些模型,推理訓練計算資源(至少在強化學習階段)可能相對較少。

這并不意味著o3也是用同樣少的計算資源進行訓練的,但這確實表明,僅從一個推理模型在基準測試中表現(xiàn)良好,很難判斷其推理算力的規(guī)模。

此外,傳統(tǒng)的監(jiān)督微調在推理模型的開發(fā)中可能發(fā)揮著重要作用。由于訓練方法多種多樣,在沒有公開訓練細節(jié)的情況下,很難猜測推理模型的推理訓練規(guī)模。

Anthropic CEO Dario Amodei今年1月提到:

現(xiàn)在的強化學習訓練還在「新手村」,花100萬美元就能比花10萬美元強很多。大家都在拼命砸錢擴大訓練規(guī)模,把這個階段的投入提到數(shù)億、數(shù)十億,我們正處在一個關鍵轉折點,新范式剛起步,所以增長特別快。

圖片

無法確定10萬美元或100萬美元是否反映了他對特定模型(如o1、o3或DeepSeek-R1)的訓練成本的估計。

但能看出他覺得,目前推理模型的訓練成本,還沒到燒錢燒到飛起的程度,遠低于數(shù)億美元,即1×102?次浮點運算。

總體而言,這些估計表明,o1和o3的推理算力規(guī)模和「算力天花板」的差距可能不會達到多個數(shù)量級,畢竟已經有模型(如DeepSeek-R1和Llama-Nemotron Ultra)在推理階段用到1×1023次浮點運算以上,o1、o3用的計算資源可能更多。

推理算力增長如何影響AI進步?

推理模型目前的算力水平,對AI短期發(fā)展有重要影響。

o3靠10倍算力碾壓o1,數(shù)學、編程、寫代碼全面升級,至少在這些領域,訓練算力和模型能力掛鉤,砸越多算力,效果越明顯。

這些模型可以對問題進行更多計算,從而提高其性能,但缺點是它們完成任務所需的時間比傳統(tǒng)模型更長。

雖然目前還沒有像預訓練規(guī)模定律那樣關于推理訓練規(guī)模定律的嚴謹研究,但OpenAI展示的規(guī)模曲線與經典的對數(shù)線性規(guī)模定律頗為相似。

DeepSeek-R1論文中的圖表也顯示,隨著推理訓練步數(shù)的增加,準確率大致呈對數(shù)線性增長。

這表明,至少在數(shù)學和編程任務上,推理模型的性能與推理訓練之間的關系,和預訓練類似,存在一定的規(guī)模效應。

因此,在接下來的幾次規(guī)模擴展中,可能會看到模型性能出現(xiàn)顯著且快速的提升。

圖片

o1在AIME測試中的表現(xiàn)與訓練計算資源的關系

但推理算力一旦摸到天花板,增長速度可能就會從「幾個月翻10倍」掉到「每年翻4倍」。

如果推理訓練和整體前沿算力差距只有幾個數(shù)量級(如小于三個數(shù)量級),估計一年內增速就得放緩。

推理真能Scaling嗎?

現(xiàn)實沒那么簡單。光堆顯卡可不夠,數(shù)據(jù)才是卡脖子的關鍵。

推理訓練需要大量難題數(shù)據(jù),但高質量的題目不是無限的,找題、編題、生成數(shù)據(jù)都不容易。

在數(shù)學、編程以外的復雜場景里,比如理解人類復雜情感,推理模型能不能同樣好用,目前還是未知數(shù)。

開發(fā)推理模型,真正花錢的可能不是訓練本身,而是大量的試錯實驗——測試不同的題目、打分規(guī)則、訓練方法,這些成本目前沒人公開。

雖然隨著技術成熟,成本可能會降下來,但這些隱藏成本可能限制模型的擴展。

對AI行業(yè)來說,任何暗示推理模型在短期內可能會觸及發(fā)展瓶頸的消息,都讓人心里一緊。

畢竟,AI行業(yè)為了開發(fā)這類模型,砸進去了大量資源。

已有研究表明,運行推理模型的成本極高,相比某些傳統(tǒng)模型,更容易出現(xiàn)幻覺。

不過也有好消息:即使算力增長放緩,模型說不定還能靠數(shù)據(jù)、算法創(chuàng)新接著變強。但無論如何,算力增長依然是關鍵,值得重點關注。

畢竟,OpenAI和行業(yè)大佬們都信心滿滿,o3大概率沒觸達極限,后面肯定還有驚喜!

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-23 08:30:05

2024-12-24 16:15:04

2024-09-24 11:01:03

2025-06-11 08:56:54

2025-06-08 14:15:42

2025-06-11 09:19:46

2025-02-14 10:47:40

2025-05-13 08:24:14

2025-04-17 09:02:00

2025-04-17 07:23:10

2025-09-15 14:42:55

o3視覺推理開源

2025-03-05 00:22:00

2025-07-02 07:25:00

大型語言模型LLM人工智能

2025-04-10 08:23:11

2024-12-26 15:00:09

2025-08-04 08:40:00

2025-05-15 08:30:00

2025-03-10 08:10:00

AI研究安全

2024-12-26 07:10:00

2024-10-05 15:30:00

LLM模型推理
點贊
收藏

51CTO技術棧公眾號