“不是新模型贏了,是新數(shù)據(jù)贏了”:另一種角度解讀 AI 進(jìn)步的真相
最近,小編讀了一篇康奈爾大學(xué) (科技校區(qū)) 博士生 JACK MORRIS寫的博文,發(fā)現(xiàn)其對人工智能(AI)的進(jìn)展解讀挺有趣。想分享給讀者。

這篇博文的核心意思是:人工智能領(lǐng)域的飛速發(fā)展,其核心驅(qū)動力并非源于理論的革新,而是對全新數(shù)據(jù)來源的成功利用。
1. AI進(jìn)展的表象與現(xiàn)實
作者表示,過去十五年,人工智能取得了令人難以置信的進(jìn)步,尤其是在最近五年中,這種進(jìn)步的速度更是驚人。
這種持續(xù)的進(jìn)步給人一種必然會發(fā)生的感覺,仿佛是歷史的必然趨勢。

圖片來源:https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
部分研究人員甚至據(jù)此提出了一個“人工智能領(lǐng)域的摩爾定律”的說法。
該定律指出,計算機在處理特定任務(wù),例如某些類型的編碼工作時,其能力會隨著時間的推移呈現(xiàn)出指數(shù)級的增長。

盡管作者并不完全認(rèn)同這種特定的框架,但無法否認(rèn)人工智能領(lǐng)域整體向上的發(fā)展趨勢。
我們的人工智能系統(tǒng)每年都在變得更智能、更快速,同時成本也在不斷降低,而且這種進(jìn)步的勢頭似乎沒有盡頭。
大多數(shù)人認(rèn)為,這種持續(xù)的進(jìn)步源于學(xué)術(shù)界和工業(yè)界研究社區(qū)源源不斷的思想供給。
學(xué)術(shù)界的代表主要是麻省理工學(xué)院、斯坦福大學(xué)和卡內(nèi)基梅隆大學(xué)。工業(yè)界的貢獻(xiàn)則主要來自Meta、谷歌以及少數(shù)幾家實驗室。
當(dāng)然,還有許多我們永遠(yuǎn)不會了解到的秘密研究在其他地方同時進(jìn)行。
2.技術(shù)突破與研究動態(tài)的回顧
毫無疑問,科學(xué)研究確實為我們帶來了巨大的進(jìn)步,尤其是在系統(tǒng)層面。這些系統(tǒng)層面的研究,是模型訓(xùn)練和推理成本能夠持續(xù)降低的關(guān)鍵所在。
我們可以從過去幾年中挑選出幾個顯著的例子來證明這一點。
2022年,斯坦福大學(xué)的研究人員提出了FlashAttention算法。這種方法能夠更好地利用語言模型中的內(nèi)存,現(xiàn)在已經(jīng)被業(yè)界廣泛應(yīng)用。
2023年,谷歌的研究人員開發(fā)了推測解碼技術(shù)。幾乎所有的模型供應(yīng)商都在使用這項技術(shù)來加速模型的推理過程。
據(jù)信,DeepMind也幾乎在同一時間獨立開發(fā)出了類似的技術(shù)。
2024年,一個由互聯(lián)網(wǎng)愛好者組成的團隊開發(fā)出了Muon優(yōu)化器。它似乎是一種比傳統(tǒng)SGD或Adam更優(yōu)秀的優(yōu)化器,未來可能成為訓(xùn)練語言模型的主流方式。
2025年,DeepSeek 發(fā)布了DeepSeek-R1。這個開源模型,其推理能力與來自谷歌和OpenAI的同類閉源模型相當(dāng)。
這些例子都證明,我們確實在不斷地探索和解決問題?,F(xiàn)實情況甚至比這更酷,我們正在參與一場去中心化的全球科學(xué)實踐。
另一方面,研究成果在ArXiv、學(xué)術(shù)會議和社交媒體上被公開分享,使得我們每個月都在變得更加智慧。
3.人工智能的四個關(guān)鍵范式轉(zhuǎn)移
然而,一個矛盾的問題出現(xiàn)了:既然我們正在進(jìn)行如此多重要的研究,為什么有些人認(rèn)為進(jìn)展正在放緩?
人們的抱怨之聲依然不絕于耳,尤其是在模型能力提升方面。最近發(fā)布的兩個備受矚目的巨型模型,Grok 3和GPT-4.5,其能力相較于前代產(chǎn)品的提升非常有限。
一個尤其突出的例子是,當(dāng)最新的語言模型被用于評估解答最新的國際數(shù)學(xué)奧林匹克競賽試題時,它們只取得了5%的成績。
這個結(jié)果表明,近期關(guān)于系統(tǒng)能力的宣傳可能存在過度夸大的成分。如果我們嘗試去梳理那些真正具有“重大突破”意義的范式轉(zhuǎn)移,會發(fā)現(xiàn)它們的發(fā)生頻率完全不同。
人工智能的發(fā)展歷程,可以被四個核心的突破性節(jié)點所概括。
第一個突破是深度神經(jīng)網(wǎng)絡(luò)(DNNs)的興起。2012年,AlexNet模型贏得了一場圖像識別競賽,標(biāo)志著深度神經(jīng)網(wǎng)絡(luò)時代的開啟。
第二個突破是Transformer架構(gòu)與大規(guī)模語言模型(LLMs)的結(jié)合。2017年,谷歌在論文《Attention Is All You Need》中提出了Transformer架構(gòu)。
這直接催生了2018年谷歌的BERT模型和OpenAI的初代GPT模型。
第三個突破是基于人類反饋的強化學(xué)習(xí)(RLHF)。據(jù)作者所知,這一概念最早由OpenAI在2022年的InstructGPT論文中正式提出。
第四個突破是模型的推理能力。2024年,OpenAI發(fā)布了O1模型,這直接啟發(fā)并催生了后續(xù)的DeepSeek R1。
如果你稍微審視一下,就會發(fā)現(xiàn)這四個節(jié)點(DNNs → Transformer LMs → RLHF → 推理)幾乎總結(jié)了人工智能領(lǐng)域發(fā)生的一切。
我們先是有了深度神經(jīng)網(wǎng)絡(luò),主要用于圖像識別系統(tǒng)。然后我們有了文本分類器,接著是聊天機器人?,F(xiàn)在我們擁有了所謂的推理模型。
那么,第五次這樣的重大突破會來自哪里?研究這四個已有的案例可能會給我們一些啟示。
一個不那么瘋狂的論點是,所有這些突破性進(jìn)展的底層機制,在1990年代甚至更早就已經(jīng)存在。
我們只是在應(yīng)用相對簡單的神經(jīng)網(wǎng)絡(luò)架構(gòu),并執(zhí)行監(jiān)督學(xué)習(xí)(對應(yīng)第一和第二個突破)或強化學(xué)習(xí)(對應(yīng)第三和第四個突破)。
作為預(yù)訓(xùn)練語言模型主要方式的、通過交叉熵進(jìn)行的監(jiān)督學(xué)習(xí),其思想起源于克勞德·香農(nóng)在1940年代的工作。
作為后訓(xùn)練語言模型主要方式的、通過RLHF和推理訓(xùn)練進(jìn)行的強化學(xué)習(xí),其歷史要稍晚一些。
它可以追溯到1992年策略梯度方法的引入。
這些思想在1998年第一版的Sutton & Barto合著的《強化學(xué)習(xí)》教科書中就已經(jīng)相當(dāng)成熟。
如果我們的思想不是新的,那么新的東西究竟是什么?
這里有一個被忽略的關(guān)鍵環(huán)節(jié):這四個突破中的每一個,都使我們能夠從一種全新的數(shù)據(jù)源中學(xué)習(xí)。
例如,AlexNet及其后續(xù)模型解鎖了ImageNet數(shù)據(jù)集。ImageNet是一個大型的、帶有類別標(biāo)簽的圖像數(shù)據(jù)庫,它驅(qū)動了計算機視覺領(lǐng)域長達(dá)十五年的發(fā)展。
Transformer架構(gòu)則解鎖了對“整個互聯(lián)網(wǎng)”文本數(shù)據(jù)的訓(xùn)練。這引發(fā)了一場下載、分類和解析萬維網(wǎng)上所有文本的競賽,而這項工作現(xiàn)在似乎已基本完成。
RLHF允許我們從人類的標(biāo)注中學(xué)習(xí)什么是“好的文本”。這在很大程度上是一種基于感覺的判斷和學(xué)習(xí)。
而推理能力的突破,似乎讓我們能夠從“驗證器”中學(xué)習(xí)。這些驗證器包括計算器、編譯器等,它們可以客觀地評估語言模型的輸出結(jié)果是否正確。
你需要記住,每一個里程碑都標(biāo)志著相應(yīng)的數(shù)據(jù)源(ImageNet、網(wǎng)絡(luò)文本、人類、驗證器)首次被大規(guī)模使用。
每個里程碑之后都伴隨著一陣狂熱的活動。
研究人員競相從所有可用的渠道中吸收剩余的有用數(shù)據(jù)。
同時,他們也致力于通過新的技巧來更好地利用已有數(shù)據(jù),使系統(tǒng)更高效、數(shù)據(jù)需求更少。
預(yù)計在2025年的后期和2026年,我們將在推理模型中看到同樣的趨勢。
研究人員將競相尋找、分類和驗證一切可能被驗證的東西。
那么,新思想的重要性到底有多大?
有一種觀點認(rèn)為,在這些案例中,我們實際的技術(shù)創(chuàng)新可能并沒有產(chǎn)生決定性的影響。
我們可以做一個反事實的思考。
如果沒有發(fā)明AlexNet,也許會有另一種架構(gòu)出現(xiàn),同樣能夠有效處理ImageNet。
如果我們從未發(fā)現(xiàn)Transformer,也許我們會滿足于使用LSTM或SSM,或者找到其他完全不同的方法來學(xué)習(xí)網(wǎng)絡(luò)上的海量文本數(shù)據(jù)。
這與一些人持有的“數(shù)據(jù)決定論”不謀而合。
一些研究人員觀察到,在所有的訓(xùn)練技術(shù)、模型技巧和超參數(shù)調(diào)整中,真正起決定性作用的,往往是數(shù)據(jù)的改變。
一個極具說服力的例子是,一些研究人員曾致力于開發(fā)一種使用非Transformer架構(gòu)的新型BERT類模型。
他們花費了大約一年的時間,用數(shù)百種不同的方式調(diào)整架構(gòu),最終成功制造出一種不同類型的模型(狀態(tài)空間模型“SSM”)。
當(dāng)這個SSM模型在與原始Transformer相同的數(shù)據(jù)上進(jìn)行訓(xùn)練時,它表現(xiàn)出了幾乎等同的性能。
這種等效性的發(fā)現(xiàn)意義深遠(yuǎn)。
它暗示了從一個給定的數(shù)據(jù)集中,我們所能學(xué)到的東西存在一個上限。
世界上所有的訓(xùn)練技巧和模型升級,都無法繞過這個冰冷的現(xiàn)實:一個數(shù)據(jù)集能提供的信息是有限的。

網(wǎng)址:http://www.incompleteideas.net/IncIdeas/BitterLesson.html
也許這種對新思想的冷漠,正是“苦澀的教訓(xùn)(The Bitter Lesson)”想要傳達(dá)給我們的。
4.未來范式的預(yù)期
如果數(shù)據(jù)是唯一重要的事情,為什么95%的人還在研究新方法?我們下一個范式轉(zhuǎn)移將來自哪里?
一個顯而易見的推論是,我們的下一個范式轉(zhuǎn)移不會來自對強化學(xué)習(xí)的改進(jìn),也不會來自某種花哨的新型神經(jīng)網(wǎng)絡(luò)。
它將在我們解鎖一個以前從未接觸過,或者尚未被正確利用的數(shù)據(jù)源時到來。
一個很多人正在努力駕馭的明顯信息來源是視頻。
根據(jù)網(wǎng)絡(luò)上的一個隨機站點統(tǒng)計,每分鐘大約有500小時的視頻片段被上傳到Y(jié)ouTube。
這是一個驚人數(shù)量的數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過整個互聯(lián)網(wǎng)上的文本總量。視頻也可能是一個更豐富的信息來源。
它不僅包含文字,還包含文字背后的語調(diào),以及無法從文本中收集到的關(guān)于物理和文化的豐富信息。
可以肯定地說,一旦我們的模型變得足夠高效,或者我們的計算機變得足夠強大,谷歌就會開始在YouTube上訓(xùn)練模型。
畢竟,他們擁有這個平臺,不利用這些數(shù)據(jù)來獲取優(yōu)勢是愚蠢的。
人工智能下一個“大范式”的另一個有力競爭者,是某種具身化的數(shù)據(jù)收集系統(tǒng),用普通人的話說,就是機器人。
我們目前還無法以一種適合在GPU上訓(xùn)練大模型的方式,來收集和處理來自攝像頭和傳感器的數(shù)據(jù)。
如果我們能夠構(gòu)建更智能的傳感器,或者將計算機的規(guī)模擴大到可以輕松處理來自機器人的海量數(shù)據(jù)涌入,我們或許就能以一種有益的方式利用這些數(shù)據(jù)。
很難說YouTube、機器人還是其他什么東西會成為人工智能的下一個大事件。
我們現(xiàn)在似乎深深地扎根于語言模型的陣營中,但語言數(shù)據(jù)似乎也正在被迅速耗盡。
如果我們想在人工智能領(lǐng)域取得進(jìn)展,也許我們應(yīng)該停止尋找新思想,而是開始尋找新數(shù)據(jù)。















 
 
 







 
 
 
 