為何說「新數(shù)據(jù)源」是推動 AI 發(fā)展的核心動力?
大多數(shù)人都知道,AI 在過去十五年里取得了難以置信的進步 —— 尤其是在最近的五年內(nèi)。我們可能會覺得這種進步勢不可擋 —— 盡管重大的范式轉(zhuǎn)變級突破并不常見,但我們依然在通過緩慢而穩(wěn)健的進步繼續(xù)前進。一些研究者最近提出了一種“AI 界的摩爾定律[1]”,即計算機執(zhí)行特定任務(wù)(此例中,指某些編碼類任務(wù))的能力隨時間呈指數(shù)級的提升:
image.png
提出的“AI 摩爾定律”。(順便說一句,任何認為在 2025 年 4 月就能讓 Autonomous Agent 在沒有人工干預(yù)的情況下運行一小時的人,都是在自欺欺人)
盡管出于種種原因,我并不認同這種具體的框架,但我無法否認進步的趨勢。每一年,我們的 AI 都變得更聰明一點、更快一點、更便宜一點,而且看不到盡頭。
大多數(shù)人認為,這種持續(xù)進步源于學(xué)術(shù)界(主要是 MIT、Stanford、CMU)和工業(yè)界(主要是 Meta、Google 及一些中國實驗室)源源不斷的創(chuàng)意供給 —— 當然還有大量其他機構(gòu)的研究成果我們無從知曉。
這些研究確實推動了行業(yè)的進步,尤其在系統(tǒng)架構(gòu)/工程實現(xiàn)層面。這也正是模型成本得以不斷降低的關(guān)鍵。讓我精選近年來的幾個典型案例:
- 2022 年斯坦福大學(xué)的研究者貢獻了 FlashAttention[2],這種提升語言模型內(nèi)存利用率的方法如今已被廣泛應(yīng)用;
- 2023 年谷歌研究人員開發(fā)了 speculative decoding[3],所有模型提供商都用它來加快推理速度(類似的技術(shù)也出現(xiàn)在 DeepMind[4],據(jù)說是同期成果?)
- 2024 年,由一群網(wǎng)絡(luò)極客組成的雜牌軍打造出 Muon[5],似乎是比 SGD 或 Adam 更好的優(yōu)化器,或?qū)⒊蔀槲磥碚Z言模型訓(xùn)練的新標準
- 2025 年 DeepSeek 開源 DeepSeek-R1[6],其推理能力媲美頂尖閉源模型(特指 Google 與 OpenAI 產(chǎn)品)
所以,人類確實在不斷探索突破。而現(xiàn)實情況比這更酷:我們正參與一場去中心化的全球科學(xué)實踐,研究成果通過 ArXiv[7]、學(xué)術(shù)會議和社交媒體公開共享,人類智慧正逐月累進。
既然我們正在進行這么多重要的研究,為何有人會聲稱 AI 的進展放緩了?抱怨聲依然不斷[8]。最近發(fā)布的兩大模型(Grok 3[9] 與 GPT-4.5[10])與之前的模型相比,能力僅有微弱提升。舉一個典型案例,語言模型參加最新的數(shù)學(xué)奧林匹克測試時[11],得分率僅為 5%,表明近期宣傳的系統(tǒng)能力恐有夸大之嫌[12]。
如果我們試圖記錄那些大的突破,那些真正的范式轉(zhuǎn)變,它們似乎是以不同的速度發(fā)生的。讓我列舉幾個我想到的例子。
LLMs 的四大突破
1)深度神經(jīng)網(wǎng)絡(luò):在 2012 年 AlexNet[13] 贏得圖像識別競賽后,深度神經(jīng)網(wǎng)絡(luò)首次爆發(fā)
2)Transformers + LLMs:2017 年谷歌在《Attention Is All You Need》[14]提出 transformers,催生了 BERT[15](Google, 2018)與初代 GPT[16](OpenAI, 2018)
3)RLHF:據(jù)我所知,OpenAI 的 InstructGPT 論文[17]在 2022 年被首次提出
4)推理能力:2024 年 OpenAI 發(fā)布 O1,繼而催生 DeepSeek-R1
粗略來看,這四大突破(DNNs → Transformer LMs → RLHF → Reasoning)幾乎概括了 AI 發(fā)展的全貌。我們經(jīng)歷了 DNNs(主要是圖像識別)、文本分類器、chatbot,現(xiàn)在又有了推理模型(不管它是什么)。
若想實現(xiàn)第五次突破,研究這些案例可能會有所幫助:究竟是什么新的研究思路促成了這些突破性事件?
認為這些突破的所有底層機制在 1990 年代(甚至更早)就已存在并非無稽之談。我們只是在應(yīng)用相對簡單的神經(jīng)網(wǎng)絡(luò)架構(gòu),進行兩種訓(xùn)練:監(jiān)督學(xué)習(xí)(突破 1 和 2)或強化學(xué)習(xí)(突破 3 和 4)。
基于交叉熵(cross-entropy)的監(jiān)督學(xué)習(xí)是當前預(yù)訓(xùn)練語言模型的主要方法,這一技術(shù)可追溯至 1940 年代 Claude Shannon 的研究。
用于 RLHF 和推理訓(xùn)練的強化學(xué)習(xí)是對語言模型進行后訓(xùn)練的主要方式,它的出現(xiàn)時間略晚些。其源頭可追溯至 1992 年策略梯度方法(policy-gradient methods)的提出[18](相關(guān)思想必然已出現(xiàn)在 1998 年 Sutton & Barto 編寫的《Reinforcement Learning》初版教材中)。
若理論基礎(chǔ)皆非創(chuàng)新,突破性進展的本質(zhì)是什么?
我們不妨先達成共識:這些“重大突破”實則是既有知識的創(chuàng)新應(yīng)用。首先,這告訴我們一些關(guān)于下一個突破性進展(即前文所述的“神秘的第五次突破”)的信息。我們的突破不太可能源自一個全新的理論,而應(yīng)是我們早已熟知的事物的再次出現(xiàn)。
但是,這里還缺少一個環(huán)節(jié),這四項突破中的每一項都使我們能夠從新的數(shù)據(jù)源中學(xué)習(xí):
1)AlexNet 及其后續(xù)模型:解鎖了 ImageNet[19](標注了類別標簽的大型圖像數(shù)據(jù)庫),推動了計算機視覺十五年的進步。
2)Transformers:開啟了在“互聯(lián)網(wǎng)”上的訓(xùn)練,以及下載、分類和解析網(wǎng)絡(luò)上所有文本[20]的競賽(當前基本完成[21])。
3)RLHF:使模型能從人類標注信息中學(xué)習(xí)“優(yōu)質(zhì)文本”的標準(主要是學(xué)習(xí)一種感覺)。
4)推理能力:讓模型能夠通過“驗證器[22]”學(xué)習(xí) —— 比如可以評估語言模型輸出的計算器和編譯器。
請記住,每一個里程碑都標志著對應(yīng)數(shù)據(jù)源(ImageNet、全網(wǎng)文本、人類反饋、驗證器)首次實現(xiàn)規(guī)?;瘧?yīng)用。每一個里程碑之后,都會掀起一場研究熱潮:研究人員們爭相(a)從所有可用的數(shù)據(jù)來源中榨取剩余的有效數(shù)據(jù);(b)通過新技巧提升數(shù)據(jù)的利用效率,使系統(tǒng)更高效、對數(shù)據(jù)的需求更低(預(yù)計 2025-2026 年我們將見證推理模型領(lǐng)域的此類競賽 —— 研究人員爭相對可驗證的內(nèi)容進行發(fā)掘、分類和驗證)。
image.png
自我們構(gòu)建 ImageNet[19](當時最大的網(wǎng)絡(luò)圖像公共數(shù)據(jù)集)起,AI 的發(fā)展之勢便已勢不可擋。
新 ideas 究竟有多重要?
我們必須要承認:那些實際的技術(shù)創(chuàng)新在這些案例中可能并非決定性因素。設(shè)想一下這種不符合事實的場景:若 AlexNet 未曾誕生,也許就會出現(xiàn)另一種可以處理 ImageNet 的架構(gòu)。若 Transformers 未被發(fā)現(xiàn),我們或?qū)⒗^續(xù)使用 LSTMs/SSMs,或者找到其他完全不同的東西來學(xué)習(xí)我們能在網(wǎng)上獲得的大量有用的訓(xùn)練數(shù)據(jù)。
這與“唯數(shù)據(jù)論”不謀而合 —— 一些研究人員注意到,相較于訓(xùn)練技術(shù)、模型優(yōu)化技巧和超參調(diào)整方法,數(shù)據(jù)才是能帶來最大變化的變量。
有這么一個典型案例,研究人員嘗試用不同于 transformer 的架構(gòu)開發(fā)類 BERT 模型[23]。他們花了一年左右的時間,以數(shù)百種不同的方式對架構(gòu)進行了調(diào)整,最終成功開發(fā)出了一種不同類型的模型(這是一種狀態(tài)空間模型/“SSM”),在相同的數(shù)據(jù)上進行訓(xùn)練時,它的表現(xiàn)與原始的 transformer 大致相當。
這一發(fā)現(xiàn)意義深遠,因為它暗示我們從給定數(shù)據(jù)集中學(xué)到的東西是有上限的。世界上的所有訓(xùn)練技巧與模型升級,都無法繞過一個冷酷的事實:你能從給定數(shù)據(jù)集中學(xué)到的東西是有限的。
或許這正是《苦澀的教訓(xùn)》[24]的核心啟示:如果數(shù)據(jù)是唯一重要的東西,為什么 95% 的人都在研究新方法?
下一次范式轉(zhuǎn)變將從何而來?(YouTube...或許?)
顯而易見,我們的下一次范式轉(zhuǎn)變不會來自對 RL 的改進或一種新型神經(jīng)網(wǎng)絡(luò)。它將會出現(xiàn)在我們解鎖一個我們以前從未接觸過或尚未妥善利用的數(shù)據(jù)源時。
當前大家集中攻關(guān)的數(shù)據(jù)來源就是視頻數(shù)據(jù)。某網(wǎng)站數(shù)據(jù)[25]顯示,YouTube 每分鐘上傳約 500 小時的視頻數(shù)據(jù)。視頻數(shù)據(jù)規(guī)模遠超全網(wǎng)文本的總量,且信息維度更豐富:視頻數(shù)據(jù)中不僅包含語音文本,還有語氣變化以及豐富的物理和文化信息 —— 這些都是無法從文本中收集到的。
可以肯定的是,只要我們的模型足夠高效,或者我們的算力足夠強大,谷歌就會開始在 YouTube 數(shù)據(jù)上訓(xùn)練模型。畢竟坐擁豐富資源卻閑置不用,實屬暴殄天物。
人工智能下一個“大范式”的最后一個競爭者是具身數(shù)據(jù)采集系統(tǒng)(大眾稱之為機器人)。目前,我們還無法以適合在 GPU 上訓(xùn)練大型模型的方式收集和處理來自攝像頭和傳感器的信息。如果我們能開發(fā)更智能的傳感器,或?qū)⑺懔μ嵘侥軌蜉p松處理機器人的海量數(shù)據(jù)流,或許將開辟一種全新的應(yīng)用場景。
YouTube、機器人抑或是其他領(lǐng)域是否會成為 AI 技術(shù)的下一站?語言模型目前雖占據(jù)主流,但我們似乎也很快就會耗盡語言數(shù)據(jù)。如果我們想在人工智能領(lǐng)域?qū)で笙乱淮瓮黄疲蛟S我們應(yīng)該停止追逐新理論,轉(zhuǎn)而開始尋找新數(shù)據(jù)源。



























