偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Scaling Laws起源于1993年?OpenAI總裁:深度學(xué)習(xí)的根本已揭秘

人工智能 新聞
前些天,康奈爾大學(xué)博士生、Meta 研究員 Jack Morris 發(fā)推稱 Scaling Law 的真正探索者其實是貝爾實驗室,這又進一步將歷史向前推到了 1993 年。

人工智能的「第一性原理」擴展定律(Scaling Laws),把模型性能與算力等資源投入聯(lián)系在了一起,是如今人們構(gòu)建更先進大模型重要的參考標(biāo)尺。

有關(guān)擴展定律的起源,存在很多種說法,有人認(rèn)為是 2020 年 OpenAI 提出的,有人認(rèn)為是 2017 年百度發(fā)現(xiàn)的。

前些天,康奈爾大學(xué)博士生、Meta 研究員 Jack Morris 發(fā)推稱 Scaling Law 的真正探索者其實是貝爾實驗室,這又進一步將歷史向前推到了 1993 年。

他進一步解釋說,這篇論文其實是一篇 NeurIPS 論文。貝爾實驗室的研究者「在不同大小的數(shù)據(jù)集、不同大小的模型上訓(xùn)練了分類器并擬合了冪律」。這讓 Morris 不禁感嘆:「不敢相信這已經(jīng)是 32 年前的事了?!?/span>

近日,OpenAI 聯(lián)合創(chuàng)始人、總裁 Greg Brockman 也轉(zhuǎn)發(fā)了這一消息,并表示這些結(jié)果跨越了多個數(shù)量級和幾十年的時間,經(jīng)歷了時間的考驗,可以說揭示了深度學(xué)習(xí)的根本。

這也不得不讓人贊嘆貝爾實驗室的前瞻性和眾多開創(chuàng)貢獻:

貝爾實驗室的 Scaling Law

回到人們正在討論的這篇論文本身。它是一篇 AI 頂會 NeurIPS 論文:

  • 論文標(biāo)題:Learning Curves: Asymptotic Values and Rate of Convergence
  • 論文鏈接:https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf

這篇論文介紹說,基于大規(guī)模數(shù)據(jù)訓(xùn)練分類方法是相當(dāng)耗費算力的工作。因此,開發(fā)高效的程序來可靠地預(yù)測分類器是否適合執(zhí)行給定任務(wù)至關(guān)重要,這樣才能將資源分配給最有潛力的候選分類器,或騰出資源來探索新的候選分類器。

作者提出了一種實用且有原則的預(yù)測方法,避免了在整個訓(xùn)練集上訓(xùn)練性能較差的分類器的高成本過程,同時擁有堅實的理論基礎(chǔ)。作者證明了所提方法的有效性,以及適用于單層和多層網(wǎng)絡(luò)。

在該工作中,作者研究了自動分類的算法,隨著訓(xùn)練數(shù)據(jù)逐步增加,分類器的能力(模型出錯的概率)被持續(xù)標(biāo)記。在測量了多個數(shù)據(jù)點后,可以發(fā)現(xiàn)模型的錯誤率對比訓(xùn)練數(shù)據(jù)的數(shù)量,在對數(shù)曲線上呈現(xiàn)出了一定的規(guī)律。

作者進而得出結(jié)論:「經(jīng)過 12000 種模式的訓(xùn)練后,很明顯新網(wǎng)絡(luò)的表現(xiàn)將優(yōu)于舊網(wǎng)絡(luò)…… 如果我們的預(yù)測方法能夠?qū)W(wǎng)絡(luò)的測試誤差做出良好的定量估計,我們就可以決定是否應(yīng)該對新架構(gòu)進行三周的訓(xùn)練?!?/span>

這就意味著模型的規(guī)模擴大,AI 的智能會越來越強;而這就是 Scaling Law(擴展定律)!

從幾萬條數(shù)據(jù)訓(xùn)練的機器學(xué)習(xí)模型開始,到去年 GPT-4 上萬億巨量數(shù)據(jù)集、萬億參數(shù)的規(guī)模,幾十年來,擴展定律一直有效。

作者介紹:從「國寶」到「瘋狂科學(xué)家」

這篇論文一共有 5 位作者:Corinna Cortes、L. D. Jackel、Sara A. Solla、Vladimir Vapnik、John S.Denker。各自都有自己的傳奇經(jīng)歷。

Corinna Cortes

這篇論文的一作 Corinna Cortes 已經(jīng)擁有超過 10 萬引用!她與四作 Vladimir Vapnik 也是經(jīng)典論文《Support-vector networks》(引用量超過了 7.7 萬)的兩位作者。這篇論文提出了大家熟知的現(xiàn)代意義上的支持向量機。

另外,她還與 LeCun 等人一起構(gòu)建了著名的 MNIST 數(shù)據(jù)集,而這也成為了后續(xù)大量研究的重要基礎(chǔ)數(shù)據(jù)集。

也無怪乎有人在評論區(qū)稱她是「國寶」:

Corinna Cortes 的職業(yè)履歷很簡單:先在貝爾實驗室工作了 14 年,之后于 2003 年加入谷歌,領(lǐng)導(dǎo) Google Research NY 達 21 年之久。現(xiàn)在她是 NeurIPS 的董事會成員之一。她同時也是一名競技跑步運動員。

Lawrence D Jackel

這篇論文的二作 Lawrence D Jackel 是時任的貝爾實驗室應(yīng)用系統(tǒng)研究部門負(fù)責(zé)人。1988 年 Yann LeCun 加入該實驗室后,與他合作完成了多項高引用研究成果,其中包括一篇重要的反向傳播論文《Backpropagation applied to handwritten zip code recognition》。

Sara A. Solla

Sara A. Solla 則是一名物理學(xué)家和神經(jīng)科學(xué)家。她最高引用的論文也是與 Yann LeCun 合著的《Optimal brain damage》。

該論文運用信息論的思想,推導(dǎo)出了一類用于調(diào)整神經(jīng)網(wǎng)絡(luò)規(guī)模的實用且近乎最優(yōu)的方案。通過從網(wǎng)絡(luò)中移除不重要的權(quán)重,可以預(yù)期實現(xiàn)多項改進:更好的泛化能力、更少的訓(xùn)練樣本需求以及更快的學(xué)習(xí)和 / 或分類速度。其基本思想是利用二階導(dǎo)數(shù)信息在網(wǎng)絡(luò)復(fù)雜度和訓(xùn)練集誤差之間進行權(quán)衡。

Vladimir Vapnik

前文我們已經(jīng)見到過 Vladimir Vapnik 的名字,即支持向量機的作者之一。除此之外,這位擁有超過 33.5 萬引用的大佬還是統(tǒng)計學(xué)習(xí)領(lǐng)域著名的 Vapnik–Chervonenkis 理論的提出者之一 —— 是的,這個理論就是以他和蘇聯(lián)數(shù)學(xué)家 Alexey Chervonenkis 的名字命名的。

Vladimir Vapnik 在 1995 年出版的 《The Nature of Statistical Learning Theory》是系統(tǒng)化提出統(tǒng)計學(xué)習(xí)理論(Statistical Learning Theory, SLT)的代表作,堪稱機器學(xué)習(xí)領(lǐng)域的里程碑。

John S. Denker

John S. Denker 則更是一位多才多藝的研究者,涉足過大量不同領(lǐng)域,甚至可以說是天才(Genius)的代名詞。

他曾就讀于加州理工學(xué)院。大三時,他創(chuàng)辦了一家成功的小型軟件和電子公司,在安防系統(tǒng)、好萊塢特效、手持電子游戲和視頻游戲等多個領(lǐng)域做出了開創(chuàng)性的工作。此外,在讀本科期間,他還在加州理工學(xué)院創(chuàng)建并教授了一門課程:「微處理器設(shè)計」。

他在康奈爾大學(xué)的博士研究考察了氫原子氣體在僅比絕對零度高千分之幾攝氏度的溫度下的性質(zhì),并表明在這種稀薄的玻色氣體中存在量子自旋輸運和長壽命的「自旋波」共振。他的其他研究涉及超低噪聲測量設(shè)備的設(shè)計 —— 其中基本的量子力學(xué)限制起著重要作用。

Denker 博士加入過 AT&T 貝爾實驗室多年時間,曾擔(dān)任杰出技術(shù)人員、部門主管和部門經(jīng)理等職務(wù)。他的研究興趣包括計算機安全、選舉安全、網(wǎng)絡(luò)電話和神經(jīng)網(wǎng)絡(luò)。他還發(fā)明了新型低能耗「絕熱」計算系統(tǒng)。

1986 年至 1987 年,他擔(dān)任加州大學(xué)圣巴巴拉分校理論物理研究所客座教授。他曾擔(dān)任多個重要科學(xué)會議的組委會委員。

他擁有多項專利,撰寫了 50 多篇研究論文和一本書的章節(jié),并編輯了 《Neural Networks for Computing》一書。他的演講范圍廣泛。

他以愛惡作劇和典型的瘋狂科學(xué)家而聞名。他的一些事跡曾被改編成電影《Real Genius》和《The Age Seeking for Genius》,并刊登在《時代》和《IEEE Spectrum》等刊物上。

John Denker 還擁有商用飛行員、飛行教練和地面教練資格。他是美國聯(lián)邦航空管理局(FAA)的航空安全顧問。他曾任蒙茅斯地區(qū)飛行俱樂部董事會成員,以及美國國家研究委員會商用航空安全委員會成員。

Scaling Law 的歷史可能還能繼續(xù)向前追溯

有意思的是,在相關(guān)推文的評論區(qū),有不少研究者評論認(rèn)為貝爾實驗室的這篇論文其實也不是 Scaling Law 的最早論文。

比如著名研究者、科技作家 Pedro Domingos 表示其實心理學(xué)領(lǐng)域才是最早探索「學(xué)習(xí)曲線」的領(lǐng)域。

研究者 Maksym Andriushchenko 表示 Vladimir Vapnik 在上世紀(jì) 60 年代就已經(jīng)研究過樣本大小方面的 Scaling Law。

而 @guillefix 則表示 Frank Rosenblatt 在 1958 年發(fā)表的感知器論文《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》就已經(jīng)給出了非常清晰的學(xué)習(xí)曲線。

此外,?? 用戶 @lu_sichu 提出了 1992 年日本工程師和神經(jīng)科學(xué)家甘利俊一(Shun-ichi Amari)寫的論文《A Universal Theorem on Learning Curves》也比貝爾實驗室的上述論文更早一些。

其中證明了一類普適的學(xué)習(xí)曲線漸近行為,適用于一般的無噪聲二分機器或神經(jīng)網(wǎng)絡(luò)。結(jié)果表明:無論機器的架構(gòu)如何,其平均預(yù)測熵或信息增益 <e*(t)> 都會在訓(xùn)練樣本數(shù) t 增加時收斂至零,并滿足 <e*(t)> ~d/t 的規(guī)律,其中 d 為機器的可調(diào)參數(shù)的個數(shù)。

縱觀數(shù)十年的研究脈絡(luò),Scaling Law 的提出并非靈光乍現(xiàn)的頓悟,而是跨越學(xué)科、跨越時代的逐步累積。從心理學(xué)的學(xué)習(xí)曲線,到感知器的早期探索,再到 Vapnik、Amari、貝爾實驗室的系統(tǒng)化研究,最后發(fā)展到 OpenAI 等機構(gòu)在大規(guī)模實驗中驗證和推廣,每一代學(xué)者都在為這條「經(jīng)驗定律」添磚加瓦。

今天我們所說的 Scaling Law,看似清晰而堅固,但它背后蘊含的是數(shù)十年理論與實踐的反復(fù)印證。正如 Brockman 所言,它揭示了深度學(xué)習(xí)的根本,而這一「根本」并不是一蹴而就的,而是科學(xué)探索在時間長河中的積累與沉淀。

對此,你怎么看?

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2010-10-14 10:59:49

Facebook

2014-11-24 10:42:50

2010-01-15 15:44:47

2022-07-02 20:04:51

數(shù)字孿生系統(tǒng)

2009-03-04 09:44:29

2024-11-13 13:50:00

AI模型

2022-03-17 09:33:28

AI深度學(xué)習(xí)思考

2012-02-03 14:05:30

2024-11-01 09:45:08

2024-11-25 15:50:00

模型訓(xùn)練

2024-12-30 10:35:00

訓(xùn)練數(shù)據(jù)模型

2021-08-16 08:44:54

Pravega Fli項目協(xié)議

2024-09-14 14:00:00

AI模型

2025-02-14 08:30:00

模型AI訓(xùn)練

2011-01-13 10:50:50

2023-11-14 17:53:39

模型訓(xùn)練

2025-02-27 12:42:54

2017-09-28 14:48:46

支付寶深度學(xué)習(xí)xNN

2016-12-28 14:16:25

京東高并發(fā)系統(tǒng)設(shè)計

2024-12-16 07:15:00

點贊
收藏

51CTO技術(shù)棧公眾號