偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

2010年以來,ML算力需求增長100億,6個月翻番,深度學(xué)習(xí)成分水嶺

人工智能 新聞
近日,阿伯丁大學(xué)等機(jī)構(gòu)的研究者重新對 1952 年至今模型不同發(fā)展階段所需訓(xùn)練算力進(jìn)行了深入探討,并得出了與以往工作不同的結(jié)論。

算力、數(shù)據(jù)和算法是引導(dǎo)現(xiàn)代機(jī)器學(xué)習(xí)(ML)進(jìn)步的三個基本因素。

人工智能技術(shù)近年來的發(fā)展不僅仰仗于大數(shù)據(jù)和算法,更是算力不斷增強(qiáng)的結(jié)果。據(jù)了解從 2012 年到 2018 年,用于訓(xùn)練大型模型的計算能力已增長了 30 萬倍,并且約每三個半月翻一番。

人工神經(jīng)網(wǎng)絡(luò)在上世紀(jì) 80 年代就被提出,但由于算力的限制經(jīng)歷數(shù)年寒冬。不過由于技術(shù)的發(fā)展,這一限制得到突破,GPU、CPU 和 AI 加速芯片不斷被推出。

隨著深度學(xué)習(xí)的出現(xiàn),算力需求呈現(xiàn)指數(shù)級增長。2018 年 Bert 橫空出世,谷歌、微軟、英偉達(dá)等巨頭紛紛推出自己的大模型,將其視為下一個 AI 領(lǐng)域的必爭的高地,例如谷歌發(fā)布首個萬億級模型 Switch Transformer、英偉達(dá)與微軟聯(lián)合發(fā)布了 5300 億參數(shù)的 MT-NLG……

大模型伴隨而來的是大算力,我們不禁會問,深度學(xué)習(xí)時代以來ML算力需求增加了多少?未來,隨著模型的擴(kuò)展,算力還能跟得上嗎?

近日來自阿伯丁大學(xué)、MIT 等機(jī)構(gòu)的研究者對 ML 三要素中的算力需求進(jìn)行了研究。他們發(fā)現(xiàn),在 2010 年之前訓(xùn)練所需的算力增長符合摩爾定律,大約每 20 個月翻一番。自 2010 年代初深度學(xué)習(xí)問世以來,訓(xùn)練所需的算力快速增長,大約每 6 個月翻一番。2015 年末,隨著大規(guī)模 ML 模型的出現(xiàn),訓(xùn)練算力的需求提高了 10 到 100 倍,出現(xiàn)了一種新的趨勢。

  • 論文地址:https://arxiv.org/pdf/2202.05924.pdf
  • GitHub 地址:https://github.com/ML-Progress/Compute-Trends

基于上述發(fā)現(xiàn),研究者將 ML 所需算力歷史分為三個階段:前深度學(xué)習(xí)時代;深度學(xué)習(xí)時代;大規(guī)模時代??偟膩碚f,該論文詳細(xì)研究了里程碑式 ML 模型隨時間變化的算力需求。

本文貢獻(xiàn)如下:

  • 收集了 123 個具有里程碑意義的 ML 系統(tǒng)數(shù)據(jù)集,并對算力進(jìn)行了注釋;
  • 初步將算力趨勢劃分為三個不同的階段;
  • 對算力結(jié)果進(jìn)行檢查,討論了與以前工作的不同之處。

論文作者之一 Lennart Heim 表示:在過去的 12 年里(2010-2022 年),ML 訓(xùn)練算力增長了 100 億倍。

以往工作

此前就有關(guān)于算力的研究,2018 年 Amodei 、Hernandez 介紹了兩種評估算力的方法,他們基于 15 個 ML 系統(tǒng)分析了所需算力趨勢。他們發(fā)現(xiàn),從 2012 年到 2018 年,ML 訓(xùn)練所需算力 3.4 個月翻一番。

2019 年 Sastry 等人添加了 2012 年以前的 10 篇論文補充了上述分析。他們發(fā)現(xiàn)從 1959 年到 2012 年,大約 2 年時間,訓(xùn)練所需算力翻一番。

2021 年 Lyzhov 擴(kuò)展了 Amodei 和 Hernandez 的數(shù)據(jù)集,他認(rèn)為在 2018 年之后算力增長停滯。特別是,作者發(fā)現(xiàn) 2020 年計算最密集的模型(GPT-3)只需要比 2017 年計算最密集的模型(AlphaGo Zero)多 1.5 倍的計算量。

下圖很好的總結(jié)了上述研究:2012-2018 年,大約 3.4 個月算力翻一番(Amodei 、Hernandez 研究);1959-2018 年,大約需要 2 年算力翻一番(Sastry 等人);2018-2020 年,需要超過 2 年算力翻一番(Lyzhov 研究)。

在類似的研究中,2021 年 Sevilla 等人調(diào)查了可訓(xùn)練參數(shù)數(shù)量趨勢。他們發(fā)現(xiàn),從 2000 年到 2021 年,所有應(yīng)用領(lǐng)域的參數(shù)倍增時間為 18 到 24 個月。對于語言模型,他們發(fā)現(xiàn)在 2016 年到 2018 年之間發(fā)生了不連續(xù)性,其中參數(shù)的倍增時間加快到 4 到 8 個月。

此外,2021 年 Desislavov 等人研究了計算機(jī)視覺和自然語言處理系統(tǒng)中所需推理算力。但該研究與之前的工作相比,數(shù)據(jù)集更加全面,該研究數(shù)據(jù)集包含的 ML 模型比以前的數(shù)據(jù)多三倍,并且包含了 2022 年的最新數(shù)據(jù)。

趨勢解讀

研究者根據(jù)三個不同的時代和三種不同的趨勢來解讀他們整理的數(shù)據(jù)。簡單來說,在深度學(xué)習(xí)起飛前,有一個緩慢增長的時代。大約在 2010 年,這一趨勢加速并且此后一直沒有放緩。另外,2015 至 2016 年大規(guī)模模型出現(xiàn)了一個新趨勢,即增長速度相似,但超越以往兩個數(shù)量級(orders of magnitude, OOM)。具體可見下圖 1 和表 2。

圖 1:1952 年以來,里程碑式 ML 系統(tǒng)隨時間推移的訓(xùn)練算力(FLOPs)變化。

表 2:不同階段的趨勢。

研究者首先討論了 2010 至 2012 年左右向深度學(xué)習(xí)的過渡,然后是 2015 至 2016 年左右大規(guī)模模型的出現(xiàn)。他們執(zhí)行了一些替代性分析以從其他角度檢查自己的結(jié)論。

此外,研究者在附錄 B 中討論了創(chuàng)紀(jì)錄模式的趨勢,在附錄 C 中談?wù)摿瞬煌?ML 領(lǐng)域的趨勢。

向深度學(xué)習(xí)的過渡

與 Amodei & Hernandez (2018) 的結(jié)果一致,研究者發(fā)現(xiàn)深度學(xué)習(xí)出現(xiàn)前后的兩種截然不同的趨勢機(jī)制。深度學(xué)習(xí)出現(xiàn)之前,訓(xùn)練 ML 系統(tǒng)需要的算力每 17 至 29 個月翻一番。深度學(xué)習(xí)出現(xiàn)之后,整體趨勢加速,算力每 4 至 9 個月翻一番。深度學(xué)習(xí)之前的趨勢大致符合摩爾定律,根據(jù)該定律,集成電路上可以容納的晶體管數(shù)量大約每隔 18 至 24 個月翻一番,通常簡化為每兩年翻一番。

目前不清楚深度學(xué)習(xí)時代何時開始的,從前(Pre-)深度學(xué)習(xí)到深度學(xué)習(xí)時代的過渡中沒有出現(xiàn)明顯的間斷。

此外,如果將深度學(xué)習(xí)時代的開始定為 2010 或 2012 年,研究者的結(jié)果幾乎沒有變化,具體如下表 3 所示。

圖 2:1952 至 2022 年期間,里程碑式 ML 系統(tǒng)的算力變化趨勢。請?zhí)貏e注意 2010 年左右的坡度變化。

表 3:1952 至 2022 年 ML 模型的對數(shù)線性回歸結(jié)果。

大規(guī)模時代的趨勢

數(shù)據(jù)顯示,大約 2015 至 2016 年左右,大規(guī)模模型出現(xiàn)了一個新趨勢,具體可見下圖 3。這一趨勢始于 2015 年底 AlphaGo 的出現(xiàn)并一直延續(xù)至今。期間,這些大規(guī)模模型由科技巨擘訓(xùn)練,他們擁有的更多訓(xùn)練預(yù)算打破了以往的趨勢。

需要注意,研究者在確定哪些系統(tǒng)屬于這一新的大規(guī)模趨勢時做了直觀的決定,并證明它們是相對于鄰近模型超出了某個 Z-value 閾值的模型,方法細(xì)節(jié)詳見附錄 A。附錄 F 討論了大規(guī)模模型在哪些方法截然不同。

圖 3:2010 至 2022 年里程碑式 ML 系統(tǒng)的算力變化趨勢。

不過,常規(guī)規(guī)模模型的趨勢依然沒有受到影響。2016 年前后趨勢是連續(xù)的,具有相同的坡度變化,每 5 至 6 個月翻一番。大規(guī)模模型算力增加趨勢顯然更慢,每 9 至 10 個月翻一番。研究者表示,由于關(guān)于這些模型的數(shù)據(jù)有限,所以明顯的減速可能是噪聲的影響。

研究者的結(jié)果與 Amodei & Hernandez (2018) 形成鮮明對比,后者發(fā)現(xiàn) 2012 至 2018 年算力翻一番用時更短 ——3.4 個月。結(jié)果也與 Lyzhov (2021) 的不同,他們發(fā)現(xiàn) 2018 至 2020 年算力翻一番用的時間更長 ——2 年以上。研究者理解了這些不一致的地方,原因在于其他人的分析使用了有限的數(shù)據(jù)樣本并假定單一趨勢,自己則是分別研究了大規(guī)模和常規(guī)規(guī)模的模型。

并且,由于大規(guī)模趨勢僅在近期出現(xiàn),因而以往的分析無法區(qū)分這兩類不同的趨勢。

2010 至 2022 年數(shù)據(jù)的對數(shù)線性回歸結(jié)果。2015 年之前常規(guī)規(guī)模模型的趨勢在之后保持不變。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2010-03-13 10:13:04

2019-01-07 14:13:32

云計算SaaS分水嶺

2011-12-13 20:28:40

蘋果

2009-02-23 09:34:54

畢業(yè)生職業(yè)發(fā)展職場定位

2020-08-23 11:50:58

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2023-11-08 08:40:35

JavaScriptS 模塊

2010-01-18 10:33:42

2020-09-10 17:54:00

差異化

2021-02-21 11:56:01

云計算阿里云亞馬遜

2025-04-24 15:26:22

2020-12-14 10:47:30

云計算云原生容器

2016-05-27 14:45:48

搜索

2020-04-10 16:13:31

5G通信華為

2010-12-03 09:18:44

2020-09-04 11:30:06

深度學(xué)習(xí)編程人工智能

2013-07-01 00:00:00

程序員SAP顧問

2011-07-11 16:12:05

Android應(yīng)用開發(fā)

2011-03-14 11:16:11

2022-07-26 13:53:23

網(wǎng)絡(luò)安全事件網(wǎng)絡(luò)安全

2018-08-09 14:42:15

PCGeForce 11成本
點贊
收藏

51CTO技術(shù)棧公眾號