偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="2l96v"></sub>

^{<sub id="2l96v"></sub>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

2010年以來，ML算力需求增長100億，6個月翻番，深度學(xué)習(xí)成分水嶺

作者：機器之心編譯 2022-03-16 09:40:30

人工智能新聞

近日，阿伯丁大學(xué)等機構(gòu)的研究者重新對 1952 年至今模型不同發(fā)展階段所需訓(xùn)練算力進(jìn)行了深入探討，并得出了與以往工作不同的結(jié)論。

算力、數(shù)據(jù)和算法是引導(dǎo)現(xiàn)代機器學(xué)習(xí)（ML）進(jìn)步的三個基本因素。

人工智能技術(shù)近年來的發(fā)展不僅仰仗于大數(shù)據(jù)和算法，更是算力不斷增強的結(jié)果。據(jù)了解從 2012 年到 2018 年，用于訓(xùn)練大型模型的計算能力已增長了 30 萬倍，并且約每三個半月翻一番。

人工神經(jīng)網(wǎng)絡(luò)在上世紀(jì) 80 年代就被提出，但由于算力的限制經(jīng)歷數(shù)年寒冬。不過由于技術(shù)的發(fā)展，這一限制得到突破，GPU、CPU 和 AI 加速芯片不斷被推出。

隨著深度學(xué)習(xí)的出現(xiàn)，算力需求呈現(xiàn)指數(shù)級增長。2018 年 Bert 橫空出世，谷歌、微軟、英偉達(dá)等巨頭紛紛推出自己的大模型，將其視為下一個 AI 領(lǐng)域的必爭的高地，例如谷歌發(fā)布首個萬億級模型 Switch Transformer、英偉達(dá)與微軟聯(lián)合發(fā)布了 5300 億參數(shù)的 MT-NLG……

大模型伴隨而來的是大算力，我們不禁會問，深度學(xué)習(xí)時代以來ML算力需求增加了多少？未來，隨著模型的擴展，算力還能跟得上嗎？

近日來自阿伯丁大學(xué)、MIT 等機構(gòu)的研究者對 ML 三要素中的算力需求進(jìn)行了研究。他們發(fā)現(xiàn)，在 2010 年之前訓(xùn)練所需的算力增長符合摩爾定律，大約每 20 個月翻一番。自 2010 年代初深度學(xué)習(xí)問世以來，訓(xùn)練所需的算力快速增長，大約每 6 個月翻一番。2015 年末，隨著大規(guī)模 ML 模型的出現(xiàn)，訓(xùn)練算力的需求提高了 10 到 100 倍，出現(xiàn)了一種新的趨勢。

論文地址：https://arxiv.org/pdf/2202.05924.pdf
GitHub 地址：https://github.com/ML-Progress/Compute-Trends

基于上述發(fā)現(xiàn)，研究者將 ML 所需算力歷史分為三個階段：前深度學(xué)習(xí)時代；深度學(xué)習(xí)時代；大規(guī)模時代?？偟膩碚f，該論文詳細(xì)研究了里程碑式 ML 模型隨時間變化的算力需求。

本文貢獻(xiàn)如下：

收集了 123 個具有里程碑意義的 ML 系統(tǒng)數(shù)據(jù)集，并對算力進(jìn)行了注釋；
初步將算力趨勢劃分為三個不同的階段；
對算力結(jié)果進(jìn)行檢查，討論了與以前工作的不同之處。

論文作者之一 Lennart Heim 表示：在過去的 12 年里（2010-2022 年），ML 訓(xùn)練算力增長了 100 億倍。

以往工作

此前就有關(guān)于算力的研究，2018 年 Amodei 、Hernandez 介紹了兩種評估算力的方法，他們基于 15 個 ML 系統(tǒng)分析了所需算力趨勢。他們發(fā)現(xiàn)，從 2012 年到 2018 年，ML 訓(xùn)練所需算力 3.4 個月翻一番。

2019 年 Sastry 等人添加了 2012 年以前的 10 篇論文補充了上述分析。他們發(fā)現(xiàn)從 1959 年到 2012 年，大約 2 年時間，訓(xùn)練所需算力翻一番。

2021 年 Lyzhov 擴展了 Amodei 和 Hernandez 的數(shù)據(jù)集，他認(rèn)為在 2018 年之后算力增長停滯。特別是，作者發(fā)現(xiàn) 2020 年計算最密集的模型（GPT-3）只需要比 2017 年計算最密集的模型（AlphaGo Zero）多 1.5 倍的計算量。

下圖很好的總結(jié)了上述研究：2012-2018 年，大約 3.4 個月算力翻一番（Amodei 、Hernandez 研究）；1959-2018 年，大約需要 2 年算力翻一番（Sastry 等人）；2018-2020 年，需要超過 2 年算力翻一番（Lyzhov 研究）。

在類似的研究中，2021 年 Sevilla 等人調(diào)查了可訓(xùn)練參數(shù)數(shù)量趨勢。他們發(fā)現(xiàn)，從 2000 年到 2021 年，所有應(yīng)用領(lǐng)域的參數(shù)倍增時間為 18 到 24 個月。對于語言模型，他們發(fā)現(xiàn)在 2016 年到 2018 年之間發(fā)生了不連續(xù)性，其中參數(shù)的倍增時間加快到 4 到 8 個月。

此外，2021 年 Desislavov 等人研究了計算機視覺和自然語言處理系統(tǒng)中所需推理算力。但該研究與之前的工作相比，數(shù)據(jù)集更加全面，該研究數(shù)據(jù)集包含的 ML 模型比以前的數(shù)據(jù)多三倍，并且包含了 2022 年的最新數(shù)據(jù)。

趨勢解讀

研究者根據(jù)三個不同的時代和三種不同的趨勢來解讀他們整理的數(shù)據(jù)。簡單來說，在深度學(xué)習(xí)起飛前，有一個緩慢增長的時代。大約在 2010 年，這一趨勢加速并且此后一直沒有放緩。另外，2015 至 2016 年大規(guī)模模型出現(xiàn)了一個新趨勢，即增長速度相似，但超越以往兩個數(shù)量級（orders of magnitude, OOM）。具體可見下圖 1 和表 2。

圖 1：1952 年以來，里程碑式 ML 系統(tǒng)隨時間推移的訓(xùn)練算力（FLOPs）變化。

表 2：不同階段的趨勢。

研究者首先討論了 2010 至 2012 年左右向深度學(xué)習(xí)的過渡，然后是 2015 至 2016 年左右大規(guī)模模型的出現(xiàn)。他們執(zhí)行了一些替代性分析以從其他角度檢查自己的結(jié)論。

此外，研究者在附錄 B 中討論了創(chuàng)紀(jì)錄模式的趨勢，在附錄 C 中談?wù)摿瞬煌?ML 領(lǐng)域的趨勢。

向深度學(xué)習(xí)的過渡

與 Amodei & Hernandez (2018) 的結(jié)果一致，研究者發(fā)現(xiàn)深度學(xué)習(xí)出現(xiàn)前后的兩種截然不同的趨勢機制。深度學(xué)習(xí)出現(xiàn)之前，訓(xùn)練 ML 系統(tǒng)需要的算力每 17 至 29 個月翻一番。深度學(xué)習(xí)出現(xiàn)之后，整體趨勢加速，算力每 4 至 9 個月翻一番。深度學(xué)習(xí)之前的趨勢大致符合摩爾定律，根據(jù)該定律，集成電路上可以容納的晶體管數(shù)量大約每隔 18 至 24 個月翻一番，通常簡化為每兩年翻一番。

目前不清楚深度學(xué)習(xí)時代何時開始的，從前（Pre-）深度學(xué)習(xí)到深度學(xué)習(xí)時代的過渡中沒有出現(xiàn)明顯的間斷。

此外，如果將深度學(xué)習(xí)時代的開始定為 2010 或 2012 年，研究者的結(jié)果幾乎沒有變化，具體如下表 3 所示。

圖 2：1952 至 2022 年期間，里程碑式 ML 系統(tǒng)的算力變化趨勢。請?zhí)貏e注意 2010 年左右的坡度變化。

表 3：1952 至 2022 年 ML 模型的對數(shù)線性回歸結(jié)果。

大規(guī)模時代的趨勢

數(shù)據(jù)顯示，大約 2015 至 2016 年左右，大規(guī)模模型出現(xiàn)了一個新趨勢，具體可見下圖 3。這一趨勢始于 2015 年底 AlphaGo 的出現(xiàn)并一直延續(xù)至今。期間，這些大規(guī)模模型由科技巨擘訓(xùn)練，他們擁有的更多訓(xùn)練預(yù)算打破了以往的趨勢。

需要注意，研究者在確定哪些系統(tǒng)屬于這一新的大規(guī)模趨勢時做了直觀的決定，并證明它們是相對于鄰近模型超出了某個 Z-value 閾值的模型，方法細(xì)節(jié)詳見附錄 A。附錄 F 討論了大規(guī)模模型在哪些方法截然不同。

圖 3：2010 至 2022 年里程碑式 ML 系統(tǒng)的算力變化趨勢。

不過，常規(guī)規(guī)模模型的趨勢依然沒有受到影響。2016 年前后趨勢是連續(xù)的，具有相同的坡度變化，每 5 至 6 個月翻一番。大規(guī)模模型算力增加趨勢顯然更慢，每 9 至 10 個月翻一番。研究者表示，由于關(guān)于這些模型的數(shù)據(jù)有限，所以明顯的減速可能是噪聲的影響。

研究者的結(jié)果與 Amodei & Hernandez (2018) 形成鮮明對比，后者發(fā)現(xiàn) 2012 至 2018 年算力翻一番用時更短 ——3.4 個月。結(jié)果也與 Lyzhov (2021) 的不同，他們發(fā)現(xiàn) 2018 至 2020 年算力翻一番用的時間更長 ——2 年以上。研究者理解了這些不一致的地方，原因在于其他人的分析使用了有限的數(shù)據(jù)樣本并假定單一趨勢，自己則是分別研究了大規(guī)模和常規(guī)規(guī)模的模型。

并且，由于大規(guī)模趨勢僅在近期出現(xiàn)，因而以往的分析無法區(qū)分這兩類不同的趨勢。

2010 至 2022 年數(shù)據(jù)的對數(shù)線性回歸結(jié)果。2015 年之前常規(guī)規(guī)模模型的趨勢在之后保持不變。

責(zé)任編輯：張燕妮來源：機器之心Pro

深度學(xué)習(xí)算法模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="s36kl"><track id="s36kl"><dfn id="s36kl"></dfn></track></legend>

<optgroup id="s36kl"><strong id="s36kl"><pre id="s36kl"></pre></strong></optgroup>

<sub id="s36kl"></sub>