偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

微軟讓訓(xùn)練萬億參數(shù)AI模型的GPU需求從4000個減少到800個

作者：包永剛 2020-09-11 10:48:49

新聞人工智能

微軟今天發(fā)布了DeepSpeed庫的更新版本，該庫引入了一種新方法來訓(xùn)練包含數(shù)萬億個參數(shù)的AI模型，這種模型內(nèi)部的變量可為預(yù)測提供依據(jù)。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

微軟今天發(fā)布了DeepSpeed庫的更新版本，該庫引入了一種新方法來訓(xùn)練包含數(shù)萬億個參數(shù)的AI模型，這種模型內(nèi)部的變量可為預(yù)測提供依據(jù)。微軟稱這種技術(shù)稱為3D并行性，可以適應(yīng)各種的工作負(fù)載需求，特別是為功耗大的超大型模型平衡效率。

[[341739]]

具有數(shù)十億個參數(shù)的單個大型AI模型在一系列具有挑戰(zhàn)性的領(lǐng)域中取得了長足的進(jìn)步。研究表明它們之所以表現(xiàn)出色，是因為它們可以理解語言、語法、知識、概念和上下文的細(xì)微差別，使他們能夠總結(jié)演講，在實時游戲聊天中過濾不合適的話語，解析復(fù)雜的法律文檔，甚至可以通過搜索GitHub生成代碼。

但是訓(xùn)練模型需要大量的計算資源。根據(jù)2018年OpenAI的分析，從2012年到2018年，在大型AI訓(xùn)練中，計算量的需求增長了300,000倍，也就是大概每3.5個月的時間翻一番，遠(yuǎn)遠(yuǎn)超過了摩爾定律的步伐。

增強(qiáng)的DeepSpeed利用三種技術(shù)來實現(xiàn)“萬億級”模型訓(xùn)練：數(shù)據(jù)并行訓(xùn)練、模型并行訓(xùn)練和管線并行訓(xùn)練。

訓(xùn)練一個萬億參數(shù)的模型將需要至少400個Nvidia 今年最新推出的A100 GPU（每個內(nèi)存高達(dá)40GB），并且Microsoft估計需要4,000臺A100以50%的效率運行，大約需要100天才能完成訓(xùn)練。這與微軟和OpenAI共同設(shè)計的AI超級計算機(jī)無并不匹配，后者包含10,000多個顯卡，在這樣的超大規(guī)模下，很難獲得很高的計算效率。

DeepSpeed將大型模型分為四個流水線階段，分為較小的組件（層）。每個流水線階段中的層進(jìn)一步劃分為四個“工人（workers）”，它們執(zhí)行實際的訓(xùn)練。每個管道都在兩個并行數(shù)據(jù)實例之間復(fù)制，并且工作程序被映射到多GPU系統(tǒng)。由于有了這些和其他性能改進(jìn)，微軟表示，一個萬億參數(shù)的AI模型可以減少到僅需要800個Nvidia V100 GPU訓(xùn)練。

DeepSpeed的最新版本還包含了ZeRO-Offload技術(shù)，該技術(shù)可利用GPU及其主機(jī)CPU上的計算和內(nèi)存資源，從而在一臺V100上訓(xùn)練多達(dá)130億個參數(shù)的模型。微軟聲稱這比最新技術(shù)強(qiáng)10倍，使得訓(xùn)練人員可以使用更少的計算資源來進(jìn)行數(shù)據(jù)科學(xué)家的訓(xùn)練。

“這些（DeepSpeed中的新技術(shù)）提供了極高的計算、內(nèi)存和通信效率，并支持?jǐn)?shù)十億到數(shù)萬億個參數(shù)的模型訓(xùn)練。” 微軟在博客中寫道，“這些技術(shù)還允許極長的輸入序列，并通過單個GPU，具有數(shù)千個GPU的高端集群或具有非常慢的以太網(wǎng)網(wǎng)絡(luò)的低端集群釋放硬件系統(tǒng)的能量。我們將（繼續(xù)）進(jìn)行快速創(chuàng)新，為深度學(xué)習(xí)訓(xùn)練突破了速度和規(guī)模的界限。”

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

微軟機(jī)器學(xué)習(xí)開源AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="peowo"></cite>

<style id="peowo"></style>

<cite id="peowo"><track id="peowo"></track></cite>