偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="q0x98"><strong id="q0x98"></strong></nobr>

<ruby id="q0x98"></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

中英文超大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

作者：邊策 2021-10-15 15:26:10

新聞人工智能

英偉達(dá)與微軟聯(lián)合發(fā)布了5300億參數(shù)的“威震天-圖靈”（Megatron-Turing），成為迄今為止全球最大AI單體模型。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

超大AI模型訓(xùn)練成本太高h(yuǎn)old不??？連市值萬億的公司都開始尋求合作了。

本周，英偉達(dá)與微軟聯(lián)合發(fā)布了5300億參數(shù)的“威震天-圖靈”（Megatron-Turing），成為迄今為止全球最大AI單體模型。

僅僅在半個月前，國內(nèi)的浪潮發(fā)布了2500億參數(shù)的中文AI巨量模型“源1.0”。

不到一個月的時間里，最大英文和中文AI單體模型的紀(jì)錄分別被刷新。

而值得注意的是：

技術(shù)發(fā)展如此之快，“威震天-圖靈”和“源1.0”還是沒有達(dá)到指數(shù)規(guī)律的預(yù)期。

要知道，從2018年開始，NLP模型參數(shù)近乎以每年一個數(shù)量級的速度在增長。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

△ 近年來NLP模型參數(shù)呈指數(shù)級上漲（圖片來自微軟）

而GPT-3出現(xiàn)后，雖然有Switch Transformer等萬億參數(shù)混合模型出現(xiàn)，但單體模型增長速度已經(jīng)明顯放緩。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

無論是國外的“威震天-圖靈”，還是國內(nèi)的“源1.0”，其規(guī)模和GPT-3沒有數(shù)量級上的差異。即便“威震天-圖靈”和“源1.0”都用上了各自最強(qiáng)大的硬件集群。

單體模型是發(fā)展遇到瓶頸了么？

超大模型的三個模式

回答這個疑問，首先得梳理一下近年來出現(xiàn)的超大規(guī)模NLP模型。

如果從模型的開發(fā)者來看，超大規(guī)模NLP模型的研發(fā)隨時間發(fā)展逐漸形成了三種模式。

一、以研究機(jī)構(gòu)為主導(dǎo)

無論是開發(fā)ELMo的Allen研究所、還是開發(fā)GPT-2的OpenAI（當(dāng)時還未引入微軟投資）都不是以盈利為目標(biāo)。

且這一階段的超大NLP模型都是開源的，得到了開源社區(qū)的各種復(fù)現(xiàn)與改進(jìn)。

ELMo有超過40個非官方實(shí)現(xiàn)，GPT-2也被國內(nèi)開發(fā)者引入，用于中文處理。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

二、科技企業(yè)巨頭主導(dǎo)

由于模型越來越大，訓(xùn)練過程中硬件的優(yōu)化變得尤為重要。

從2019年下半年開始，各家分別開發(fā)出大規(guī)模并行訓(xùn)練、模型擴(kuò)展技術(shù)，以期開發(fā)出更大的NLP模型。英偉達(dá)Megatron-LM、谷歌T5、微軟Turing-NLG相繼出現(xiàn)。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

今年國內(nèi)科技公司也開始了類似研究，中文AI模型“源1.0”便是國內(nèi)硬件公司的一次突破——

成就中文領(lǐng)域最大NLP模型，更一度刷新參數(shù)最多的大模型紀(jì)錄。

“源1.0”不僅有高達(dá)5TB的全球最大中文高質(zhì)量數(shù)據(jù)集，在總計算量和訓(xùn)練效率優(yōu)化上都是空前的。

三、巨頭與研究機(jī)構(gòu)或巨頭之間相互合作

擁有技術(shù)的OpenAI由于難以承受高昂成本，引入了微軟10億美元投資。依靠海量的硬件與數(shù)據(jù)集資源，1750億參數(shù)的GPT-3于去年問世。

但是，今年萬億參數(shù)模型的GPT-4并沒有如期出現(xiàn)，反而是微軟與英偉達(dá)聯(lián)手，推出了“威震天-圖靈”。

我們再把目光放回到國內(nèi)。

“威震天-圖靈”發(fā)布之前，國內(nèi)外涌現(xiàn)了了不少超大AI單體模型，國內(nèi)就有阿里達(dá)摩院PLUG、“源1.0”等。

像英偉達(dá)、微軟、谷歌、華為、浪潮等公司加入，一方面是為AI研究提供大量的算力支持，另一方面是因?yàn)樗麄冊诖笠?guī)模并行計算上具有豐富的經(jīng)驗(yàn)。

當(dāng)AI模型參數(shù)與日俱增，達(dá)到千億量級，訓(xùn)練模型的可行性面臨兩大挑戰(zhàn)：

1、即使是最強(qiáng)大的GPU，也不再可能將模型參數(shù)擬合到單卡的顯存中；

2、如果不特別注意優(yōu)化算法、軟件和硬件堆棧，那么超大計算會讓訓(xùn)練時長變得不切實(shí)際。

而現(xiàn)有的三大并行策略在計算效率方面存在妥協(xié)，難以做到魚與熊掌兼得。

英偉達(dá)與微軟合體正是為此，同樣面對該問題，浪潮在“源1.0”中也用了前沿的技術(shù)路徑解決訓(xùn)練效率問題。

從“源1.0”的arXiv論文中，我們可以窺見這種提高計算效率的方法。

在對源的大規(guī)模分布式訓(xùn)練中，浪潮采用了張量并行、流水線并行和數(shù)據(jù)并行的三維并行策略。

“威震天-圖靈”和“源1.0”一樣，在張量并行策略中，模型的層在節(jié)點(diǎn)內(nèi)的設(shè)備之間進(jìn)行劃分。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

流水線并行將模型的層序列在多個節(jié)點(diǎn)之間進(jìn)行分割，以解決存儲空間不足的問題。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

另外還有數(shù)據(jù)并行策略，將全局批次規(guī)模按照流水線分組進(jìn)行分割。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

三家公司運(yùn)用各自的技術(shù)，將最先進(jìn)的GPU與尖端的分布式學(xué)習(xí)軟件堆棧進(jìn)行融合，實(shí)現(xiàn)了前所未有的訓(xùn)練效率，最終分別打造出英文領(lǐng)域和中文領(lǐng)域的最大AI單體模型。

訓(xùn)練超大規(guī)模自然語言模型成本升高，技術(shù)上殊途同歸，形成研究機(jī)構(gòu)與科技巨頭協(xié)同發(fā)展，三種探索模式并駕齊驅(qū)的局面。

中英AI模型互有勝負(fù)

訓(xùn)練成本趨高，技術(shù)趨同，為何各家公司還是選擇獨(dú)自研究，不尋求合作？

我們從GPT-3身上或許可見一斑。

去年發(fā)布的GPT-3不僅未開源，甚至連API都是限量提供，由于獲得微軟的投資，今后GPT-3將由微軟獨(dú)享知識產(chǎn)權(quán)，其他企業(yè)或個人想使用完整功能只能望洋興嘆。

訓(xùn)練成本奇高、道德倫理問題以及為了保證行業(yè)領(lǐng)先地位，讓微軟不敢下放技術(shù)。其他科技公司也不可能將自己的命運(yùn)交給微軟，只能選擇獨(dú)自開發(fā)。

尤其對于中國用戶來說，以上一批超大模型都不是用中文數(shù)據(jù)集訓(xùn)練，無法使用在中文語境中。

中文語言的訓(xùn)練也比英文更難。英文由單詞組成，具有天然的分詞屬性。

而中文需要對句子首先進(jìn)行分詞處理，如“南京市長江大橋”， 南京市|長江|大橋、南京|市長|江大橋，錯誤的分詞會讓AI產(chǎn)生歧義。

相比于英文有空格作為分隔符，中文分詞缺乏統(tǒng)一標(biāo)準(zhǔn)，同樣一個詞匯在不同語境、不同句子中的含義可能會相差甚遠(yuǎn)，加上各種網(wǎng)絡(luò)新詞匯參差不齊、中英文混合詞匯等情況，要打造出一款出色的中文語言模型需要付出更多努力。

所以國內(nèi)公司更積極研究中文模型也就不難理解了。

即便難度更高，國內(nèi)公司還一度處于全球領(lǐng)先，比如數(shù)據(jù)集和訓(xùn)練效率方面。

據(jù)浪潮論文透露，“源1.0”硬件上使用了2128塊GPU，浪潮共搜集了850TB數(shù)據(jù)，最終清洗得到5TB高質(zhì)量中文數(shù)據(jù)集。

中英文最大AI模型世界紀(jì)錄產(chǎn)生，大模型競賽新階段來了

其文字?jǐn)?shù)據(jù)體積多于“威震天-圖靈”(835GB)，而且中文信息熵大大高于英文，信息量其實(shí)更大。

在訓(xùn)練效率方面，“源1.0”訓(xùn)練用了16天，“圖靈威-震天”用了一個多月，前者數(shù)據(jù)量是后者3倍有余，耗時卻只有后者一半——

其專注中文，關(guān)注效率努力也可見一斑。

大模型你來我往間能看出，發(fā)展已走入百花齊放互不相讓的階段，這給我們帶來新的思考：AI巨量模型既然不“閉門造車”，那如何走向合作？

多方合作可能才是未來

表面上“威震天-圖靈”（Megatron-Turing NLG）是第一次由兩家科技巨頭合作推出超大AI模型。

其背后，雙方不僅組成了“超豪華”硬件陣容，在算法上也有融合。強(qiáng)強(qiáng)聯(lián)合成為超大AI模型落地的一種新方式，

國外巨頭開啟先例，那么國內(nèi)公司的現(xiàn)狀又是如何呢？其實(shí)有機(jī)構(gòu)已經(jīng)邁出合作的第一步。

諸如浪潮的“源1.0”，和當(dāng)初的“威震天”一樣，也是由硬件廠商主導(dǎo)開發(fā)的超大規(guī)模自然語言模型。

浪潮透露，實(shí)際上9月28日的發(fā)布會上，他們邀請了國內(nèi)的學(xué)者和數(shù)家科技公司共同探討未來“源1.0”合作的可能性。

在產(chǎn)業(yè)界，浪潮早就提出了“元腦計劃”的生態(tài)聯(lián)盟，“源1.0”未來將向元腦生態(tài)社區(qū)內(nèi)所有開發(fā)者開放API，所有加入生態(tài)的AI技術(shù)公司都可以利用“源1.0”進(jìn)行二次開發(fā)，從而制造出更強(qiáng)大的功能。

國內(nèi)超大規(guī)模自然語言模型合作的時代正在開啟。

合作開發(fā)巨量模型能帶來什么？李飛飛等知名學(xué)者已經(jīng)給出答案：當(dāng)數(shù)據(jù)規(guī)模和參數(shù)規(guī)模大到一定程度時，量變最終能產(chǎn)生質(zhì)變，GPT-3就是先例。

如今大模型越來越多，但未來關(guān)鍵還在于如何縱橫捭闔，打造屬于一套開放合作體系，讓所有技術(shù)公司群策群力。

而AI巨量模型在這樣的生態(tài)體系下會帶來怎樣的變化，在“源1.0”等一大批模型開放后，應(yīng)該很快就能看見。

責(zé)任編輯：張燕妮來源：量子位

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營