偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="ez5rg"><th id="ez5rg"></th></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

作者：機(jī)器之心編輯部 2021-12-10 15:46:18

新聞人工智能

大規(guī)模語言模型性能固然好，但計(jì)算和資源成本太高了，有沒有方法可以更有效地訓(xùn)練和使用 ML 模型呢？

近幾年，我們已經(jīng)看到模型規(guī)模越來越大，例如 2018 年誕生的 GPT 具有 1.17 億參數(shù)，時(shí)隔一年，2019 年 GPT-2 參數(shù)量達(dá)到 15 億，2020 年更是將其擴(kuò)展到 1750 億參數(shù)的 GPT-3。據(jù)了解，OpenAI 打造的超級(jí)計(jì)算機(jī)擁有 285000 個(gè) CPU 核以及 10000 個(gè) GPU，供 OpenAI 在上面訓(xùn)練所有的 AI 模型。

大型語言模型雖然訓(xùn)練昂貴，但也有其重要的一面，例如可以在各種任務(wù)中執(zhí)行小樣本學(xué)習(xí)，包括閱讀理解、問答。雖然這些模型可以通過簡(jiǎn)單地使用更多參數(shù)來獲得更好的性能。但是有沒有方法可以更有效地訓(xùn)練和使用這些模型呢？

為了回答這個(gè)問題，谷歌推出了具有萬億權(quán)重的通用語言模型 (Generalist Language Model，GLaM)，該模型的一大特點(diǎn)就是具有稀疏性，可以高效地進(jìn)行訓(xùn)練和服務(wù)（在計(jì)算和資源使用方面），并在多個(gè)小樣本學(xué)習(xí)任務(wù)上取得有競(jìng)爭(zhēng)力的性能。

我們來看一下 GLaM 模型的具體情況。

數(shù)據(jù)集

谷歌首先構(gòu)建了一個(gè)高質(zhì)量的、具有 1.6 萬億 token 的數(shù)據(jù)集，該無標(biāo)簽數(shù)據(jù)集很大一部分來自 Web 頁面，其范圍從專業(yè)寫作到低質(zhì)量的評(píng)論和論壇頁面。此外，谷歌還開發(fā)了一個(gè)文本質(zhì)量過濾器，該過濾器是在維基百科和書籍文本數(shù)據(jù)集上訓(xùn)練而成，由于過濾器訓(xùn)練的數(shù)據(jù)集質(zhì)量很高，所以谷歌將其過濾 Web 網(wǎng)頁內(nèi)容的質(zhì)量。最后，谷歌應(yīng)用這個(gè)過濾器來生成 Web 網(wǎng)頁的最終子集，并將其與書籍和維基百科數(shù)據(jù)相結(jié)合來創(chuàng)建最終的訓(xùn)練數(shù)據(jù)集。

GLaM 模型架構(gòu)

GLaM 是混合專家模型 (MoE) ，這種模型可以被認(rèn)為具有不同的子模型（或?qū)＜遥?，每個(gè)子模型都專門用于不同的輸入。每一層的專家由一個(gè)門控網(wǎng)絡(luò)控制，該門控網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。對(duì)于每個(gè) token（通常是一個(gè)詞或詞的一部分），門控網(wǎng)絡(luò)選擇兩個(gè)最合適的專家來處理數(shù)據(jù)。完整的 GLaM 總共有 1.2T 參數(shù)，每個(gè) MoE 包含 64 個(gè)專家，總共 32 個(gè) MoE 層，但在推理期間，模型只會(huì)激活 97B 的參數(shù)，占總參數(shù)的 8%。

GLaM 的體系架構(gòu)，每個(gè)輸入 token 都被動(dòng)態(tài)路由到從 64 個(gè)專家網(wǎng)絡(luò)中選擇的兩個(gè)專家網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè)。

與 GShard MoE Transformer 類似，谷歌用 MoE 層替換其他 transformer 層的單個(gè)前饋網(wǎng)絡(luò)（人工神經(jīng)網(wǎng)絡(luò)最簡(jiǎn)單的一層，如上圖藍(lán)色方框中的 Feedforward 或 FFN）。MoE 層有多個(gè)專家，每個(gè)專家都是具有相同架構(gòu)但不同權(quán)重參數(shù)的前饋網(wǎng)絡(luò)。

盡管 MoE 層有很多參數(shù)，但專家是稀疏激活的，這意味著對(duì)于給定的輸入 token，只使用兩個(gè)專家，這樣做的優(yōu)勢(shì)是在限制計(jì)算的同時(shí)給模型提供更多的容量。在訓(xùn)練期間，每個(gè) MoE 層門控網(wǎng)絡(luò)都經(jīng)過訓(xùn)練，使用它的輸入來激活每個(gè) token 的最佳兩位專家，然后將其用于推理。對(duì)于 MoE 層的 E 專家來說，這本質(zhì)上提供了 E×(E-1) 個(gè)不同前饋網(wǎng)絡(luò)組合的集合，而不是經(jīng)典 Transformer 中的一個(gè)組合，從而帶來更大的計(jì)算靈活性。

最終學(xué)習(xí)到的 token 表示來自兩個(gè)專家輸出的加權(quán)組合，這使得不同的專家可以激活不同類型的輸入。為了能夠擴(kuò)展到更大的模型，GLaM 架構(gòu)中的每個(gè)專家都可以跨越多個(gè)計(jì)算設(shè)備。谷歌使用 GSPMD 編譯器后端來解決擴(kuò)展專家的挑戰(zhàn)，并訓(xùn)練了多個(gè)變體（基于專家規(guī)模和專家數(shù)量）來了解稀疏激活語言模型的擴(kuò)展效果。

評(píng)估設(shè)置

谷歌使用 zero-shot 和 one-shot 兩種設(shè)置，其中訓(xùn)練中使用的是未見過的任務(wù)。評(píng)估基準(zhǔn)包括如下：

完形填空和完成任務(wù)；
開放域問答；
Winograd-style 任務(wù)；
常識(shí)推理；
上下文閱讀理解；
SuperGLUE 任務(wù)；
自然語言推理。

谷歌一共使用了 8 項(xiàng)自然語言生成（NLG）任務(wù)，其中生成的短語基于真值目標(biāo)進(jìn)行評(píng)估（以 Exact Match 和 F1 measure 為指標(biāo)），以及 21 項(xiàng)自然語言理解（NLU）任務(wù)，其中幾個(gè) options 中的預(yù)測(cè)通過條件對(duì)數(shù)似然來選擇。

實(shí)驗(yàn)結(jié)果

當(dāng)每個(gè) MoE 層只有一個(gè)專家時(shí)，GLaM 縮減為一個(gè)基于 Transformer 的基礎(chǔ)密集模型架構(gòu)。在所有試驗(yàn)中，谷歌使用「基礎(chǔ)密集模型大小 / 每個(gè) MoE 層的專家數(shù)量」來描述 GLaM 模型。比如，1B/64E 表示是 1B 參數(shù)的密集模型架構(gòu)，每隔一層由 64 個(gè)專家 MoE 層代替。

谷歌測(cè)試了 GLaM 的性能和擴(kuò)展屬性，包括在相同數(shù)據(jù)集上訓(xùn)練的基線密集模型。與最近微軟聯(lián)合英偉達(dá)推出的 Megatron-Turing 相比，GLaM 使用 5% margin 時(shí)在 7 項(xiàng)不同的任務(wù)上實(shí)現(xiàn)了不相上下的性能，同時(shí)推理過程中使用的算力減少了 4/5。

此外，在推理過程中使用算力更少的情況下，1.2T 參數(shù)的稀疏激活模型（GLaM）在更多任務(wù)上實(shí)現(xiàn)了比 1.75B 參數(shù)的密集 GPT-3 模型更好的平均結(jié)果。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

NLG（左）和 NLU（右）任務(wù)上，GLaM 和 GPT-3 的平均得分（越高越好）。

谷歌總結(jié)了 29 個(gè)基準(zhǔn)上，GLaM 與 GPT-3 的性能比較結(jié)果。結(jié)果顯示，GLaM 在 80% 左右的 zero-shot 任務(wù)和 90% 左右的 one-shot 任務(wù)上超越或持平 GPT-3 的性能。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

此外，雖然完整版 GLaM 有 1.2T 的總參數(shù)，但在推理過程中每個(gè) token 僅激活 97B 參數(shù)（1.2T 的 8%）的子網(wǎng)。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

擴(kuò)展

GLaM 有兩種擴(kuò)展方式：1) 擴(kuò)展每層的專家數(shù)量，其中每個(gè)專家都托管在一個(gè)計(jì)算設(shè)備中；2) 擴(kuò)展每個(gè)專家的大小以超出單個(gè)設(shè)備的限制。為了評(píng)估擴(kuò)展屬性，該研究在推理時(shí)比較每個(gè) token 的 FLOPS 相似的相應(yīng)密集模型。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

通過增加每個(gè)專家的大小，zero-shot 和 one-shot 的平均性能。隨著專家大小的增長(zhǎng)，推理時(shí)每個(gè) token 預(yù)測(cè)的 FLOPS 也會(huì)增加。

如上圖所示，跨任務(wù)的性能與專家的大小成比例。在生成任務(wù)的推理過程中，GLaM 稀疏激活模型的性能也優(yōu)于 FLOP 類似的密集模型。對(duì)于理解任務(wù)，研究者觀察到它們?cè)谳^小的規(guī)模上性能相似，但稀疏激活模型在較大的規(guī)模上性能更好。

數(shù)據(jù)效率

訓(xùn)練大型語言模型計(jì)算密集，因此提高效率有助于降低能耗。該研究展示了完整版 GLaM 的計(jì)算成本。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

模型推理（左）和訓(xùn)練（右）的計(jì)算成本（GFLOPS）。

這些計(jì)算成本表明 GLaM 在訓(xùn)練期間使用了更多的計(jì)算，因?yàn)樗诟嗟?token 上訓(xùn)練，但在推理期間使用的計(jì)算卻少得多。下圖展示了使用不同數(shù)量的 token 進(jìn)行訓(xùn)練的比較結(jié)果，并評(píng)估了該模型的學(xué)習(xí)曲線。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token，稀疏激活型和密集模型在 8 項(xiàng)生成任務(wù)上的平均 zero-shot 和 one-shot 性能。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token，稀疏激活型和密集模型在 21 項(xiàng)理解任務(wù)上的平均 zero-shot 和 one-shot 性能。

結(jié)果表明，稀疏激活模型在達(dá)到與密集模型相似的 zero-shot 和 one-shot 性能時(shí)，訓(xùn)練時(shí)使用的數(shù)據(jù)顯著減少。并且，如果適用的數(shù)據(jù)量相同，稀疏型模型的表現(xiàn)明顯更好。

最后，谷歌對(duì) GLam 的能效進(jìn)行了評(píng)估：

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

訓(xùn)練期間，GLaM 與 GPT-3 的能耗比較。

雖然 GLaM 在訓(xùn)練期間使用了更多算力，但得益于 GSPMD（谷歌 5 月推出的用于常見機(jī)器學(xué)習(xí)計(jì)算圖的基于編譯器的自動(dòng)化并行系統(tǒng)）賦能的更高效軟件實(shí)現(xiàn)和 TPUv4 的優(yōu)勢(shì)，它在訓(xùn)練時(shí)耗能要少于其他模型。

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

谷歌模型人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<wbr id="moyya"></wbr>

<menuitem id="moyya"></menuitem>

<meter id="moyya"></meter>

<p id="moyya"></p>

<s id="moyya"><table id="moyya"></table></s>

<kbd id="moyya"><video id="moyya"></video></kbd>