偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

新聞 人工智能
大規(guī)模語言模型性能固然好,但計(jì)算和資源成本太高了,有沒有方法可以更有效地訓(xùn)練和使用 ML 模型呢?

 [[439859]]

近幾年,我們已經(jīng)看到模型規(guī)模越來越大,例如 2018 年誕生的 GPT 具有 1.17 億參數(shù),時(shí)隔一年,2019 年 GPT-2 參數(shù)量達(dá)到 15 億,2020 年更是將其擴(kuò)展到 1750 億參數(shù)的 GPT-3。據(jù)了解,OpenAI 打造的超級(jí)計(jì)算機(jī)擁有 285000 個(gè) CPU 核以及 10000 個(gè) GPU,供 OpenAI 在上面訓(xùn)練所有的 AI 模型。

大型語言模型雖然訓(xùn)練昂貴,但也有其重要的一面,例如可以在各種任務(wù)中執(zhí)行小樣本學(xué)習(xí),包括閱讀理解、問答。雖然這些模型可以通過簡(jiǎn)單地使用更多參數(shù)來獲得更好的性能。但是有沒有方法可以更有效地訓(xùn)練和使用這些模型呢?

為了回答這個(gè)問題,谷歌推出了具有萬億權(quán)重的通用語言模型 (Generalist Language Model,GLaM),該模型的一大特點(diǎn)就是具有稀疏性,可以高效地進(jìn)行訓(xùn)練和服務(wù)(在計(jì)算和資源使用方面),并在多個(gè)小樣本學(xué)習(xí)任務(wù)上取得有競(jìng)爭(zhēng)力的性能。

我們來看一下 GLaM 模型的具體情況。

數(shù)據(jù)集

谷歌首先構(gòu)建了一個(gè)高質(zhì)量的、具有 1.6 萬億 token 的數(shù)據(jù)集,該無標(biāo)簽數(shù)據(jù)集很大一部分來自 Web 頁面,其范圍從專業(yè)寫作到低質(zhì)量的評(píng)論和論壇頁面。此外,谷歌還開發(fā)了一個(gè)文本質(zhì)量過濾器,該過濾器是在維基百科和書籍文本數(shù)據(jù)集上訓(xùn)練而成,由于過濾器訓(xùn)練的數(shù)據(jù)集質(zhì)量很高,所以谷歌將其過濾 Web 網(wǎng)頁內(nèi)容的質(zhì)量。最后,谷歌應(yīng)用這個(gè)過濾器來生成 Web 網(wǎng)頁的最終子集,并將其與書籍和維基百科數(shù)據(jù)相結(jié)合來創(chuàng)建最終的訓(xùn)練數(shù)據(jù)集。

GLaM 模型架構(gòu)

GLaM 是混合專家模型 (MoE) ,這種模型可以被認(rèn)為具有不同的子模型(或?qū)<遥?,每個(gè)子模型都專門用于不同的輸入。每一層的專家由一個(gè)門控網(wǎng)絡(luò)控制,該門控網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。對(duì)于每個(gè) token(通常是一個(gè)詞或詞的一部分),門控網(wǎng)絡(luò)選擇兩個(gè)最合適的專家來處理數(shù)據(jù)。完整的 GLaM 總共有 1.2T 參數(shù),每個(gè) MoE 包含 64 個(gè)專家,總共 32 個(gè) MoE 層,但在推理期間,模型只會(huì)激活 97B 的參數(shù),占總參數(shù)的 8%。

GLaM 的體系架構(gòu),每個(gè)輸入 token 都被動(dòng)態(tài)路由到從 64 個(gè)專家網(wǎng)絡(luò)中選擇的兩個(gè)專家網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè)。

與 GShard MoE Transformer 類似,谷歌用 MoE 層替換其他 transformer 層的單個(gè)前饋網(wǎng)絡(luò)(人工神經(jīng)網(wǎng)絡(luò)最簡(jiǎn)單的一層,如上圖藍(lán)色方框中的 Feedforward 或 FFN)。MoE 層有多個(gè)專家,每個(gè)專家都是具有相同架構(gòu)但不同權(quán)重參數(shù)的前饋網(wǎng)絡(luò)。

盡管 MoE 層有很多參數(shù),但專家是稀疏激活的,這意味著對(duì)于給定的輸入 token,只使用兩個(gè)專家,這樣做的優(yōu)勢(shì)是在限制計(jì)算的同時(shí)給模型提供更多的容量。在訓(xùn)練期間,每個(gè) MoE 層門控網(wǎng)絡(luò)都經(jīng)過訓(xùn)練,使用它的輸入來激活每個(gè) token 的最佳兩位專家,然后將其用于推理。對(duì)于 MoE 層的 E 專家來說,這本質(zhì)上提供了 E×(E-1) 個(gè)不同前饋網(wǎng)絡(luò)組合的集合,而不是經(jīng)典 Transformer 中的一個(gè)組合,從而帶來更大的計(jì)算靈活性。

最終學(xué)習(xí)到的 token 表示來自兩個(gè)專家輸出的加權(quán)組合,這使得不同的專家可以激活不同類型的輸入。為了能夠擴(kuò)展到更大的模型,GLaM 架構(gòu)中的每個(gè)專家都可以跨越多個(gè)計(jì)算設(shè)備。谷歌使用 GSPMD 編譯器后端來解決擴(kuò)展專家的挑戰(zhàn),并訓(xùn)練了多個(gè)變體(基于專家規(guī)模和專家數(shù)量)來了解稀疏激活語言模型的擴(kuò)展效果。

評(píng)估設(shè)置

谷歌使用 zero-shot 和 one-shot 兩種設(shè)置,其中訓(xùn)練中使用的是未見過的任務(wù)。評(píng)估基準(zhǔn)包括如下:

  • 完形填空和完成任務(wù);
  • 開放域問答;
  • Winograd-style 任務(wù);
  • 常識(shí)推理;
  • 上下文閱讀理解;
  • SuperGLUE 任務(wù);
  • 自然語言推理。

谷歌一共使用了 8 項(xiàng)自然語言生成(NLG)任務(wù),其中生成的短語基于真值目標(biāo)進(jìn)行評(píng)估(以 Exact Match 和 F1 measure 為指標(biāo)),以及 21 項(xiàng)自然語言理解(NLU)任務(wù),其中幾個(gè) options 中的預(yù)測(cè)通過條件對(duì)數(shù)似然來選擇。

實(shí)驗(yàn)結(jié)果

當(dāng)每個(gè) MoE 層只有一個(gè)專家時(shí),GLaM 縮減為一個(gè)基于 Transformer 的基礎(chǔ)密集模型架構(gòu)。在所有試驗(yàn)中,谷歌使用「基礎(chǔ)密集模型大小 / 每個(gè) MoE 層的專家數(shù)量」來描述 GLaM 模型。比如,1B/64E 表示是 1B 參數(shù)的密集模型架構(gòu),每隔一層由 64 個(gè)專家 MoE 層代替。

谷歌測(cè)試了 GLaM 的性能和擴(kuò)展屬性,包括在相同數(shù)據(jù)集上訓(xùn)練的基線密集模型。與最近微軟聯(lián)合英偉達(dá)推出的 Megatron-Turing 相比,GLaM 使用 5% margin 時(shí)在 7 項(xiàng)不同的任務(wù)上實(shí)現(xiàn)了不相上下的性能,同時(shí)推理過程中使用的算力減少了 4/5。

此外,在推理過程中使用算力更少的情況下,1.2T 參數(shù)的稀疏激活模型(GLaM)在更多任務(wù)上實(shí)現(xiàn)了比 1.75B 參數(shù)的密集 GPT-3 模型更好的平均結(jié)果。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

NLG(左)和 NLU(右)任務(wù)上,GLaM 和 GPT-3 的平均得分(越高越好)。

谷歌總結(jié)了 29 個(gè)基準(zhǔn)上,GLaM 與 GPT-3 的性能比較結(jié)果。結(jié)果顯示,GLaM 在 80% 左右的 zero-shot 任務(wù)和 90% 左右的 one-shot 任務(wù)上超越或持平 GPT-3 的性能。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

此外,雖然完整版 GLaM 有 1.2T 的總參數(shù),但在推理過程中每個(gè) token 僅激活 97B 參數(shù)(1.2T 的 8%)的子網(wǎng)。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

擴(kuò)展

GLaM 有兩種擴(kuò)展方式:1) 擴(kuò)展每層的專家數(shù)量,其中每個(gè)專家都托管在一個(gè)計(jì)算設(shè)備中;2) 擴(kuò)展每個(gè)專家的大小以超出單個(gè)設(shè)備的限制。為了評(píng)估擴(kuò)展屬性,該研究在推理時(shí)比較每個(gè) token 的 FLOPS 相似的相應(yīng)密集模型。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

通過增加每個(gè)專家的大小,zero-shot 和 one-shot 的平均性能。隨著專家大小的增長(zhǎng),推理時(shí)每個(gè) token 預(yù)測(cè)的 FLOPS 也會(huì)增加。

如上圖所示,跨任務(wù)的性能與專家的大小成比例。在生成任務(wù)的推理過程中,GLaM 稀疏激活模型的性能也優(yōu)于 FLOP 類似的密集模型。對(duì)于理解任務(wù),研究者觀察到它們?cè)谳^小的規(guī)模上性能相似,但稀疏激活模型在較大的規(guī)模上性能更好。

數(shù)據(jù)效率

訓(xùn)練大型語言模型計(jì)算密集,因此提高效率有助于降低能耗。該研究展示了完整版 GLaM 的計(jì)算成本。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

模型推理(左)和訓(xùn)練(右)的計(jì)算成本(GFLOPS)。

這些計(jì)算成本表明 GLaM 在訓(xùn)練期間使用了更多的計(jì)算,因?yàn)樗诟嗟?token 上訓(xùn)練,但在推理期間使用的計(jì)算卻少得多。下圖展示了使用不同數(shù)量的 token 進(jìn)行訓(xùn)練的比較結(jié)果,并評(píng)估了該模型的學(xué)習(xí)曲線。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token,稀疏激活型和密集模型在 8 項(xiàng)生成任務(wù)上的平均 zero-shot 和 one-shot 性能。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token,稀疏激活型和密集模型在 21 項(xiàng)理解任務(wù)上的平均 zero-shot 和 one-shot 性能。

結(jié)果表明,稀疏激活模型在達(dá)到與密集模型相似的 zero-shot 和 one-shot 性能時(shí),訓(xùn)練時(shí)使用的數(shù)據(jù)顯著減少。并且,如果適用的數(shù)據(jù)量相同,稀疏型模型的表現(xiàn)明顯更好。

最后,谷歌對(duì) GLam 的能效進(jìn)行了評(píng)估:

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

訓(xùn)練期間,GLaM 與 GPT-3 的能耗比較。

雖然 GLaM 在訓(xùn)練期間使用了更多算力,但得益于 GSPMD(谷歌 5 月推出的用于常見機(jī)器學(xué)習(xí)計(jì)算圖的基于編譯器的自動(dòng)化并行系統(tǒng))賦能的更高效軟件實(shí)現(xiàn)和 TPUv4 的優(yōu)勢(shì),它在訓(xùn)練時(shí)耗能要少于其他模型。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-09-08 17:23:33

谷歌模型開發(fā)

2021-08-12 16:27:04

模型人工智能深度學(xué)習(xí)

2022-03-24 10:35:38

人工智能模型代碼

2022-08-25 15:05:23

AI論文

2022-12-27 13:36:09

2021-07-13 17:38:49

算法語言模型GPT-4

2021-03-23 15:21:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-08-19 15:48:05

增量攻擊網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2023-02-25 21:45:55

模型AI

2025-01-27 00:57:43

2021-01-13 15:16:45

谷歌架構(gòu)開發(fā)者

2022-04-01 15:30:18

語言模型自然語言AI

2020-06-15 10:42:42

谷歌Android開發(fā)者

2023-04-07 09:53:02

量子AI

2021-07-19 10:56:36

GPE-3OpenAI微軟

2023-03-01 16:15:16

2022-03-14 09:33:56

神經(jīng)網(wǎng)絡(luò)模型人工智能

2023-07-13 12:54:42

GPT-4OpenAI

2024-10-18 11:12:44

2021-11-03 15:12:09

微軟機(jī)器學(xué)習(xí)開發(fā)者
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)