偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微軟分享超大基于Transformer架構(gòu)的語言生成模型

新聞 架構(gòu)
微軟 AI&Research 今天分享了有史以來最大的基于 Transformer 架構(gòu)的語言生成模型 Turing NLG(下文簡稱為T-NLG)

 [[314583]]

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

微軟 AI&Research 今天分享了有史以來最大的基于 Transformer 架構(gòu)的語言生成模型 Turing NLG(下文簡稱為T-NLG),并開源了一個名為 DeepSpeed 的深度學(xué)習(xí)庫,以簡化對大型模型的分布式培訓(xùn)。

  基于 Transformer 的架構(gòu),意味著該模型可以生成單詞來完成開放式文本任務(wù)。除了完成未完成的句子外,它還可以生成對輸入文檔的問題和摘要的直接答案。

  去年 8 月,英偉達(dá)曾宣布已訓(xùn)練世界上最大的基于 Transformer 的語言模型,當(dāng)時該模型使用了 83 億個參數(shù),比 BERT 大 24 倍,比 OpenAI 的 GPT-2 大 5 倍。

  而此次微軟所分享的模型,T-NLG 的參數(shù)為 170 億個,是英偉達(dá)的 Megatron(現(xiàn)在是第二大 Transformer 模型)的兩倍,其參數(shù)是 OpenAI 的 GPT-2 的十倍。微軟表示,T-NLG 在各種語言建模基準(zhǔn)上均優(yōu)于最新技術(shù),并在應(yīng)用于許多實際任務(wù)(包括總結(jié)和問題解答)時表現(xiàn)出色。

  不過,像 Google 的 Meena 一樣,最初使用 GPT-2,T-NLG 最初只能在私人演示中共享。

  微軟 AI 研究應(yīng)用科學(xué)家 Corby Rosset 在博客文章中寫道:“除了通過匯總文檔和電子郵件來節(jié)省用戶時間之外,T-NLG 還可以通過為作者提供寫作幫助,并回答讀者可能對文檔提出的問題,由此來增強(qiáng) Microsoft Office 套件的使用體驗。” 

  具有 Transformer 架構(gòu)的語言生成模型可以預(yù)測下一個單詞。它們可用于編寫故事,以完整的句子生成答案以及總結(jié)文本。

  微軟表示,他們的目標(biāo)是在任何情況下都能夠像人類一樣直接,準(zhǔn)確,流暢地做出響應(yīng):以前,問題解答和摘要系統(tǒng)依賴于從文檔中提取現(xiàn)有內(nèi)容,這些內(nèi)容可以作為備用答案或摘要,但它們通常看起來不自然或不連貫。使用T-NLG 這樣的自然語言生成模型,可以自然地總結(jié)或回答有關(guān)個人文檔或電子郵件主題的問題。

  來自 AI 領(lǐng)域的專家告訴 VentureBeat,2019 年是 NLP 模型開創(chuàng)性的一年——使用 Transformer 架構(gòu)無疑是 2019 年最大的機(jī)器學(xué)習(xí)趨勢之一,這導(dǎo)致了語言生成領(lǐng)域和 GLUE 基準(zhǔn)測試領(lǐng)導(dǎo)者的進(jìn)步,F(xiàn)acebook 的 RoBERTa、谷歌的 XLNet 和微軟的 MT-DNN 都紛紛加入到各類基準(zhǔn)測試榜首的爭奪當(dāng)中。

  同樣是在今天,微軟還開源了一個名為 DeepSpeed 的深度學(xué)習(xí)庫。該學(xué)習(xí)庫已針對開發(fā)人員進(jìn)行了優(yōu)化,以提供低延遲、高吞吐量的推理。

  DeepSpeed 包含零冗余優(yōu)化器(ZeRO),用于大規(guī)模訓(xùn)練具有 1 億個或更多參數(shù)的模型,微軟過去曾用它訓(xùn)練T-NLG。

  微軟表示,DeepSpeed 和 ZeRO 使得他們能夠降低模型并行度(從 16 降低到4),將每個節(jié)點的批處理大小增加四倍,并將訓(xùn)練時間減少了三分之二;DeepSpeed 使用更少的 GPU 可以使大型模型的訓(xùn)練效率更高。

  開發(fā)人員和機(jī)器學(xué)習(xí)從業(yè)人員都可以使用 DeepSpeed 和 ZeRO,因為培訓(xùn)大型網(wǎng)絡(luò)(例如利用 Transformer 架構(gòu)的網(wǎng)絡(luò))可能會很昂貴,并且可能會遇到大規(guī)模問題。

  另外,Google 的 DeepMind 今天也發(fā)布了一種新的遠(yuǎn)程內(nèi)存模型 Compressive Transformer,以及一種針對書本級語言建模的新基準(zhǔn) PG19。

 

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2025-02-25 10:34:10

2020-11-12 18:53:34

代碼Transformer編程

2021-04-27 15:47:12

人工智能語音識別Transformer

2025-03-11 09:42:00

2024-10-22 17:24:32

2024-05-30 08:40:41

大型語言模型LLM人工智能

2022-08-19 09:00:00

人工智能GANs生成模型

2023-11-22 09:00:00

NLP語言模型LSTM

2024-11-13 14:37:30

2021-03-16 14:35:16

架構(gòu)AI技術(shù)

2024-03-19 13:12:36

自動駕駛模型

2020-10-13 11:15:40

AI 數(shù)據(jù)人工智能

2023-05-16 08:00:00

開源項目MONAI醫(yī)學(xué)圖像

2022-10-21 16:07:10

編碼器自然語言模型

2022-10-09 15:26:45

人工智能ML機(jī)器學(xué)習(xí)

2024-08-22 18:58:27

英偉達(dá)微軟小語言模型

2025-01-16 08:20:00

2023-11-09 09:48:46

2024-06-06 09:47:56

2025-01-26 13:20:49

谷歌AI模型Titans
點贊
收藏

51CTO技術(shù)棧公眾號