偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

重回榜首的BERT改進(jìn)版開(kāi)源了，千塊V100、160GB純文本的大模型

作者：機(jī)器之心編譯 2019-07-31 10:00:33

新聞開(kāi)源

前段時(shí)間 Facebook 創(chuàng)建的改進(jìn)版 BERT——RoBERTa，打敗 XLNet 登上了 GLUE 排行榜榜首。

前段時(shí)間 Facebook 創(chuàng)建的改進(jìn)版 BERT——RoBERTa，打敗 XLNet 登上了 GLUE 排行榜榜首。近日，F(xiàn)acebook 公開(kāi)了該模型的研究細(xì)節(jié)，并開(kāi)源了模型代碼。

BERT 自誕生以來(lái)就展現(xiàn)出了卓越的性能，GLUE 排行榜上前幾名的模型一度也大多使用 BERT。然而，XLNet 的橫空出世，

打破了 BERT 的紀(jì)錄

。不過(guò)，不久之后，劇情再次出現(xiàn)反轉(zhuǎn)，F(xiàn)acebook 創(chuàng)建的改進(jìn)版 BERT——RoBERTa，登上了 GLUE 排行榜榜首。

重回榜首的BERT改進(jìn)版開(kāi)源了，千塊V100、160GB純文本的大模型

圖源：https://gluebenchmark.com/leaderboard/

Facebook 的研究人員表示，如果訓(xùn)練得更久一點(diǎn)、數(shù)據(jù)再大一點(diǎn)，

BERT 就能重返SOTA

。

那么 RoBERTa 到底訓(xùn)練了多長(zhǎng)時(shí)間，使用了多少數(shù)據(jù)呢？近日，F(xiàn)acebook 研究人員公開(kāi)了研究細(xì)節(jié)。

論文地址：https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址：https://github.com/pytorch/fairseq/tree/master/examples/roberta

RoBERTa 到底有多大

之前 XLNet 團(tuán)隊(duì)就對(duì)標(biāo)準(zhǔn)的 BERT 和 XLNet

做過(guò)一次公平的對(duì)比

，他們測(cè)試了在相同參數(shù)水平、預(yù)訓(xùn)練數(shù)據(jù)、超參配置等情況下兩者的效果。當(dāng)然，XLNet 通過(guò)修改架構(gòu)與任務(wù)，它的效果是全面超過(guò)標(biāo)準(zhǔn) BERT 的。但如果 BERT 要再次超越 XLNet，那么數(shù)據(jù)和算力都需要更多。

算力

據(jù)介紹，F(xiàn)acebook 研究人員在多臺(tái) DGX-1 計(jì)算機(jī)上使用混合精度浮點(diǎn)運(yùn)算，每臺(tái)計(jì)算機(jī)具備 8 個(gè) 32GB Nvidia V100 GPU，這些 GPU 通過(guò) Infiniband 連接。

但研究者并沒(méi)有具體說(shuō) RoBERTa 使用了多少?gòu)?V100 GPU 訓(xùn)練了多長(zhǎng)時(shí)間，我們只能了解到他們訓(xùn)練 Large 模型用 1024 塊 V100 訓(xùn)練了一天，這樣以谷歌云的價(jià)格來(lái)算需要 6.094 萬(wàn)美元。如下是原論文所述：

We pretrain for 100K steps over a comparable BOOKCORPUS plus WIKIPEDIA dataset as was used in Devlin et al. (2019). We pretrain our model using 1024 V100 GPUs for approximately one day.

因?yàn)?XLNet 的 TPU 訓(xùn)練價(jià)格也是 6 萬(wàn)美元，而且直觀上用 GPU 訓(xùn)練會(huì)比 TPU 貴，所以我們根據(jù)上面的描述猜測(cè) 6.094 萬(wàn)美元是在 BOOKCORPUS 加 WIKIPEDIA 數(shù)據(jù)集上訓(xùn)練的成本。此外，XLNet 數(shù)據(jù)集擴(kuò)充十倍，它的 TPU 訓(xùn)練成本也增加了 5 倍，也許 RoBERTa 也遵循同樣的規(guī)則？

數(shù)據(jù)

BERT 模型預(yù)訓(xùn)練的關(guān)鍵是大量文本數(shù)據(jù)。Facebook 研究人員收集了大量數(shù)據(jù)集，他們考慮了五個(gè)不同大小、不同領(lǐng)域的英語(yǔ)語(yǔ)料庫(kù)，共有 160GB 純文本，而 XLNet 使用的數(shù)據(jù)量是 126GB。這些語(yǔ)料庫(kù)分別是：

BOOKCORPUS (Zhu et al., 2015) 和英語(yǔ)維基百科：這是 BERT 訓(xùn)練時(shí)所用的原始數(shù)據(jù) (16GB)；
CC-NEWS：Facebook 研究人員從 CommonCrawl News 數(shù)據(jù)集的英語(yǔ)部分收集到的數(shù)據(jù)，包含 2016 年 9 月到 2019 年 2 月的 6300 萬(wàn)英語(yǔ)新聞文章（過(guò)濾后有 76GB 大?。?；
OPENWEBTEXT (Gokaslan and Cohen, 2019)：Radford et al. (2019) 中介紹的 WebText 語(yǔ)料庫(kù)的開(kāi)源克隆版本。其中包含爬取自 Reddit 網(wǎng)站共享鏈接的網(wǎng)頁(yè)內(nèi)容 (38GB)；
STORIES：Trinh and Le (2018) 中提到的數(shù)據(jù)集，包含 CommonCrawl 數(shù)據(jù)的子集，該數(shù)據(jù)集經(jīng)過(guò)過(guò)濾以匹配 Winograd schemas 的故事性風(fēng)格 (31GB)。

這樣的數(shù)據(jù)量已經(jīng)非常大了，它是原來(lái) BERT 數(shù)據(jù)量的十多倍。但正如 XLNet 作者楊植麟所言，數(shù)據(jù)量大并不一定能帶來(lái)好處，我們還需要在數(shù)量與質(zhì)量之間做權(quán)衡。也許十倍量級(jí)的數(shù)據(jù)增加，可能還不如幾倍高質(zhì)量數(shù)據(jù)帶來(lái)的提升大。

RoBERTa 到底是什么

Facebook 對(duì) BERT 預(yù)訓(xùn)練模型進(jìn)行了復(fù)現(xiàn)研究，對(duì)調(diào)參和訓(xùn)練數(shù)據(jù)規(guī)模的影響進(jìn)行了評(píng)估，發(fā)現(xiàn) BERT 訓(xùn)練嚴(yán)重不足。于是他們提出了 BERT 的改進(jìn)版——RoBERTa，它可以匹敵甚至超過(guò)所有 post-BERT 方法的性能。

這些改進(jìn)包括：

模型訓(xùn)練時(shí)間更長(zhǎng)，batch 規(guī)模更大，數(shù)據(jù)更多；
移除「下一句預(yù)測(cè)」這一訓(xùn)練目標(biāo)；
在更長(zhǎng)的序列上訓(xùn)練；
動(dòng)態(tài)改變應(yīng)用于訓(xùn)練數(shù)據(jù)上的掩碼模式。

Facebook 研究人員還收集了一個(gè)新型大數(shù)據(jù)集 CC-NEWS，以更好地控制訓(xùn)練數(shù)據(jù)集規(guī)模的影響。CC-NEWS 數(shù)據(jù)集的規(guī)模與其他私人使用數(shù)據(jù)集差不多。

總之，F(xiàn)acebook 研究人員關(guān)于 RoBERTa 的研究貢獻(xiàn)可以總結(jié)如下：

展示了一組重要的 BERT 設(shè)計(jì)選擇、訓(xùn)練策略，介紹了一些可使下游任務(wù)性能更優(yōu)的替代方法；
使用新型數(shù)據(jù)集 CCNEWS，并確認(rèn)使用更多數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練可以進(jìn)一步提升模型在下游任務(wù)上的性能；
訓(xùn)練方面的改進(jìn)證明，在正確的設(shè)計(jì)選擇下，掩碼語(yǔ)言模型預(yù)訓(xùn)練的性能堪比其他近期方法。

RoBERTa 都改了些啥

對(duì)于原版 BERT，直接用它來(lái)做極大數(shù)據(jù)的預(yù)訓(xùn)練并不能 Work，我們還需要一些特殊的技巧來(lái)提升模型的魯棒性，這也就是 Facebook 研究者主要嘗試的。如下研究人員在論文中揭示并量化了 BERT 要進(jìn)行哪些改進(jìn)才能真正變得穩(wěn)健。

1. 靜態(tài) vs. 動(dòng)態(tài)掩碼

BERT 依賴(lài)隨機(jī)掩碼和預(yù)測(cè) token。原版的 BERT 實(shí)現(xiàn)在數(shù)據(jù)預(yù)處理期間執(zhí)行一次掩碼，得到一個(gè)靜態(tài)掩碼。Facebook 研究者將該策略與動(dòng)態(tài)掩碼進(jìn)行比較，動(dòng)態(tài)掩碼即，每次向模型輸入一個(gè)序列時(shí)都會(huì)生成掩碼模式。在預(yù)訓(xùn)練進(jìn)行更多步或使用更大的數(shù)據(jù)集時(shí)，這點(diǎn)變得尤其重要。

重回榜首的BERT改進(jìn)版開(kāi)源了，千塊V100、160GB純文本的大模型

表 1： BERT_BASE 的靜態(tài)和動(dòng)態(tài)掩碼比較。

2. 模型輸入格式和下一句預(yù)測(cè)

在原版的 BERT 預(yù)訓(xùn)練步驟中，模型觀察到兩個(gè)連接在一起的文檔片段，這兩個(gè)片段要么是從相同的文檔中連續(xù)采樣，要么采樣自一個(gè)文檔的連續(xù)部分或不同文檔。為了更好地理解這種結(jié)構(gòu)，研究者比較了幾種訓(xùn)練格式：

SEGMENT-PAIR+NSP：這種方式和 BERT 中用到的原始輸入格式相同，NSP 是 Next Sentence Prediction（下一句預(yù)測(cè)）結(jié)構(gòu)的縮寫(xiě)。
SENTENCE-PAIR+NSP：每個(gè)輸入包含一對(duì)自然語(yǔ)言句子，采樣自一個(gè)文檔的連續(xù)部分或不同文檔。
FULL-SENTENCES：每個(gè)輸入都包含從一或多個(gè)文檔中連續(xù)采樣的完整句子，以保證總長(zhǎng)度至多 512 token。
DOC-SENTENCES：這種輸入的構(gòu)造與 FULL-SENTENCES 類(lèi)似，只是它們可能不會(huì)跨過(guò)文檔邊界。

重回榜首的BERT改進(jìn)版開(kāi)源了，千塊V100、160GB純文本的大模型

表 2：在 BOOKCORPUS 和 WIKIPEDIA 上預(yù)訓(xùn)練的基礎(chǔ)模型的開(kāi)發(fā)集結(jié)果。所有的模型都訓(xùn)練 1M 步，batch 大小為 256 個(gè)序列。

3. 大批量訓(xùn)練

神經(jīng)機(jī)器翻譯領(lǐng)域之前的工作表明，在學(xué)習(xí)率適當(dāng)提高時(shí)，以非常大的 mini-batch 進(jìn)行訓(xùn)練可以同時(shí)提升優(yōu)化速度和終端任務(wù)性能。最近的研究表明，BERT 也能適應(yīng)大批量訓(xùn)練。

重回榜首的BERT改進(jìn)版開(kāi)源了，千塊V100、160GB純文本的大模型

表 3：在 BOOKCORPUS 和 WIKIPEDIA 上用不同的 batch 大小（bsz）訓(xùn)練的基礎(chǔ)模型在留出訓(xùn)練數(shù)據(jù)（ppl）和開(kāi)發(fā)集上的困惑度。

4. 文本編碼

Byte-Pair Encoding（BPE）是字符級(jí)和詞級(jí)別表征的混合，支持處理自然語(yǔ)言語(yǔ)料庫(kù)中的眾多常見(jiàn)詞匯。

原版的 BERT 實(shí)現(xiàn)使用字符級(jí)別的 BPE 詞匯，大小為 30K，是在利用啟發(fā)式分詞規(guī)則對(duì)輸入進(jìn)行預(yù)處理之后學(xué)得的。Facebook 研究者沒(méi)有采用這種方式，而是考慮用更大的 byte 級(jí)別 BPE 詞匯表來(lái)訓(xùn)練 BERT，這一詞匯表包含 50K 的 subword 單元，且沒(méi)有對(duì)輸入作任何額外的預(yù)處理或分詞。這種做法分別為 BERTBASE 和 BERTLARGE 增加了 15M 和 20M 的額外參數(shù)量。

實(shí)驗(yàn)結(jié)果

Facebook 研究人員綜合所有這些改進(jìn)，并評(píng)估了其影響。結(jié)合所有改進(jìn)后的方法叫作 RoBERTa（Robustly optimized BERT approach）。

為了厘清這些改進(jìn)與其他建模選擇之前的重要性區(qū)別，研究人員首先基于 BERT LARGE 架構(gòu)訓(xùn)練 RoBERTa，并做了一系列對(duì)照試驗(yàn)以確定效果。

重回榜首的BERT改進(jìn)版開(kāi)源了，千塊V100、160GB純文本的大模型

表 4：隨著訓(xùn)練數(shù)據(jù)的增大（文本數(shù)量從 16GB → 160GB）、訓(xùn)練步長(zhǎng)的增加（100K → 300K → 500K 訓(xùn)練步），RoBERTa 在開(kāi)發(fā)集上的結(jié)果。在對(duì)照試驗(yàn)中，表格中每一行都累積了前幾行的改進(jìn)。

對(duì)于 GLUE，研究人員考慮了兩種微調(diào)設(shè)置。在第一種設(shè)置中（單任務(wù)、開(kāi)發(fā)集），研究人員分別針對(duì)每一項(xiàng) GLUE 任務(wù)微調(diào) RoBERTa，僅使用對(duì)應(yīng)任務(wù)的訓(xùn)練數(shù)據(jù)。在第二種設(shè)置中（集成，測(cè)試集），研究人員通過(guò) GLUE 排行榜對(duì)比 RoBERTa 和其他方法。

重回榜首的BERT改進(jìn)版開(kāi)源了，千塊V100、160GB純文本的大模型

表 5：多個(gè)模型在 GLUE 上的結(jié)果。所有結(jié)果都基于 24 層的模型架構(gòu)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

開(kāi)源技術(shù) 軟件

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<menuitem id="db8ev"><td id="db8ev"></td></menuitem>

<em id="db8ev"></em>

<mark id="db8ev"><dd id="db8ev"></dd></mark>

<center id="db8ev"></center>

<dfn id="db8ev"><center id="db8ev"></center></dfn>