偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

單個GPU,只花一天時(shí)間,能把BERT訓(xùn)練成什么樣

人工智能 新聞
這次研究的目標(biāo)也很明確,就是反其道行之:縮小語言訓(xùn)練模型的算力,在有限的計(jì)算量的情況下如何達(dá)到BERT的性能水平。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

單個GPU,只花一天時(shí)間,能把BERT訓(xùn)練成什么樣?

現(xiàn)在,終于有研究人員做這件事了,在有限的計(jì)算條件之下看看語言模型的真實(shí)性能如何。

圖片

要知道在以往,大多數(shù)專業(yè)人員的關(guān)注點(diǎn)都在極端計(jì)算的條件下的語言模型性能。

但這樣的語言訓(xùn)練模型環(huán)境,對很多研究人員和從業(yè)人員是不可能存在的。

因此這個單天單個GPU的挑戰(zhàn),就有網(wǎng)友稱是一個最希望看到的基準(zhǔn)。

圖片

連ViT作者,谷歌大腦研究員Lucas Beyer都發(fā)文推薦,稱這是一個令人耳目一新的轉(zhuǎn)變。

圖片

具體的過程和結(jié)果如何,一起來看看~

挑戰(zhàn)過程

這次研究的目標(biāo)也很明確,就是反其道行之:縮小語言訓(xùn)練模型的算力,在有限的計(jì)算量的情況下如何達(dá)到BERT的性能水平

既然要縮小計(jì)算量,那第一步肯定是對模型作出一些限定。

這也還是之前提到的,限定時(shí)間和GPU個數(shù):單天單個GPU。

關(guān)于GPU,研究人員分別選取了3個進(jìn)行測試,即rtx2080ti、rtxa4000和rtxa6000,每個單元有4個CPU核和32GB內(nèi)存。

圖片

在限定計(jì)算量之后,就要對模型的其他參數(shù)進(jìn)行一些調(diào)整,以進(jìn)一步對BERT的實(shí)際適用性進(jìn)行評估

這些調(diào)整包括初始數(shù)據(jù)設(shè)置、模型架構(gòu)、訓(xùn)練以及數(shù)據(jù)集的改進(jìn)。

并且在調(diào)整的過程中,整體基調(diào)都是圍繞“實(shí)際使用”進(jìn)行的,避免跳轉(zhuǎn)到專業(yè)的設(shè)置,為此,研究人員將所有內(nèi)容都保持在PyTorch框架的實(shí)現(xiàn)級別上。

先來說說初始數(shù)據(jù)設(shè)置,這部分可以簡單概括為以下幾點(diǎn):

  • 將標(biāo)記化的數(shù)據(jù)打包成長度為128的隨機(jī)序列,不相關(guān)的片段用分割;
  • 刪除< cls > 標(biāo)記,因?yàn)樵谟?xùn)練前訓(xùn)練中加入它并沒有對性能產(chǎn)生多大影響;
  • 將序列長度為64到96微小批量累積到大批量再處理。

然后是對架構(gòu)的修改,下圖顯示了不同模型在隨著token數(shù)量的增加MLM任務(wù)損失的變化。

結(jié)果很顯然,一個模型損失的衰減很大程度地取決于模型的大小,而不是模型的類型。

圖片

并且,因?yàn)槊總€token的性能與模型大小之間的關(guān)系緊密耦合,若想通過改變Transformer模型的大小和類型來獲得巨大性能增益是不太可能的。

不過對于同大小的所有模型,每個梯度效率是幾乎保持不變的,因此可以在保證模型大小不變的情況下,選擇能夠通過快速搜索加速計(jì)算的架構(gòu)。

具體的優(yōu)化和其他調(diào)整如下:

  • 減少注意力頭的數(shù)量來降低梯度成本:禁用所有QKV偏差;
  • 禁用所有線性層偏差,通過加速梯度計(jì)算,不會對模型大小產(chǎn)生明顯影響;
  • 實(shí)現(xiàn)比例正弦位置嵌入,相較于學(xué)習(xí)或非比例正弦嵌入有增量收益;
  • LN的預(yù)標(biāo)準(zhǔn)化比后LN更有益;
  • 去除非線性頭部并無影響。

接下來便要對訓(xùn)練進(jìn)行設(shè)置,具體也就不再贅述,直接來看相關(guān)調(diào)整:

  • 優(yōu)化器依舊是Adam;
  • 設(shè)定Learning Rate計(jì)劃和批量大?。?/li>
  • 丟掉Dropout環(huán)節(jié)。(因?yàn)镈ropout會導(dǎo)致每秒更新的凈減少)

而在數(shù)據(jù)集方面,研究團(tuán)隊(duì)采用了兩種基于數(shù)據(jù)的途徑來更好地縮小規(guī)模,分別是以各種方式過濾、處理或排序現(xiàn)有的數(shù)據(jù)交換數(shù)據(jù)源,具體可以看下表。

性能接近最初的BERT

在調(diào)整完各種參數(shù)后,這個單卡一天的BERT性能到底如何?直接看看最終的數(shù)據(jù)!

在下游性能評估時(shí)是通過GLUE來進(jìn)行的,下表能夠看到在3個不同顯卡上的得分,非常接近最初的BERT。

圖片

而當(dāng)模型訓(xùn)練計(jì)算量為16倍時(shí),即(2天,在8個GPU),依舊是一樣的數(shù)據(jù)和設(shè)置,最終得到的結(jié)果比最初的BERT提高了很多,達(dá)到了RoBERTa的性能水平。

圖片

如果想了解更多,可以點(diǎn)擊下面鏈接查看論文原文~

?論文原文:???https://arxiv.org/abs/2212.14034?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2015-09-15 10:51:35

2015-04-08 10:40:09

2020-11-18 10:17:22

比特幣加密貨幣區(qū)塊鏈

2013-06-26 10:49:09

云端大腦科技技術(shù)

2020-07-23 08:17:47

代碼開發(fā)人員用戶

2009-08-02 22:32:44

綜合布線系統(tǒng)

2015-10-22 16:01:52

無線網(wǎng)絡(luò)華三通信

2020-05-08 15:49:50

神經(jīng)網(wǎng)絡(luò)人工智能架構(gòu)

2010-09-01 15:27:40

DHCP工作流程

2012-06-18 09:33:03

云計(jì)算IBM惠普

2022-04-05 20:24:19

元宇宙技術(shù)數(shù)字化

2013-09-24 09:52:24

2022-10-30 15:03:25

人工智能倉庫管理機(jī)器人

2013-12-25 09:07:24

微軟鮑爾默諾基亞

2009-10-26 13:36:10

BSM

2019-05-13 15:45:29

程序員面試招聘

2020-09-23 08:55:16

交換機(jī)配置網(wǎng)絡(luò)vlan

2017-02-08 10:01:13

大數(shù)據(jù)ETL技術(shù)

2013-01-31 11:51:37

開源KVM

2013-02-27 10:53:16

開源KVM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號