偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌大腦Quoc發(fā)布Primer,從操作原語(yǔ)搜索高效Transformer變體

人工智能
最近Google Brain的首席Quoc發(fā)布了一個(gè)搜索框架,能夠自動(dòng)搜索高效率的Transformer變體,并找到一些有效的模型Primer,其中ReLU加個(gè)平方竟然能提升最多性能!

 [[426884]]

調(diào)參、改激活函數(shù)提高模型性能已經(jīng)見(jiàn)怪不改了。最近Google Brain的首席Quoc發(fā)布了一個(gè)搜索框架,能夠自動(dòng)搜索高效率的Transformer變體,并找到一些有效的模型Primer,其中ReLU加個(gè)平方竟然能提升最多性能!

目前自然語(yǔ)言處理領(lǐng)域發(fā)展的紅利都來(lái)自于大型的、基于Transformer的語(yǔ)言模型,但這些語(yǔ)言模型的訓(xùn)練成本、推理成本都高到勸退平民煉金術(shù)師。

而當(dāng)模型參數(shù)量大到一定程度的時(shí)候,研究人員也在考慮如何在縮小模型的情況下,保持性能不變。

Google Brain團(tuán)隊(duì)最近在arxiv 上傳了一篇論文,目標(biāo)是通過(guò)尋找更高效的Transformer 變體來(lái)降低訓(xùn)練和推理成本。

與之前的方法相比,新提出的方法在更低級(jí)別上執(zhí)行搜索,在Tensorflow 程序的原語(yǔ)上定義和搜索 Transformer。并提出了一種名為 Primer 的模型架構(gòu),訓(xùn)練成本比原始 Transformer 和用于自回歸語(yǔ)言建模的其他模型變體要更小。

谷歌大腦Quoc發(fā)布Primer,從操作原語(yǔ)搜索高效Transformer變體

https://arxiv.org/abs/2109.08668

論文的作者是大神 Quoc V. Le,在斯坦福讀博期間導(dǎo)師是吳恩達(dá)教授,目前是谷歌的研究科學(xué)家,Google Brain 的創(chuàng)始成員之一;seq2seq的作者之一;谷歌AutoML的奠基人,提出包括神經(jīng)架構(gòu)等方法;EfficientNet的作者等。

[[426885]]

研究人員使用TensorFlow(TF)中的操作來(lái)構(gòu)造Transformer 變體的搜索空間。在這個(gè)搜索空間中,每個(gè)程序定義了自回歸語(yǔ)言模型的可堆疊解碼器塊。給定輸入張量是一個(gè)長(zhǎng)度為n且嵌入長(zhǎng)度為d的序列,程序能夠返回相同形狀的張量。

堆疊時(shí),其輸出表示每個(gè)序列位置的下一個(gè)token的預(yù)測(cè)embedding,并且程序只指定模型架構(gòu),沒(méi)有其他內(nèi)容。換句話說(shuō),輸入和輸出embedding矩陣本身以及輸入預(yù)處理和權(quán)重優(yōu)化不在這個(gè)程序的任務(wù)范圍內(nèi)。

谷歌大腦Quoc發(fā)布Primer,從操作原語(yǔ)搜索高效Transformer變體

解碼器模型程序(DNA, decoder model program)定義了一個(gè)自回歸語(yǔ)言模型,每個(gè)DNA都有一組子程序,其中子程序0是MAIN函數(shù)的入口點(diǎn)。每個(gè)子程序都由指令組成,這些指令被轉(zhuǎn)換為TensorFlow代碼行。

指令操作映射到原語(yǔ)詞匯表中的基本TensorFlow庫(kù)函數(shù)或父DNA子程序之一,原語(yǔ)詞匯表由簡(jiǎn)單的原語(yǔ)TF函數(shù)組成,如ADD、LOG、MATMUL等等,但像self-attention這樣的高級(jí)構(gòu)建塊不是搜索空間中的操作,自注意力可以從低級(jí)操作中構(gòu)建出來(lái)的。

DNA的子程序庫(kù)由附加程序組成,這些程序可以通過(guò)指令作為函數(shù)執(zhí)行。每個(gè)子程序只能調(diào)用子程序庫(kù)中索引較高的子程序,這樣就消除了循環(huán)的可能性。

谷歌大腦Quoc發(fā)布Primer,從操作原語(yǔ)搜索高效Transformer變體

使用父指令的參數(shù)集填充操作的參數(shù),該參數(shù)集包含所有潛在操作參數(shù)的值,參數(shù)包括Input 1( 用作第一個(gè)tensor輸入的隱藏狀態(tài)的索引)、Input 2(第二個(gè)tensor輸入的隱藏狀態(tài)的索引)、Constant(實(shí)值常數(shù),可以用于MAX等函數(shù))、Dimensionsize(用來(lái)表示輸出維度大小的整數(shù))。特定操作中沒(méi)有使用的參數(shù)就直接被省略掉。

研究人員還提出進(jìn)化搜索(evolutionary search),目標(biāo)是在搜索空間中找到最有效的模型架構(gòu)。主要方法是設(shè)計(jì)一個(gè)固定的訓(xùn)練預(yù)算(使用TPUv2限時(shí)24小時(shí)),并將其適應(yīng)性指標(biāo)定義為Tensor2Tensor中One Billion Words Benchmark (LM1B)上的困惑度。

這些架構(gòu)搜索工作的明確目標(biāo)是在優(yōu)化效率時(shí)減少訓(xùn)練或推理步驟時(shí)間,在搜索過(guò)程中,可以發(fā)現(xiàn)將步長(zhǎng)時(shí)間增加一倍、采樣效率提高三倍是一個(gè)不錯(cuò)的修改方案,因?yàn)樗罱K使模型架構(gòu)的計(jì)算效率更高。還可以將ReLUs平方化,并在注意力上增加深度卷積,從而增加訓(xùn)練步長(zhǎng)時(shí)間。

這些操作極大地提高了模型的采樣效率,通過(guò)大幅減少達(dá)到目標(biāo)質(zhì)量所需的訓(xùn)練步驟數(shù)量,減少了達(dá)到目標(biāo)性能所需的總計(jì)算量。

通過(guò)這個(gè)搜索程序找到的模型被研究人員命名為Primer,也就是原語(yǔ)搜索Transformer(PRIMitives searched transformER)。

Primer 的改進(jìn)主要有平方 ReLU 激活并在自注意力中的每個(gè) Q、K 和 V 投影后添加一個(gè)深度卷積層。

最有效的修改是將變Transformer前饋塊中的ReLU激活改進(jìn)為平方ReLU激活函數(shù),這也是第一次證明這種整流多項(xiàng)式激活在Transformer 中有用。并且高階多項(xiàng)式的有效性也可以在其他Transfomer 非線性激活函數(shù)中觀察到,例如GLU 的各種變體,ReGLU、近似GELU等。然而平方ReLU與最常用的激活功能相比 ReLU、GELU和Swish 具有截然不同的漸近性。

谷歌大腦Quoc發(fā)布Primer,從操作原語(yǔ)搜索高效Transformer變體

平方ReLU確實(shí)與ReGLU有顯著重疊,事實(shí)上,當(dāng)ReGLU的U和V權(quán)重矩陣相同時(shí),平方ReLU與ReLU是等效的。并且平方ReLU在更簡(jiǎn)單的同時(shí),也能獲得GLU變體的好處,且無(wú)需額外參數(shù),并提供更好的質(zhì)量。

研究人員使用三個(gè)Transformer 變體與Primer 進(jìn)行對(duì)比:

1、Vanilla Transformer: 原始Transformer,使用ReLU激活和layer normalization。

2、Transformer+GELU: Transformer的常用變體,使用GELU近似激活函數(shù)

3、Transformer++: 使用RMS歸一化、Swish激活和GLU乘法分支在前饋反向瓶頸(SwiGLU)中。這些修改在T5 中進(jìn)行了基準(zhǔn)測(cè)試,并被表明是有效的。

實(shí)驗(yàn)表明,隨著計(jì)算規(guī)模的增長(zhǎng),Primer 相對(duì)于 Transformer 的收益會(huì)增加,并且在最佳模型大小下遵循與質(zhì)量相關(guān)的冪律。

谷歌大腦Quoc發(fā)布Primer,從操作原語(yǔ)搜索高效Transformer變體

研究人員還憑經(jīng)驗(yàn)驗(yàn)證了 Primer 可以放入不同的代碼庫(kù),發(fā)現(xiàn)可以顯著加快訓(xùn)練速度,而無(wú)需額外調(diào)整。例如,在 500M 的參數(shù)大小下,Primer 在 C4 自回歸語(yǔ)言建模上改進(jìn)了原始 T5 架構(gòu),將訓(xùn)練成本降低了 4 倍。

此外,降低的訓(xùn)練成本意味著 Primer 需要更少的計(jì)算來(lái)達(dá)到目標(biāo)one shot性能。例如,在類似于 GPT-3 XL 的 1.9B 參數(shù)配置中,Primer 使用 1/3 的訓(xùn)練計(jì)算來(lái)實(shí)現(xiàn)與 Transformer 相同的一次性性能。

研究人員已經(jīng)開(kāi)源了模型,以幫助提論文可重復(fù)性。

谷歌大腦Quoc發(fā)布Primer,從操作原語(yǔ)搜索高效Transformer變體

 

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-06-29 15:33:28

谷歌Transformer模型

2020-01-23 15:19:26

谷歌Android開(kāi)發(fā)者

2012-10-08 10:47:41

谷歌虛擬大腦

2018-05-23 09:28:23

2023-09-21 10:29:01

AI模型

2025-04-10 10:44:00

2023-04-20 14:48:05

微軟AIChatGPT

2009-03-25 08:48:17

AndroidGoogle移動(dòng)OS

2021-01-26 15:32:40

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2022-09-26 15:23:38

模型Transforme

2025-03-31 08:12:00

模型AI訓(xùn)練

2023-01-27 13:32:51

大腦模型模仿

2020-11-29 20:24:13

數(shù)據(jù)谷歌DeepMind

2020-09-27 10:37:51

谷歌Transformer機(jī)器學(xué)習(xí)

2021-05-06 15:55:01

谷歌Android開(kāi)發(fā)

2014-07-21 09:18:26

谷歌Google Brai

2014-06-26 11:04:49

Android L

2022-10-20 15:30:04

操作系統(tǒng)開(kāi)源

2011-04-30 16:18:49

AndroidGoogle TV智能電視

2018-04-16 13:32:19

谷歌搜索引擎Talk to Boo
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)