偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR2024杰出論文——Never Train from Scratch!

發(fā)布于 2024-5-11 10:40
瀏覽
0收藏

今天給大家介紹一篇ICLR2024的杰出論文,這篇文章深入探討了自監(jiān)督預(yù)訓(xùn)練對于使用Transformer進行長序列建模的重要性。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

論文標(biāo)題:Never Train from Scratch: FAIR COMPARISON OF LONGSEQUENCE MODELS REQUIRES DATA-DRIVEN PRIORS

下載地址:??https://arxiv.org/pdf/2310.02980??

1、背景介紹

在一些長序列建模數(shù)據(jù)集benchmark中,例如Long Range Arena,使用RNN或者SSM這種基礎(chǔ)的序列模型效果要顯著優(yōu)于Transformer模型。

然而,文中提出這種評估方式并不科學(xué)。現(xiàn)有的基于LRA這類benchmark評估模型效果的方法,都是直接在這些長序列上從0開始擬合目標(biāo)。這種情況下,Transformer的效果確實會比RNN、SSM等模型效果差很多。

但是如果使用這些數(shù)據(jù)先對模型做一下預(yù)訓(xùn)練,就會發(fā)現(xiàn)Transformer的效果和SSM基本一致。如下圖所示,從頭訓(xùn)練,Transformer的效果和S4有很大差距;而如果使用mask language model等預(yù)訓(xùn)練任務(wù)進行自監(jiān)督學(xué)習(xí),就會發(fā)現(xiàn)Transformer的效果取得了大幅提升。同時,S4的效果也會有一定的提升。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

2、實驗方法

針對上述現(xiàn)象,文中提出在進行長序列benchmark等任務(wù)上的評估時,直接從0訓(xùn)練對比不同模型效果是不公平的,因為模型并沒有被充分訓(xùn)練。文中提出應(yīng)該先用SFT在目標(biāo)數(shù)據(jù)上進行訓(xùn)練,使模型有一個良好的初始化點,再進行finetune,才能實現(xiàn)不同模型公平的對比。

文中主要在LRA數(shù)據(jù)集上進行Transformer和SSM的效果對比驗證。LRA主要包括6個長序列分類任務(wù),包括長文本的匹配任務(wù)、列表分類任務(wù)、一維化圖像的分類任務(wù)等等。

在訓(xùn)練方法使用,增加預(yù)訓(xùn)練緩解,使用自回歸預(yù)測下一個token,或者mask序列中部分token進行還原,作為自監(jiān)督學(xué)習(xí)的目標(biāo)。整個預(yù)訓(xùn)練都是在目標(biāo)數(shù)據(jù)集中進行的,不會引入其他外部數(shù)據(jù)。

3、實驗效果

下表是一個主要的實驗結(jié)果,其中上半部分是各個模型從頭進行訓(xùn)練的效果,由A benchmark for efficient transformers. In 9th International Conference on Learning Representations(ICLR 2021)論文中發(fā)表,包括各類優(yōu)化版Transformer效果。下面兩行是本文提出的使用預(yù)訓(xùn)練進行Transformer充分訓(xùn)練后,再在目標(biāo)數(shù)據(jù)上進行finetune??梢钥吹剑?jīng)過SFT,Transformer的效果得到了非常大幅度的提升。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

即使是在S4模型上,引入自監(jiān)督預(yù)訓(xùn)練后,在某些困難數(shù)據(jù)集上也會取得提升。并且從下面實驗來看,充分預(yù)訓(xùn)練的公平對比下,Transformer效果和S4接近,遠沒有從頭訓(xùn)練時二者效果差異大。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

由此可見,充分的自監(jiān)督訓(xùn)練,找到一個比較好的初始點,對于公平對比不同模型性能是非常重要的。同時,這也啟發(fā)我們在使用Transformer這類inductive bias較少的模型時,可以通過自監(jiān)督學(xué)習(xí)來提升模型效果。

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦