偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

MIT斯坦福Transformer最新研究:過(guò)度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力

人工智能 新聞
雖然Transformer架構(gòu)存在一些明顯的限制(例如無(wú)法實(shí)現(xiàn)無(wú)限遞歸),但研究人員的結(jié)果表明它可能具有比以前認(rèn)為的更強(qiáng)的歸納偏好:通過(guò)充分的訓(xùn)練,Transformer能夠表示分層的句子結(jié)構(gòu)并利用這種結(jié)構(gòu)進(jìn)行正確的泛化。

對(duì)于人類來(lái)說(shuō),句子是分層的。

句子的層次結(jié)構(gòu)對(duì)于表達(dá)和理解都相當(dāng)重要。

但是在自然語(yǔ)言處理中,之前的研究認(rèn)為,在泛化到新的結(jié)構(gòu)輸入時(shí),以Transformer為代表的神經(jīng)序列模型似乎很難有效地捕捉到這種句子的層級(jí)結(jié)構(gòu)。

但是斯坦福和MIT的研究人員在最近的研究中發(fā)現(xiàn)。

如果對(duì)Transformer類的模型進(jìn)行長(zhǎng)時(shí)間的訓(xùn)練之后,它能獲得這種結(jié)構(gòu)性的泛化能力。

研究人員將這種現(xiàn)象稱為:結(jié)構(gòu)頓悟(Structural Grokking,SG)

Grokking這個(gè)詞是一個(gè)作家在書(shū)中造出來(lái)的詞,中文大概翻譯成「頓悟」。

微博網(wǎng)友木遙老師把這個(gè)詞解釋為:一個(gè)高度復(fù)雜的神經(jīng)網(wǎng)絡(luò)在漫長(zhǎng)的訓(xùn)練期內(nèi)一直只能記住訓(xùn)練樣本的信息,幾乎沒(méi)有泛化能力,但到了某一刻,它的泛化水平忽然跳了出來(lái),而且非常完美。

可以想象成一個(gè)神經(jīng)網(wǎng)絡(luò)經(jīng)歷了一個(gè)「aha moment」,像是內(nèi)部的某個(gè)齒輪忽然對(duì)上了一樣。

論文地址:https://arxiv.org/abs/2305.18741

研究人員在不同的數(shù)據(jù)集中發(fā)現(xiàn),SG在模型的深度(Model Depth)上呈現(xiàn)倒U縮放。

中深度模型的泛化能力比非常深和非常淺的模型都要好。

總體上看,如果能對(duì)模型進(jìn)行更多的擴(kuò)展訓(xùn)練,普通的Transformer能夠展現(xiàn)出層級(jí)結(jié)構(gòu)。

背景

在之前的類似研究中,研究人員認(rèn)為Transformer在分層級(jí)泛化測(cè)試中是失敗的。

Transformer模型中的分層級(jí)結(jié)構(gòu)

為了了解給定的模型是否對(duì)獲取層次結(jié)構(gòu)有偏見(jiàn),斯坦福的研究人員按照之前的實(shí)驗(yàn)流程,評(píng)估了模糊任務(wù)上訓(xùn)練的模型的泛化性。

在這些任務(wù)中,訓(xùn)練數(shù)據(jù)與“層次規(guī)則”和“非層次規(guī)則”相一致的。

為測(cè)試是否獲得了分層規(guī)則,研究人員在一個(gè)單獨(dú)的分布外測(cè)試集上測(cè)試泛化性。

頓悟(Grokking)

之前的研究表明,在小型算法數(shù)據(jù)集上會(huì)出現(xiàn)頓悟現(xiàn)象,他們發(fā)現(xiàn)在訓(xùn)練性能飽和后的很長(zhǎng)時(shí)間里,模型測(cè)試性能繼續(xù)提高。

因此研究人員就假設(shè)存在一個(gè)類似的結(jié)構(gòu)頓悟,在域內(nèi)驗(yàn)證性能飽和后很長(zhǎng)時(shí)間內(nèi),模型對(duì)于分層結(jié)構(gòu)依然可以繼續(xù)頓悟。

因此,分層泛化可以通過(guò)擴(kuò)展訓(xùn)練繼續(xù)提高。

實(shí)驗(yàn)

數(shù)據(jù)集

研究人員的目標(biāo)是理解transformer中的分層泛化 , 使用了來(lái)自之前研究中的兩個(gè)數(shù)據(jù)集,并在一個(gè)簡(jiǎn)單的括號(hào)跟蹤任務(wù)上進(jìn)行了評(píng)估。

我們?cè)u(píng)估了Dyck20,10中結(jié)構(gòu)上未觀察到的字符串的泛化能力,以下圖為例。

模型

研究人員訓(xùn)練了有{2,4,6,8,10}層的transformer語(yǔ)言模型。

對(duì)于每個(gè)深度,研究人員用10個(gè)隨機(jī)種子來(lái)訓(xùn)練模型,300k steps。(Dyck為400k)

給定輸入句子(或在Dyck的情況下前綴),研究人員在測(cè)試時(shí)從模型中解碼。

對(duì)于Dyck,研究人員報(bào)告準(zhǔn)確性是通過(guò)在給定語(yǔ)言的輸入前綴的情況下,通過(guò)對(duì)右括號(hào)進(jìn)行排名來(lái)生成正確的右括號(hào)類型。

和之前已經(jīng)進(jìn)行的研究類似,對(duì)于Question-Formation,研究人員報(bào)告解碼問(wèn)題的第一個(gè)單詞的準(zhǔn)確性。

對(duì)于Tense-Inflection,研究人員報(bào)告的是目標(biāo)動(dòng)詞詞形變化正確的測(cè)試輸入的分?jǐn)?shù)。

主要結(jié)果

Transformers展現(xiàn)出了結(jié)構(gòu)頓悟。

研究人員在下圖中展示了在所有數(shù)據(jù)集上使用最佳模型深度所獲得的結(jié)果。

他們發(fā)現(xiàn)了明確的結(jié)構(gòu)頓悟證據(jù):在各個(gè)數(shù)據(jù)集上,在分布內(nèi)準(zhǔn)確率飽和之后的訓(xùn)練步驟中,泛化性能得到改善,有時(shí)甚至接近完美的準(zhǔn)確率。

提前停止是有害的

接下來(lái),研究人員將通過(guò)在域內(nèi)驗(yàn)證準(zhǔn)確率上進(jìn)行提前停止而獲得的泛化準(zhǔn)確率,與更長(zhǎng)的訓(xùn)練流程(如下圖)的泛化準(zhǔn)確性進(jìn)行了比較。

提前停止會(huì)導(dǎo)致泛化性能被嚴(yán)重低估。

例如,在Question-Formation和Tense-Inflection兩個(gè)任務(wù)上,平均泛化性能從不到40%、不到50%提高到分別不到90%、不到80%。

倒U形分布

在Question-Formation和Tense-Inflection任務(wù)中,研究人員從2層到10層逐漸增加深度進(jìn)行模型訓(xùn)練。

對(duì)于每個(gè)深度,在下圖中報(bào)告了最終泛化準(zhǔn)確率超過(guò)80%的種子數(shù)(10個(gè)種子中的比例)。

他們發(fā)現(xiàn)了一個(gè)倒U形的分布狀態(tài)——非常淺和非常深的模型效果不佳,而大多數(shù)種子在中等深度的模型中表現(xiàn)出較好的泛化性能。

這也可以解釋為什么之前的研究要么使用非常淺的模型(1-3層的Transformer),要么使用非常深的模型(Mueller等人論文中的12層Transformer),都無(wú)法很好地泛化。

分析

鑒于結(jié)構(gòu)頓悟僅在一部分模型架構(gòu)中發(fā)生,研究人員能否確定它何時(shí)發(fā)生(或預(yù)測(cè)何時(shí)會(huì)發(fā)生)?

幾個(gè)模型內(nèi)部屬性與結(jié)構(gòu)性理解或Transformer中出現(xiàn)的新興分層結(jié)構(gòu)或許有關(guān)。

Weight Norms

最近的研究將認(rèn)為參數(shù)權(quán)重的L2 norm是結(jié)構(gòu)頓悟的重要量。

但總體上來(lái)說(shuō),訓(xùn)練過(guò)程中范數(shù)(Norms)增長(zhǎng)被作為神經(jīng)網(wǎng)絡(luò)泛化的關(guān)鍵因素之一進(jìn)行了研究。

注意力稀疏性

Merrill等人(2021年)證明了Transformer中的范數(shù)增長(zhǎng)導(dǎo)致了注意力的飽和,這是新興語(yǔ)言結(jié)構(gòu)的重要特性(Merrill等人,2022年)。為了衡量fLθ的注意力稀疏性,我們計(jì)算了所有分布{apk}的負(fù)均熵。

樹(shù)結(jié)構(gòu)

之前有研究展示了樹(shù)結(jié)構(gòu)編碼器表現(xiàn)出接近完美的分層泛化。

雖然Transformer相對(duì)較為自由,但最近的證據(jù)表明,當(dāng)在語(yǔ)言數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),它們隱含地實(shí)現(xiàn)了(近似)樹(shù)結(jié)構(gòu)計(jì)算。

而且,之前研究中樹(shù)投影方法精確地描述了Transformer對(duì)輸入進(jìn)行的內(nèi)部計(jì)算可以用樹(shù)結(jié)構(gòu)神經(jīng)編碼近似的程度,為任何Transformer提供了樹(shù)結(jié)構(gòu)度量分?jǐn)?shù)(tscore),并提供了一個(gè)在輸入字符串上最佳近似其計(jì)算的二叉樹(shù)。

為了評(píng)估這些樹(shù)是否與人類的句法概念相對(duì)應(yīng),我們還將恢復(fù)的樹(shù)與黃金標(biāo)準(zhǔn)樹(shù)進(jìn)行比較。

結(jié)果

在Question-Formation和Tense-Inflection任務(wù)中,研究人員通過(guò)每隔3k steps更新計(jì)算一次這些量的方式來(lái)描述權(quán)重范數(shù)(通過(guò)層數(shù)統(tǒng)一化來(lái)比較不同模型深度)、注意力稀疏性和樹(shù)結(jié)構(gòu)性的動(dòng)態(tài)變化情況。

對(duì)于依賴于數(shù)據(jù)的屬性,如注意力稀疏性和樹(shù)結(jié)構(gòu)性,我們從訓(xùn)練數(shù)據(jù)中隨機(jī)抽取了10k個(gè)樣例。

研究人員在下圖中繪制了這些量在最小模型、最大模型(其中至少有一個(gè)運(yùn)行顯示成功的結(jié)構(gòu)頓悟)以及最佳模型深度的情況。

樹(shù)形結(jié)構(gòu)是最佳的模型

在兩個(gè)數(shù)據(jù)集的所有模型設(shè)置中,權(quán)重范數(shù)和注意力稀疏性都會(huì)增長(zhǎng)。

然而,僅憑這些屬性本身無(wú)法預(yù)測(cè)淺層和深層模型的失敗 - 淺層模型學(xué)習(xí)到了最稀疏的解以及具有最大權(quán)重范數(shù)的解,但從未進(jìn)行分層泛化。

正如之前的研究中所指出的,tscore隨時(shí)間的推移對(duì)于所有模型都有所改善,表明隨著時(shí)間的推移,樹(shù)結(jié)構(gòu)性增加。

對(duì)于這兩個(gè)數(shù)據(jù)集,與深層和淺層模型相比,“最佳”模型學(xué)習(xí)到了最多的樹(shù)結(jié)構(gòu)解。

在算法任務(wù)中,結(jié)構(gòu)性理解“與嵌入中結(jié)構(gòu)的出現(xiàn)相吻合”。

類似地,在語(yǔ)言任務(wù)中,我們發(fā)現(xiàn)結(jié)構(gòu)性理解與樹(shù)狀內(nèi)部計(jì)算的出現(xiàn)相吻合。

Transformer在誘導(dǎo)結(jié)構(gòu)方面表現(xiàn)出驚人的效果

從下圖的tparseval的動(dòng)態(tài)變化中,研究人員注意到所有模型,無(wú)論它們是否進(jìn)行泛化,都學(xué)習(xí)到了接近于真實(shí)句法的結(jié)構(gòu),有時(shí)表現(xiàn)優(yōu)于右分支基線。

之前的研究認(rèn)為,只有樹(shù)結(jié)構(gòu)編碼器根據(jù)正確的句法分析樹(shù)進(jìn)行結(jié)構(gòu)化時(shí)才能進(jìn)行泛化。

研究人員發(fā)現(xiàn)所有Transformer都學(xué)習(xí)到了正確的樹(shù)結(jié)構(gòu),但只有最具樹(shù)結(jié)構(gòu)性的模型表現(xiàn)出最好的泛化能力。

結(jié)論

這項(xiàng)研究表明,通過(guò)結(jié)構(gòu)頓悟機(jī)制,Transformer能夠展現(xiàn)出對(duì)結(jié)構(gòu)敏感的“分層泛化”。

它們的整體學(xué)習(xí)行為逐漸從記憶(領(lǐng)域內(nèi)高準(zhǔn)確率,領(lǐng)域外準(zhǔn)確率較差)向泛化(領(lǐng)域內(nèi)和領(lǐng)域外準(zhǔn)確率高)轉(zhuǎn)變。

雖然研究人員在相對(duì)較小的數(shù)據(jù)集和小型模型上展示了這種行為,但這些結(jié)果可能具有更廣泛的意義。

因?yàn)橐呀?jīng)證明長(zhǎng)時(shí)間的訓(xùn)練即使對(duì)于規(guī)模龐大的語(yǔ)言建模和組合泛化任務(wù)也有幫助。

結(jié)構(gòu)頓悟在“中等規(guī)?!钡哪P蜕疃茸畛0l(fā)生,而非常淺和非常深的模型則無(wú)法展現(xiàn)出這種行為。

雖然以往與Transformer中的語(yǔ)言泛化相關(guān)的屬性,如權(quán)重范數(shù)和注意力稀疏性,不能區(qū)分好的架構(gòu)和壞的架構(gòu),但Transformer的功能性樹(shù)結(jié)構(gòu)可以很好地預(yù)測(cè)最佳模型深度。

雖然Transformer架構(gòu)存在一些明顯的限制(例如無(wú)法實(shí)現(xiàn)無(wú)限遞歸),但研究人員的結(jié)果表明它可能具有比以前認(rèn)為的更強(qiáng)的歸納偏好:通過(guò)充分的訓(xùn)練,Transformer能夠表示分層的句子結(jié)構(gòu)并利用這種結(jié)構(gòu)進(jìn)行正確的泛化。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-05-04 12:32:28

模型研究

2024-11-21 08:39:08

2023-07-21 14:47:24

AI訓(xùn)練

2023-10-20 12:17:57

AI數(shù)據(jù)

2023-06-25 13:28:21

2023-02-14 09:45:11

模型測(cè)試

2025-01-17 10:26:19

模型開(kāi)發(fā)ChatGPT

2025-05-06 00:45:00

2017-11-28 14:18:29

2022-02-23 14:36:31

AI數(shù)據(jù)研究

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2025-01-20 13:08:25

2023-12-05 13:38:11

架構(gòu)模型

2022-10-08 12:38:23

模型開(kāi)源

2023-09-06 13:34:31

2018-12-17 11:06:34

華為云

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-07-09 12:59:37

2022-01-11 10:22:26

量子計(jì)算芯片超算

2024-08-07 13:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)