偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

上下文學(xué)習(xí)=對(duì)比學(xué)習(xí)?人大揭示ICL推理背后的隱式更新機(jī)理:梯度更新了嗎?「如更」

人工智能 新聞
人民大學(xué)最新研究,首次從「對(duì)比學(xué)習(xí)」的角度來(lái)理解上下文學(xué)習(xí),或可提供自注意力機(jī)制的改進(jìn)思路。

近些年來(lái),基于Transformer的大語(yǔ)言模型表現(xiàn)出了驚人的In-context Learning (ICL)能力,我們只需要在查詢(xún)問(wèn)題前以 {問(wèn)題,標(biāo)簽} 的形式增加少數(shù)示例,模型就可以學(xué)到該任務(wù)并輸出較好的結(jié)果。

然而,ICL背后的機(jī)理仍是一個(gè)開(kāi)放的問(wèn)題:在ICL的推理過(guò)程,模型的參數(shù)并沒(méi)有得到顯式的更新,模型如何根據(jù)示例樣本輸出相應(yīng)的結(jié)果呢?

近日,來(lái)自中國(guó)人民大學(xué)的學(xué)者提出了從對(duì)比學(xué)習(xí)的視角看待基于Transformer的ICL推理過(guò)程,文章指出基于注意力機(jī)制的ICL推理過(guò)程可以等價(jià)于一種對(duì)比學(xué)習(xí)的模式,為理解ICL提供了一種全新視角。

圖片

論文地址:https://arxiv.org/abs/2310.13220

研究人員先利用核方法在常用的softmax注意力下建立了梯度下降和自注意機(jī)制之間的關(guān)系,而非線性注意力;

然后在無(wú)負(fù)樣本對(duì)比學(xué)習(xí)的角度上,對(duì)ICL中的梯度下降過(guò)程進(jìn)行分析,并討論了可能的改進(jìn)方式,即對(duì)自注意力層做進(jìn)一步修改;

最后通過(guò)設(shè)計(jì)實(shí)驗(yàn)來(lái)支持文中提出的觀點(diǎn)。

研究團(tuán)隊(duì)表示,這項(xiàng)工作是首次從對(duì)比學(xué)習(xí)的角度來(lái)理解ICL,可以通過(guò)參考對(duì)比學(xué)習(xí)的相關(guān)工作來(lái)促進(jìn)模型的未來(lái)設(shè)計(jì)思路。

背景與動(dòng)機(jī)

相較于有監(jiān)督學(xué)習(xí)下的微調(diào),大模型在ICL推理過(guò)程中并不需要顯式的梯度更新,即可學(xué)習(xí)到示例樣本中的信息并輸出對(duì)于查詢(xún)問(wèn)題的答案,基于Transformer的大模型是如何實(shí)現(xiàn)這一點(diǎn)的呢?

一個(gè)自然且直觀的想法是,模型雖然沒(méi)有在學(xué)習(xí)上下文過(guò)程存在顯式更新,但可能存在相應(yīng)的隱式更新機(jī)理。

在此背景下,許多工作開(kāi)始從梯度下降的角度來(lái)思考大模型的ICL能力。

然而,現(xiàn)有的工作或是基于Transformer線性注意力的假設(shè),或是基于對(duì)模型參數(shù)特定的構(gòu)造進(jìn)行分析,實(shí)際應(yīng)用中的模型并不一定符合上述的假設(shè)。

因此,有兩個(gè)問(wèn)題亟需解決:

(1)不依賴(lài)于權(quán)重參數(shù)構(gòu)造方法以及線性注意力的假設(shè),如何在更為廣泛使用的softmax注意力設(shè)定下,對(duì)ICL的隱式更新機(jī)理進(jìn)行分析?

(2)這種隱式更新的具體過(guò)程,如損失函數(shù)以及訓(xùn)練數(shù)據(jù),會(huì)具有什么樣的形式?

方法

作者首先假設(shè)模型輸入的token由若干示例樣本的token以及最后的查詢(xún)token組成,每個(gè)token由 {問(wèn)題, 標(biāo)簽} 的embedding拼接而成,其中,查詢(xún)token的標(biāo)簽部分設(shè)置為0,即

圖片

在注意力機(jī)制下,模型輸出最后一個(gè)token并readout得到預(yù)測(cè)的標(biāo)簽結(jié)果

圖片

進(jìn)一步,作者應(yīng)用核方法,將注意力矩陣的每一項(xiàng)看作映射函數(shù)的內(nèi)積

圖片

在此基礎(chǔ)上,作者建立了基于Transformer注意力機(jī)制的推理過(guò)程與在參考模型上進(jìn)行梯度下降之間的對(duì)應(yīng)關(guān)系。

在參考模型的梯度下降過(guò)程中,示例樣本與查詢(xún)的token分別提供了訓(xùn)練集以及測(cè)試輸入的相關(guān)信息,模型在類(lèi)似余弦相似度的損失函數(shù)下進(jìn)行訓(xùn)練,參考模型最后輸出測(cè)試輸入所對(duì)應(yīng)的輸出。

作者指出參考模型的該輸出會(huì)與注意力機(jī)制下的推理輸出嚴(yán)格等價(jià),即參考模型在對(duì)應(yīng)數(shù)據(jù)集以及余弦相似損失上進(jìn)行一步隨機(jī)梯度下降后,得到的測(cè)試輸出會(huì)與注意力機(jī)制下得到的輸出是嚴(yán)格相等的。

等價(jià)關(guān)系

進(jìn)一步,作者發(fā)現(xiàn)這一對(duì)應(yīng)的梯度下降過(guò)程類(lèi)似于無(wú)負(fù)樣本的對(duì)比學(xué)習(xí)模式,其中,注意力機(jī)制中的K,V映射可以看作為一種「數(shù)據(jù)增強(qiáng)」。

而參考模型則是相當(dāng)于需要學(xué)習(xí)潛在表征的encoder,其將映射后的K向量先投影到高維空間學(xué)習(xí)深層表征,然后再映射回原來(lái)的空間與V向量進(jìn)行對(duì)比損失的計(jì)算,以使得兩者的盡可能的相似。

對(duì)比學(xué)習(xí)模式

基于此,作者從對(duì)比學(xué)習(xí)的角度對(duì)注意力機(jī)制作出改進(jìn),作者分別從正則化的損失函數(shù)、數(shù)據(jù)增強(qiáng)以及增加負(fù)樣本三個(gè)方面來(lái)進(jìn)行考慮。

正則化的損失函數(shù)

作者指出在對(duì)比損失中增加正則,相當(dāng)于在原有注意力機(jī)制上添加特殊的支路。

圖片

數(shù)據(jù)增強(qiáng)

作者認(rèn)為原有的線性映射作為數(shù)據(jù)增強(qiáng)或不利于學(xué)習(xí)潛在表征,對(duì)于特定數(shù)據(jù)類(lèi)型所設(shè)計(jì)的數(shù)據(jù)增強(qiáng)方式或許更為有效,相應(yīng)地,作者給出了對(duì)模型進(jìn)行修改的框架。

圖片

增加負(fù)樣本

此外,作者還從增加負(fù)樣本的角度,給出了ICL對(duì)比學(xué)習(xí)模式以及相應(yīng)注意力機(jī)制的改進(jìn)。

圖片

圖片


實(shí)驗(yàn)

實(shí)驗(yàn)部分中,作者在線性回歸任務(wù)上設(shè)計(jì)了仿真實(shí)驗(yàn),說(shuō)明了注意力機(jī)制下的推理過(guò)程與參考模型上進(jìn)行梯度下降過(guò)程的等價(jià)性,即單層注意力機(jī)制下得到的推理結(jié)果,嚴(yán)格等價(jià)于參考模型在對(duì)比損失loss上進(jìn)行一步梯度下降后的測(cè)試輸出。

在實(shí)驗(yàn)中,作者還選取了正隨機(jī)特征作為映射函數(shù),來(lái)作為對(duì)注意力機(jī)制的近似,并考察了不同隨機(jī)特征維度對(duì)注意力矩陣以及輸出近似效果的影響,說(shuō)明了該映射函數(shù)的有效性。

圖片

實(shí)驗(yàn)圖1

作者還展示了近似得到的注意力矩陣以及輸出與實(shí)際結(jié)果的對(duì)比,說(shuō)明了二者在模式上的基本一致。

圖片

實(shí)驗(yàn)圖2

最后,作者進(jìn)一步探究了根據(jù)對(duì)比學(xué)習(xí)視角對(duì)注意力機(jī)制改進(jìn)后的表現(xiàn)效果,發(fā)現(xiàn)選擇合適的改進(jìn)方式不僅可以加速模型訓(xùn)練的收斂速度,還可以最終取得更好的效果,這說(shuō)明了未來(lái)從對(duì)比學(xué)習(xí)視角進(jìn)行模型結(jié)構(gòu)設(shè)計(jì)與改進(jìn)的潛力。

圖片

實(shí)驗(yàn)圖3

總結(jié)與未來(lái)展望

作者在不依賴(lài)于線性注意力假設(shè)以及權(quán)重構(gòu)造的方法下,探究了ICL的隱式更新機(jī)理,建立了softmax注意力機(jī)制推理過(guò)程與梯度下降的等價(jià)關(guān)系,并進(jìn)一步提出了從對(duì)比學(xué)習(xí)的視角下看待注意力機(jī)制推理過(guò)程的新框架。

但是,作者也指出了該工作目前仍存在一定的缺陷:文章目前只考慮了softmax自注意力機(jī)制下的前向推理,層歸一化,F(xiàn)FN模塊以及decoder等Transforomer其余結(jié)構(gòu)對(duì)推理過(guò)程的影響仍有待進(jìn)一步的研究;從對(duì)比學(xué)習(xí)視角出發(fā)對(duì)模型結(jié)構(gòu)進(jìn)行進(jìn)一步的改進(jìn),在諸多實(shí)際應(yīng)用任務(wù)上的表現(xiàn)仍有待進(jìn)一步探索。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-06-15 15:45:42

自然語(yǔ)言語(yǔ)言模型

2023-09-16 13:47:47

人工智能數(shù)據(jù)

2023-11-24 17:01:30

模型推理

2024-06-19 12:50:39

2023-03-31 13:37:34

研究

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2023-07-09 15:09:18

機(jī)器學(xué)習(xí)能力

2025-05-14 15:03:45

模型訓(xùn)練AI

2023-11-22 16:51:53

2025-05-28 11:46:52

強(qiáng)化學(xué)習(xí)模型AI

2025-02-20 12:09:22

2014-08-20 09:53:54

distributeT

2012-12-31 10:01:34

SELinuxSELinux安全

2024-11-20 09:36:00

2022-09-14 13:13:51

JavaScript上下文

2025-02-26 00:16:56

RAGAI服務(wù)

2023-06-15 12:24:49

2023-02-13 08:00:00

深度學(xué)習(xí)數(shù)據(jù)算法

2023-11-26 18:05:00

文本訓(xùn)練

2024-02-21 19:56:48

??filterA并發(fā)計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)