上下文學(xué)習(xí)=對(duì)比學(xué)習(xí)?人大揭示ICL推理背后的隱式更新機(jī)理:梯度更新了嗎?「如更」
近些年來(lái),基于Transformer的大語(yǔ)言模型表現(xiàn)出了驚人的In-context Learning (ICL)能力,我們只需要在查詢(xún)問(wèn)題前以 {問(wèn)題,標(biāo)簽} 的形式增加少數(shù)示例,模型就可以學(xué)到該任務(wù)并輸出較好的結(jié)果。
然而,ICL背后的機(jī)理仍是一個(gè)開(kāi)放的問(wèn)題:在ICL的推理過(guò)程,模型的參數(shù)并沒(méi)有得到顯式的更新,模型如何根據(jù)示例樣本輸出相應(yīng)的結(jié)果呢?
近日,來(lái)自中國(guó)人民大學(xué)的學(xué)者提出了從對(duì)比學(xué)習(xí)的視角看待基于Transformer的ICL推理過(guò)程,文章指出基于注意力機(jī)制的ICL推理過(guò)程可以等價(jià)于一種對(duì)比學(xué)習(xí)的模式,為理解ICL提供了一種全新視角。
論文地址:https://arxiv.org/abs/2310.13220
研究人員先利用核方法在常用的softmax注意力下建立了梯度下降和自注意機(jī)制之間的關(guān)系,而非線性注意力;
然后在無(wú)負(fù)樣本對(duì)比學(xué)習(xí)的角度上,對(duì)ICL中的梯度下降過(guò)程進(jìn)行分析,并討論了可能的改進(jìn)方式,即對(duì)自注意力層做進(jìn)一步修改;
最后通過(guò)設(shè)計(jì)實(shí)驗(yàn)來(lái)支持文中提出的觀點(diǎn)。
研究團(tuán)隊(duì)表示,這項(xiàng)工作是首次從對(duì)比學(xué)習(xí)的角度來(lái)理解ICL,可以通過(guò)參考對(duì)比學(xué)習(xí)的相關(guān)工作來(lái)促進(jìn)模型的未來(lái)設(shè)計(jì)思路。
背景與動(dòng)機(jī)
相較于有監(jiān)督學(xué)習(xí)下的微調(diào),大模型在ICL推理過(guò)程中并不需要顯式的梯度更新,即可學(xué)習(xí)到示例樣本中的信息并輸出對(duì)于查詢(xún)問(wèn)題的答案,基于Transformer的大模型是如何實(shí)現(xiàn)這一點(diǎn)的呢?
一個(gè)自然且直觀的想法是,模型雖然沒(méi)有在學(xué)習(xí)上下文過(guò)程存在顯式更新,但可能存在相應(yīng)的隱式更新機(jī)理。
在此背景下,許多工作開(kāi)始從梯度下降的角度來(lái)思考大模型的ICL能力。
然而,現(xiàn)有的工作或是基于Transformer線性注意力的假設(shè),或是基于對(duì)模型參數(shù)特定的構(gòu)造進(jìn)行分析,實(shí)際應(yīng)用中的模型并不一定符合上述的假設(shè)。
因此,有兩個(gè)問(wèn)題亟需解決:
(1)不依賴(lài)于權(quán)重參數(shù)構(gòu)造方法以及線性注意力的假設(shè),如何在更為廣泛使用的softmax注意力設(shè)定下,對(duì)ICL的隱式更新機(jī)理進(jìn)行分析?
(2)這種隱式更新的具體過(guò)程,如損失函數(shù)以及訓(xùn)練數(shù)據(jù),會(huì)具有什么樣的形式?
方法
作者首先假設(shè)模型輸入的token由若干示例樣本的token以及最后的查詢(xún)token組成,每個(gè)token由 {問(wèn)題, 標(biāo)簽} 的embedding拼接而成,其中,查詢(xún)token的標(biāo)簽部分設(shè)置為0,即
在注意力機(jī)制下,模型輸出最后一個(gè)token并readout得到預(yù)測(cè)的標(biāo)簽結(jié)果
進(jìn)一步,作者應(yīng)用核方法,將注意力矩陣的每一項(xiàng)看作映射函數(shù)的內(nèi)積
在此基礎(chǔ)上,作者建立了基于Transformer注意力機(jī)制的推理過(guò)程與在參考模型上進(jìn)行梯度下降之間的對(duì)應(yīng)關(guān)系。
在參考模型的梯度下降過(guò)程中,示例樣本與查詢(xún)的token分別提供了訓(xùn)練集以及測(cè)試輸入的相關(guān)信息,模型在類(lèi)似余弦相似度的損失函數(shù)下進(jìn)行訓(xùn)練,參考模型最后輸出測(cè)試輸入所對(duì)應(yīng)的輸出。
作者指出參考模型的該輸出會(huì)與注意力機(jī)制下的推理輸出嚴(yán)格等價(jià),即參考模型在對(duì)應(yīng)數(shù)據(jù)集以及余弦相似損失上進(jìn)行一步隨機(jī)梯度下降后,得到的測(cè)試輸出會(huì)與注意力機(jī)制下得到的輸出是嚴(yán)格相等的。
等價(jià)關(guān)系
進(jìn)一步,作者發(fā)現(xiàn)這一對(duì)應(yīng)的梯度下降過(guò)程類(lèi)似于無(wú)負(fù)樣本的對(duì)比學(xué)習(xí)模式,其中,注意力機(jī)制中的K,V映射可以看作為一種「數(shù)據(jù)增強(qiáng)」。
而參考模型則是相當(dāng)于需要學(xué)習(xí)潛在表征的encoder,其將映射后的K向量先投影到高維空間學(xué)習(xí)深層表征,然后再映射回原來(lái)的空間與V向量進(jìn)行對(duì)比損失的計(jì)算,以使得兩者的盡可能的相似。
對(duì)比學(xué)習(xí)模式
基于此,作者從對(duì)比學(xué)習(xí)的角度對(duì)注意力機(jī)制作出改進(jìn),作者分別從正則化的損失函數(shù)、數(shù)據(jù)增強(qiáng)以及增加負(fù)樣本三個(gè)方面來(lái)進(jìn)行考慮。
正則化的損失函數(shù)
作者指出在對(duì)比損失中增加正則,相當(dāng)于在原有注意力機(jī)制上添加特殊的支路。
數(shù)據(jù)增強(qiáng)
作者認(rèn)為原有的線性映射作為數(shù)據(jù)增強(qiáng)或不利于學(xué)習(xí)潛在表征,對(duì)于特定數(shù)據(jù)類(lèi)型所設(shè)計(jì)的數(shù)據(jù)增強(qiáng)方式或許更為有效,相應(yīng)地,作者給出了對(duì)模型進(jìn)行修改的框架。
增加負(fù)樣本
此外,作者還從增加負(fù)樣本的角度,給出了ICL對(duì)比學(xué)習(xí)模式以及相應(yīng)注意力機(jī)制的改進(jìn)。
實(shí)驗(yàn)
實(shí)驗(yàn)部分中,作者在線性回歸任務(wù)上設(shè)計(jì)了仿真實(shí)驗(yàn),說(shuō)明了注意力機(jī)制下的推理過(guò)程與參考模型上進(jìn)行梯度下降過(guò)程的等價(jià)性,即單層注意力機(jī)制下得到的推理結(jié)果,嚴(yán)格等價(jià)于參考模型在對(duì)比損失loss上進(jìn)行一步梯度下降后的測(cè)試輸出。
在實(shí)驗(yàn)中,作者還選取了正隨機(jī)特征作為映射函數(shù),來(lái)作為對(duì)注意力機(jī)制的近似,并考察了不同隨機(jī)特征維度對(duì)注意力矩陣以及輸出近似效果的影響,說(shuō)明了該映射函數(shù)的有效性。
實(shí)驗(yàn)圖1
作者還展示了近似得到的注意力矩陣以及輸出與實(shí)際結(jié)果的對(duì)比,說(shuō)明了二者在模式上的基本一致。
實(shí)驗(yàn)圖2
最后,作者進(jìn)一步探究了根據(jù)對(duì)比學(xué)習(xí)視角對(duì)注意力機(jī)制改進(jìn)后的表現(xiàn)效果,發(fā)現(xiàn)選擇合適的改進(jìn)方式不僅可以加速模型訓(xùn)練的收斂速度,還可以最終取得更好的效果,這說(shuō)明了未來(lái)從對(duì)比學(xué)習(xí)視角進(jìn)行模型結(jié)構(gòu)設(shè)計(jì)與改進(jìn)的潛力。
實(shí)驗(yàn)圖3
總結(jié)與未來(lái)展望
作者在不依賴(lài)于線性注意力假設(shè)以及權(quán)重構(gòu)造的方法下,探究了ICL的隱式更新機(jī)理,建立了softmax注意力機(jī)制推理過(guò)程與梯度下降的等價(jià)關(guān)系,并進(jìn)一步提出了從對(duì)比學(xué)習(xí)的視角下看待注意力機(jī)制推理過(guò)程的新框架。
但是,作者也指出了該工作目前仍存在一定的缺陷:文章目前只考慮了softmax自注意力機(jī)制下的前向推理,層歸一化,F(xiàn)FN模塊以及decoder等Transforomer其余結(jié)構(gòu)對(duì)推理過(guò)程的影響仍有待進(jìn)一步的研究;從對(duì)比學(xué)習(xí)視角出發(fā)對(duì)模型結(jié)構(gòu)進(jìn)行進(jìn)一步的改進(jìn),在諸多實(shí)際應(yīng)用任務(wù)上的表現(xiàn)仍有待進(jìn)一步探索。