偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="xepqs"></em>

<s id="xepqs"><rt id="xepqs"></rt></s>

<bdo id="xepqs"><optgroup id="xepqs"><tbody id="xepqs"></tbody></optgroup></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

上下文學(xué)習(xí)=對(duì)比學(xué)習(xí)？人大揭示ICL推理背后的隱式更新機(jī)理：梯度更新了嗎？「如更」

作者：新智元 2023-11-03 12:55:00

人工智能新聞

人民大學(xué)最新研究，首次從「對(duì)比學(xué)習(xí)」的角度來(lái)理解上下文學(xué)習(xí)，或可提供自注意力機(jī)制的改進(jìn)思路。

近些年來(lái)，基于Transformer的大語(yǔ)言模型表現(xiàn)出了驚人的In-context Learning (ICL)能力，我們只需要在查詢(xún)問(wèn)題前以 {問(wèn)題，標(biāo)簽} 的形式增加少數(shù)示例，模型就可以學(xué)到該任務(wù)并輸出較好的結(jié)果。

然而，ICL背后的機(jī)理仍是一個(gè)開(kāi)放的問(wèn)題：在ICL的推理過(guò)程，模型的參數(shù)并沒(méi)有得到顯式的更新，模型如何根據(jù)示例樣本輸出相應(yīng)的結(jié)果呢？

近日，來(lái)自中國(guó)人民大學(xué)的學(xué)者提出了從對(duì)比學(xué)習(xí)的視角看待基于Transformer的ICL推理過(guò)程，文章指出基于注意力機(jī)制的ICL推理過(guò)程可以等價(jià)于一種對(duì)比學(xué)習(xí)的模式，為理解ICL提供了一種全新視角。

論文地址：https://arxiv.org/abs/2310.13220

研究人員先利用核方法在常用的softmax注意力下建立了梯度下降和自注意機(jī)制之間的關(guān)系，而非線性注意力；

然后在無(wú)負(fù)樣本對(duì)比學(xué)習(xí)的角度上，對(duì)ICL中的梯度下降過(guò)程進(jìn)行分析，并討論了可能的改進(jìn)方式，即對(duì)自注意力層做進(jìn)一步修改；

最后通過(guò)設(shè)計(jì)實(shí)驗(yàn)來(lái)支持文中提出的觀點(diǎn)。

研究團(tuán)隊(duì)表示，這項(xiàng)工作是首次從對(duì)比學(xué)習(xí)的角度來(lái)理解ICL，可以通過(guò)參考對(duì)比學(xué)習(xí)的相關(guān)工作來(lái)促進(jìn)模型的未來(lái)設(shè)計(jì)思路。

背景與動(dòng)機(jī)

相較于有監(jiān)督學(xué)習(xí)下的微調(diào)，大模型在ICL推理過(guò)程中并不需要顯式的梯度更新，即可學(xué)習(xí)到示例樣本中的信息并輸出對(duì)于查詢(xún)問(wèn)題的答案，基于Transformer的大模型是如何實(shí)現(xiàn)這一點(diǎn)的呢？

一個(gè)自然且直觀的想法是，模型雖然沒(méi)有在學(xué)習(xí)上下文過(guò)程存在顯式更新，但可能存在相應(yīng)的隱式更新機(jī)理。

在此背景下，許多工作開(kāi)始從梯度下降的角度來(lái)思考大模型的ICL能力。

然而，現(xiàn)有的工作或是基于Transformer線性注意力的假設(shè)，或是基于對(duì)模型參數(shù)特定的構(gòu)造進(jìn)行分析，實(shí)際應(yīng)用中的模型并不一定符合上述的假設(shè)。

因此，有兩個(gè)問(wèn)題亟需解決：

（1）不依賴(lài)于權(quán)重參數(shù)構(gòu)造方法以及線性注意力的假設(shè)，如何在更為廣泛使用的softmax注意力設(shè)定下，對(duì)ICL的隱式更新機(jī)理進(jìn)行分析？

（2）這種隱式更新的具體過(guò)程，如損失函數(shù)以及訓(xùn)練數(shù)據(jù)，會(huì)具有什么樣的形式？

方法

作者首先假設(shè)模型輸入的token由若干示例樣本的token以及最后的查詢(xún)token組成，每個(gè)token由 {問(wèn)題, 標(biāo)簽} 的embedding拼接而成，其中，查詢(xún)token的標(biāo)簽部分設(shè)置為0，即

在注意力機(jī)制下，模型輸出最后一個(gè)token并readout得到預(yù)測(cè)的標(biāo)簽結(jié)果

進(jìn)一步，作者應(yīng)用核方法，將注意力矩陣的每一項(xiàng)看作映射函數(shù)的內(nèi)積

在此基礎(chǔ)上，作者建立了基于Transformer注意力機(jī)制的推理過(guò)程與在參考模型上進(jìn)行梯度下降之間的對(duì)應(yīng)關(guān)系。

在參考模型的梯度下降過(guò)程中，示例樣本與查詢(xún)的token分別提供了訓(xùn)練集以及測(cè)試輸入的相關(guān)信息，模型在類(lèi)似余弦相似度的損失函數(shù)下進(jìn)行訓(xùn)練，參考模型最后輸出測(cè)試輸入所對(duì)應(yīng)的輸出。

作者指出參考模型的該輸出會(huì)與注意力機(jī)制下的推理輸出嚴(yán)格等價(jià)，即參考模型在對(duì)應(yīng)數(shù)據(jù)集以及余弦相似損失上進(jìn)行一步隨機(jī)梯度下降后，得到的測(cè)試輸出會(huì)與注意力機(jī)制下得到的輸出是嚴(yán)格相等的。

等價(jià)關(guān)系

進(jìn)一步，作者發(fā)現(xiàn)這一對(duì)應(yīng)的梯度下降過(guò)程類(lèi)似于無(wú)負(fù)樣本的對(duì)比學(xué)習(xí)模式，其中，注意力機(jī)制中的K，V映射可以看作為一種「數(shù)據(jù)增強(qiáng)」。

而參考模型則是相當(dāng)于需要學(xué)習(xí)潛在表征的encoder，其將映射后的K向量先投影到高維空間學(xué)習(xí)深層表征，然后再映射回原來(lái)的空間與V向量進(jìn)行對(duì)比損失的計(jì)算，以使得兩者的盡可能的相似。

對(duì)比學(xué)習(xí)模式

基于此，作者從對(duì)比學(xué)習(xí)的角度對(duì)注意力機(jī)制作出改進(jìn)，作者分別從正則化的損失函數(shù)、數(shù)據(jù)增強(qiáng)以及增加負(fù)樣本三個(gè)方面來(lái)進(jìn)行考慮。

正則化的損失函數(shù)

作者指出在對(duì)比損失中增加正則，相當(dāng)于在原有注意力機(jī)制上添加特殊的支路。

數(shù)據(jù)增強(qiáng)

作者認(rèn)為原有的線性映射作為數(shù)據(jù)增強(qiáng)或不利于學(xué)習(xí)潛在表征，對(duì)于特定數(shù)據(jù)類(lèi)型所設(shè)計(jì)的數(shù)據(jù)增強(qiáng)方式或許更為有效，相應(yīng)地，作者給出了對(duì)模型進(jìn)行修改的框架。

增加負(fù)樣本

此外，作者還從增加負(fù)樣本的角度，給出了ICL對(duì)比學(xué)習(xí)模式以及相應(yīng)注意力機(jī)制的改進(jìn)。

實(shí)驗(yàn)

實(shí)驗(yàn)部分中，作者在線性回歸任務(wù)上設(shè)計(jì)了仿真實(shí)驗(yàn)，說(shuō)明了注意力機(jī)制下的推理過(guò)程與參考模型上進(jìn)行梯度下降過(guò)程的等價(jià)性，即單層注意力機(jī)制下得到的推理結(jié)果，嚴(yán)格等價(jià)于參考模型在對(duì)比損失loss上進(jìn)行一步梯度下降后的測(cè)試輸出。

在實(shí)驗(yàn)中，作者還選取了正隨機(jī)特征作為映射函數(shù)，來(lái)作為對(duì)注意力機(jī)制的近似，并考察了不同隨機(jī)特征維度對(duì)注意力矩陣以及輸出近似效果的影響，說(shuō)明了該映射函數(shù)的有效性。

實(shí)驗(yàn)圖1

作者還展示了近似得到的注意力矩陣以及輸出與實(shí)際結(jié)果的對(duì)比，說(shuō)明了二者在模式上的基本一致。

實(shí)驗(yàn)圖2

最后，作者進(jìn)一步探究了根據(jù)對(duì)比學(xué)習(xí)視角對(duì)注意力機(jī)制改進(jìn)后的表現(xiàn)效果，發(fā)現(xiàn)選擇合適的改進(jìn)方式不僅可以加速模型訓(xùn)練的收斂速度，還可以最終取得更好的效果，這說(shuō)明了未來(lái)從對(duì)比學(xué)習(xí)視角進(jìn)行模型結(jié)構(gòu)設(shè)計(jì)與改進(jìn)的潛力。

實(shí)驗(yàn)圖3

總結(jié)與未來(lái)展望

作者在不依賴(lài)于線性注意力假設(shè)以及權(quán)重構(gòu)造的方法下，探究了ICL的隱式更新機(jī)理，建立了softmax注意力機(jī)制推理過(guò)程與梯度下降的等價(jià)關(guān)系，并進(jìn)一步提出了從對(duì)比學(xué)習(xí)的視角下看待注意力機(jī)制推理過(guò)程的新框架。

但是，作者也指出了該工作目前仍存在一定的缺陷：文章目前只考慮了softmax自注意力機(jī)制下的前向推理，層歸一化，F(xiàn)FN模塊以及decoder等Transforomer其余結(jié)構(gòu)對(duì)推理過(guò)程的影響仍有待進(jìn)一步的研究；從對(duì)比學(xué)習(xí)視角出發(fā)對(duì)模型結(jié)構(gòu)進(jìn)行進(jìn)一步的改進(jìn)，在諸多實(shí)際應(yīng)用任務(wù)上的表現(xiàn)仍有待進(jìn)一步探索。

責(zé)任編輯：張燕妮來(lái)源：新智元

數(shù)據(jù)文本

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="oa4nr"><li id="oa4nr"><delect id="oa4nr"></delect></li></cite>