偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention 原創(chuàng)

發(fā)布于 2025-1-9 14:50
瀏覽
0收藏

“ 注意力機(jī)制是Transformer的核心,而注意力的目的卻是特征提取 ”

Transformer架構(gòu)對(duì)從事大模型領(lǐng)域的人來(lái)說(shuō)應(yīng)該不是一個(gè)陌生的詞匯,而且大家應(yīng)該都知道Transformer架構(gòu)的核心點(diǎn)就在于其self-attention自注意力機(jī)制;雖然說(shuō)Transofrmer架構(gòu)的自注意力機(jī)制大名鼎鼎,  但真正了解注意力機(jī)制的人好像并不是很多,所以今天我們就來(lái)簡(jiǎn)單了解一下注意力機(jī)制。

注意這里說(shuō)的是注意力機(jī)制,不是自注意力機(jī)制。

注意力機(jī)制

先來(lái)思考一個(gè)問(wèn)題,什么是注意力機(jī)制?

說(shuō)到注意力機(jī)制可能有些人顧名思義就知道是什么意思了;而有些人可能還沒(méi)明白什么是注意力機(jī)制。

就像神經(jīng)網(wǎng)絡(luò)是模仿我們?nèi)祟?lèi)大腦神經(jīng)元一樣,注意力機(jī)制也是模仿我們?nèi)祟?lèi)的信息處理機(jī)制——那就是注意力。

我們經(jīng)常會(huì)走神,比如說(shuō)某人問(wèn)你問(wèn)題或和你講話(huà),你說(shuō)你沒(méi)注意,沒(méi)聽(tīng)到等等;這個(gè)就是注意力。而注意力機(jī)制,就是用一種數(shù)學(xué)辦法來(lái)為注意力進(jìn)行建模,用來(lái)處理大模型對(duì)待不同數(shù)據(jù)所產(chǎn)生的注意力大小。

下面我們來(lái)舉個(gè)例子:


大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention-AI.x社區(qū)

如上圖所示,你第一眼看到的是什么?就代表著你的注意力在哪里,然后間接忽略其它次要內(nèi)容。

再比如說(shuō),如果問(wèn)你這張圖片的背景是什么?這時(shí)你的注意力會(huì)在哪里? 

如果問(wèn)你這個(gè)小姐姐可能會(huì)在什么地方,大概處于一個(gè)什么樣的環(huán)境?這時(shí)你的注意力又會(huì)在哪里?

現(xiàn)在明白什么是注意力了吧?就是在不同的前提和關(guān)注點(diǎn)下,你的注意力會(huì)集中在不同的地方。


人在觀(guān)察事物時(shí)會(huì)有選擇性的關(guān)注較為重要的信息,稱(chēng)其為注意力。通過(guò)持續(xù)關(guān)注這一關(guān)鍵位置以獲得更多的信息,而忽略其他的無(wú)用信息,這種視覺(jué)注意力機(jī)制大大提高了我們處理信息的效率和準(zhǔn)確性。深度學(xué)習(xí)中的注意力機(jī)制和人類(lèi)視覺(jué)的注意力機(jī)制類(lèi)似,就是在更多信息中把注意力集中放在重要的點(diǎn)上,選出關(guān)鍵信息,而忽略其他不重要的信息。


那為什么需要注意力機(jī)制,注意力機(jī)制解決了哪些問(wèn)題?

注意力機(jī)制被提出來(lái)的原因就是解決傳統(tǒng)機(jī)器學(xué)習(xí)模型中的長(zhǎng)距離依賴(lài)信息丟失問(wèn)題。什么是長(zhǎng)距離依賴(lài)信息丟失問(wèn)題?

比如傳統(tǒng)的RNN網(wǎng)絡(luò)——循環(huán)神經(jīng)網(wǎng)絡(luò);它需要把全部文本輸入到神經(jīng)網(wǎng)絡(luò)模型中,雖然這種處理方式并沒(méi)有什么錯(cuò);但它存在一個(gè)問(wèn)題,就是當(dāng)文本過(guò)長(zhǎng)時(shí),會(huì)丟失前面文本的信息,原因就在于模型的處理能力有限。

這個(gè)就類(lèi)似于我們?nèi)祟?lèi)的記憶一樣,離你時(shí)間越久遠(yuǎn)的東西,你的記憶越模糊。

而注意力機(jī)制就恰巧能解決這個(gè)問(wèn)題;舉個(gè)簡(jiǎn)單的例子:

如果讓你背一篇幾十個(gè)字的文章,你可能用一會(huì)時(shí)間就背下來(lái)了;即使忘了,隨便看一下也能記得起來(lái);但是如果給你一個(gè)萬(wàn)字長(zhǎng)文,這時(shí)你想把它完全背下來(lái)并做到不容易忘就很難了。

所以,注意力機(jī)制是怎么解決的呢?

一篇萬(wàn)字長(zhǎng)文總不可能所有的內(nèi)容都很重要,它總有一個(gè)中心思想,其它的內(nèi)容都是為了這個(gè)表述這個(gè)中心思想準(zhǔn)備的;因此,在注意力機(jī)制中,我不需要把萬(wàn)字長(zhǎng)文都背下來(lái),只需要記住其中的中心思想即可。

而這篇萬(wàn)字長(zhǎng)文中的中心思想,才是我們需要注意的點(diǎn),也就是注意力需要集中的地方。

那注意力機(jī)制是怎么實(shí)現(xiàn)的呢?

其實(shí)注意力三個(gè)字已經(jīng)給我們講的很明白了,你的注意力在哪;哪里就需要注意。但在數(shù)學(xué)模型中沒(méi)有注意力這個(gè)東西啊,那應(yīng)該怎么做呢?

這時(shí)權(quán)重的作用就出現(xiàn)了,所謂的注意力就是對(duì)同一個(gè)目標(biāo)的不同點(diǎn)的關(guān)注度不一樣;而這個(gè)關(guān)注度就可以用權(quán)重來(lái)表示。注意力集中的地方,權(quán)重就越大,注意力不集中的地方,注意力就越小。

雖然理論上說(shuō)起來(lái)比較簡(jiǎn)單,但具體實(shí)現(xiàn)應(yīng)該怎么做呢?

在注意力機(jī)制中,有三個(gè)比較重要的參數(shù)——Q,K,V;Q就是你的查詢(xún)參數(shù),K就是唯一標(biāo)識(shí),V就是實(shí)際值。

大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention-AI.x社區(qū)

舉個(gè)例子來(lái)說(shuō),以淘寶或等電商平臺(tái)的搜索功能來(lái)說(shuō);Query就是我們?cè)谳斎肟蛑休斎氲膮?shù),比如鞋子,衣服等等;然后系統(tǒng)就會(huì)給我們返回很多有關(guān)鞋子,衣服的店鋪,商品等——Key;而我們點(diǎn)進(jìn)這些店鋪或商品詳情——Value,就能看到更多關(guān)于衣服鞋子等商品的信息。

大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention-AI.x社區(qū)

在注意力機(jī)制中,通過(guò)把Q,K,V三個(gè)參數(shù)乘以一個(gè)W系數(shù),再進(jìn)行相加等操作就可以獲取到某個(gè)數(shù)據(jù)的權(quán)重;而通過(guò)這種計(jì)算方式,就可以獲取到整個(gè)輸入數(shù)據(jù)的不同權(quán)重,也就產(chǎn)生了多種不同的注意力。

當(dāng)然,不論是長(zhǎng)距離依賴(lài),還是注意力機(jī)制,其唯一的目的就是特征提取,以更小的代價(jià),提取更加準(zhǔn)確的數(shù)據(jù)特征。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/XHZsR6CW7GvbOqoJwcJsWA??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦