偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="s9hex"></tt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

解鎖Transformer核心！手把手帶你看懂自注意力機(jī)制：三個(gè)輸入一步步算到底

人工智能訓(xùn)練營

發(fā)布于 2025-4-15 00:01

瀏覽

0收藏

很多課程都會(huì)通過公式來說明Transformer，但是沒有給你算過數(shù)，也沒讓你明白一件更重要的事：

“自注意力給出來的輸出，實(shí)際上表示了什么？”

本文就想用一個(gè)質(zhì)化、好懂、可實(shí)際運(yùn)算的例子，帶你真正看懂 Self-Attention 是怎么工作的，并解釋它的輸出真正意義!

1. 讓我們?cè)賮砘仡櫹率裁词恰白⒁饬C(jī)制”？

你看一段文字時(shí)，總會(huì)下意識(shí)的想：我要看哪些詞？哪些字是我目前理解這句話的關(guān)鍵？

注意力機(jī)制就是這樣一種方法，它允許模型根據(jù)“當(dāng)前信息”，自動(dòng)地從全文里找到最關(guān)鍵的部分來作為參考，并給他們分配權(quán)重。

不是每個(gè)詞均分重，而是“重要的看一眼，不重要的算個(gè)數(shù)”。

但是“自注意力”比較特殊：

每個(gè)輸入，都在想“我該看誰？” 每個(gè)輸出，都是它看完周圍后，自己新生出的表示

2.自注意機(jī)制是怎么計(jì)算的？

我們用 3 個(gè) 2D 向量（比如詞嵌入）作為輸入序列：

x? = [1, 0] # 可能是詞“我”

x? = [0, 1] # 可能是詞“愛”

x? = [1, 1] # 可能是詞“你”

把它組成矩陣

X = [[1, 0],

[0, 1],

[1, 1]]

我們手動(dòng)設(shè)定 Q、K、V 的權(quán)重矩陣：

W_Q = [[1, 0],

[1, 1]]

W_K = [[1, 2],

[0, 1]]

W_V = [[2, 0],

[0, 1]]

接下來計(jì)算QKT：

Q = X · W_Q

K = X · W_K

V = X · W_V

比如計(jì)算Q

Q =

[[1, 0], => [1*1 + 0*1, 1*0 + 0*1] = [1, 0]

[0, 1], [0*1 + 1*1, 0*0 + 1*1] = [1, 1]

[1, 1]] [1*1 + 1*1, 1*0 + 1*1] = [2, 1]

由此可得K和V：

K = [[1, 2], V = [[2, 0],

[0, 1], [0, 1],

[1, 3]] [2, 1]]

接下來計(jì)算計(jì)算 Attention Score（Q·K?）

計(jì)算 Q·K?（點(diǎn)積）再除以 √2（d=2）：

我們用 Q? 和所有 K 做 dot product，Q? 和所有 K 做 dot product，依此類推：

解鎖Transformer核心！手把手帶你看懂自注意力機(jī)制：三個(gè)輸入一步步算到底-AI.x社區(qū)

縮放除以 √2 ≈ 1.414：

S_scaled ≈ [[0.71, 0, 0.71],

[2.12, 0.71, 2.83],

[2.83, 0.71, 3.54]]

計(jì)算每一行的 softmax：

softmax([0.71, 0, 0.71]) = [0.401, 0.198, 0.401]

softmax([2.12, 0.71, 2.83]) ≈ [0.289, 0.075, 0.636]

softmax([2.83, 0.71, 3.54]) ≈ [0.288, 0.057, 0.655]

Attention Weight × V：

output? = 0.401*[2,0] + 0.198*[0,1] + 0.401*[2,1]

= [0.802 + 0.802, 0 + 0.198 + 0.401] = [1.604, 0.599]

output? = 0.289*[2,0] + 0.075*[0,1] + 0.636*[2,1]

= [0.578 + 1.272, 0.075 + 0.636] = [1.85, 0.711]

output? = 0.288*[2,0] + 0.057*[0,1] + 0.655*[2,1]

= [0.576 + 1.31, 0.057 + 0.655] = [1.886, 0.712]

我們可以得到最后的輸出：

Output =

[[1.604, 0.599],

[1.85, 0.711],

[1.886, 0.712]]

3. 輸出到底表示啥？（熱點(diǎn)論壇）

它已經(jīng)不僅僅是原始的詞向量了，而是：

1. 考慮了當(dāng)前詞的內(nèi)容（通過 Query）

2. 也考慮了它和所有其他詞的關(guān)系（通過與 Key 的點(diǎn)積）

3. 最后通過注意力權(quán)重，把相關(guān)的詞信息從 Value 中“加權(quán)融合”了進(jìn)來

比如：

第一個(gè)詞“我”，原來是 [1, 0]，輸出是 [1.604, 0.599]

它在融合了“愛”“你”的信息后，變成了一個(gè)更富語義的表示

總結(jié)一句話：自注意力輸出 = 原詞向量 + 上下文理解 = 更聰明的表示！

這就是為什么 Transformer 模型可以強(qiáng)大到理解復(fù)雜語義、做翻譯、對(duì)話、生成等任務(wù)。

本文轉(zhuǎn)載自??人工智能訓(xùn)練營??，作者：人工智能訓(xùn)練營

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

生成式視頻的下一步是什么

lintoms ? 2970瀏覽 ? 0回復(fù)
基于多級(jí)注意力機(jī)制的并行預(yù)測(cè)模型

Tang_Lan ? 4844瀏覽 ? 0回復(fù)
基于多級(jí)注意力機(jī)制的并行預(yù)測(cè)模型

Tang_Lan ? 3469瀏覽 ? 0回復(fù)
Google總監(jiān)提出生成式AI應(yīng)用架構(gòu)和成熟度模型，一步步指導(dǎo)進(jìn)階

Syrupup ? 5503瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：深入注意力機(jī)制

魯班模錘1 ? 3335瀏覽 ? 0回復(fù)
聊聊 KAN、KAN 卷積結(jié)合注意力機(jī)制！

Tang_Lan ? 5906瀏覽 ? 0回復(fù)
注意力機(jī)制的變體之MLA

shizhi02 ? 7261瀏覽 ? 0回復(fù)
只需8步，手把手教你用LangGraph創(chuàng)建AI智能體

小虎哦哦 ? 6088瀏覽 ? 0回復(fù)
一文圖解BERT注意力機(jī)制

石映飛云 ? 2925瀏覽 ? 0回復(fù)
【深度探索】FlashAttention-3：深度學(xué)習(xí)注意力機(jī)制的再進(jìn)化

sword_hero ? 2973瀏覽 ? 0回復(fù)
漫畫 Transformer：手把手用數(shù)學(xué)公式推導(dǎo)

sulu637 ? 4023瀏覽 ? 0回復(fù)
基于深度學(xué)習(xí)故障診斷注意力機(jī)制案例分析

步驚云_32 ? 2238瀏覽 ? 0回復(fù)
大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention

AI探索時(shí)代 ? 2242瀏覽 ? 0回復(fù)
高效注意力機(jī)制與硬件優(yōu)化：硬件優(yōu)化的稀疏注意力，長(zhǎng)上下文建模

AI研究前瞻 ? 2340瀏覽 ? 0回復(fù)
解鎖Transformer核心！一文吃透自注意力機(jī)制

人工智能訓(xùn)練營 ? 4463瀏覽 ? 0回復(fù)
一文讀懂 15 種注意力機(jī)制

智駐未來 ? 3611瀏覽 ? 0回復(fù)
手把手帶你理解OpenManus

熵減AI ? 2200瀏覽 ? 0回復(fù)
剖析Transformer模型時(shí)間復(fù)雜度：從矩陣乘法到自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的全解析

南夏的算法驛站 ? 2371瀏覽 ? 0回復(fù)
一步步帶你用LoRA微調(diào)大模型-執(zhí)行篇

碼農(nóng)隨心筆記 ? 781瀏覽 ? 0回復(fù)

人工智能訓(xùn)練營

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多元線性回歸超詳細(xì)講解 1天前發(fā)布
LSTM詳解，你學(xué)會(huì)了嗎？ 1天前發(fā)布

熱門推薦

XGboost算法詳解(原理+公式推導(dǎo)) 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：人工智能算法-LightGBM模型詳解

下一篇：什么是神經(jīng)網(wǎng)絡(luò)：反向傳播如何更新網(wǎng)絡(luò)參數(shù)

社區(qū)精華內(nèi)容

目錄

<dfn id="2b0w1"></dfn>

<samp id="2b0w1"><b id="2b0w1"></b></samp>

<kbd id="2b0w1"><optgroup id="2b0w1"></optgroup></kbd>