偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="vfq54"><form id="vfq54"><optgroup id="vfq54"></optgroup></form></u>

<ruby id="vfq54"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?

發(fā)布于 2024-9-25 13:05

瀏覽

0收藏

前言

本期基于凱斯西儲大學(xué)（CWRU）軸承數(shù)據(jù)，進行 Transformer 的結(jié)構(gòu)優(yōu)勢進行講解，結(jié)合論文《How Much Attention Do You Need? 》，探索不同模塊對故障分類任務(wù)的影響力。

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

1 《How Much Attention Do You Need? 》

1.1 論文解析

論文提到三個觀點：

（1）Source attention on lower encoder layers brings no additional benefit (x4.2).

解釋：

Source Attention：通常指的是在編碼器（encoder）中，模型關(guān)注輸入序列的不同部分的機制。在Transformer中，編碼器的每一層都通過自注意力（self-attention）機制來處理輸入序列。
Lower Encoder Layers：指的是編碼器中的靠前或較淺的層。
結(jié)論意義：在模型的較淺層次，對源輸入進行復(fù)雜的注意力機制處理并沒有顯著的性能提升。也就是說，較低層次的編碼器主要在做基礎(chǔ)特征提取，而復(fù)雜的注意力模式在這些層次上未能發(fā)揮其潛力。因此，將注意力機制的復(fù)雜性集中在編碼器的更深層次可能更為有效。

（2）Multiple source attention layers and residual feed-forward layers are key (x4.3).

解釋：

Multiple Source Attention Layers：在模型中使用多個層次的注意力機制來處理源輸入序列。
Residual Feed-Forward Layers：在每個注意力層之后，通常會有一個殘差結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)（Feed-Forward Neural Network），這對于學(xué)習(xí)復(fù)雜的特征變換是重要的。
結(jié)論意義：這表明，對源輸入進行多層次的注意力處理，以及在每個注意力層之后使用殘差前饋層，是模型性能的關(guān)鍵因素。這可能是因為多層次的關(guān)注機制允許模型在不同的抽象層次上理解輸入序列，并通過殘差連接有效地訓(xùn)練深層模型。

（3）Self-attention is more important for the source than for the target side (x4.4).

解釋：

Self-Attention：一種注意力機制，輸入的每個元素（如序列中的一個詞）對自身序列中的其他元素進行關(guān)注，以捕捉序列內(nèi)部的相關(guān)性。
Source Side vs. Target Side：在序列到序列模型中，源指的是輸入序列（例如，翻譯任務(wù)中的源語言），而目標指的是輸出序列（例如，翻譯任務(wù)中的目標語言）。
結(jié)論意義：這個結(jié)論表明，自注意力機制在源輸入序列的處理過程中比在目標輸出序列生成過程中更為重要。這可能是因為在源輸入的編碼階段，理解和建模句子內(nèi)部的長程依賴性和上下文關(guān)系至關(guān)重要，而在目標側(cè)，可能更多依賴上下文和已生成的部分來預(yù)測下一個元素。

2.1 具體結(jié)構(gòu)探究

（1）雙向 RNN 替換多頭注意力

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

RNN嵌入Transformer后，上圖展示了對原生RNN逐步加入Transformer的各個構(gòu)件后的效果。從上面的逐步對比過程可以看到，原生RNN的效果在不斷穩(wěn)定提升。但是原本的Transformer相比，性能仍然有差距。

（2）CNN 替換多頭注意力

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

上圖展示了對CNN進行不斷加入Transformer的各個構(gòu)件后的過程以及其對應(yīng)效果。同樣的，性能也有不同幅度的提升。但是也與原本的Transformer性能存在一些差距。

（3）論文結(jié)論：

我們發(fā)現(xiàn)基于RNN的模型受益于多源注意機制和剩余前饋塊。另一方面，基于CNN的模型可以通過層歸一化和前饋塊來改進。這些變化使基于RNN和CNN的模型更接近Transformer。此外，我們還展示了可以成功地組合體系結(jié)構(gòu)。

我們發(fā)現(xiàn)自我注意在編碼器方面比在解碼器方面重要得多，即使沒有自我注意的模型也表現(xiàn)得非常好。對于我們評估的數(shù)據(jù)集，在大多數(shù)情況下，編碼器側(cè)具有自關(guān)注的模型以及解碼器側(cè)具有RNN或CNN的模型與Transformer模型相比具有競爭力。

2 結(jié)合故障診斷進行探索

2.1 探索目標分析

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

根據(jù)上述結(jié)論，編碼器結(jié)構(gòu)在特征提取過程中扮演著重要角色，而編碼器結(jié)構(gòu)又由多頭注意力、前饋神經(jīng)網(wǎng)絡(luò)、殘差連接等部分組成。結(jié)合故障診斷任務(wù)，我們可以鎖定2個研究對象：

編碼器整體結(jié)構(gòu)
多頭注意力機制

2.2 多頭注意力機制的優(yōu)勢

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

（1）多角度關(guān)注：

不同的頭可以從不同的角度和細粒度的層次來關(guān)注輸入序列的不同部分，從而捕捉更豐富的特征和關(guān)系。

（2）提高模型的表達能力：

多頭機制使得模型可以在不同的子空間中并行學(xué)習(xí)，這增強了其表達復(fù)雜關(guān)系和模式的能力。

（3）穩(wěn)定訓(xùn)練：

通過縮放點積和多頭的并行計算，模型能更好地處理長序列并穩(wěn)定梯度。

3 軸承故障數(shù)據(jù)的預(yù)處理

3.1 導(dǎo)入數(shù)據(jù)

參考之前的文章，進行故障10分類的預(yù)處理，凱斯西儲大學(xué)軸承數(shù)據(jù)10分類數(shù)據(jù)集：

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

train_set、val_set、test_set 均為按照7：2：1劃分訓(xùn)練集、驗證集、測試集，最后保存數(shù)據(jù)

3.2 故障數(shù)據(jù)預(yù)處理與數(shù)據(jù)集制作

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

4 編碼器整體結(jié)構(gòu)的實驗對比

4.1 對比模型為：

模型 A :Transformer 編碼器結(jié)構(gòu)
模型 B :多頭注意力機制

4.2 西儲大學(xué)十分類數(shù)據(jù)集實驗對比

（1）模型 A：

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

模型評估：

準確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

（2）模型 B：

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

模型評估：

準確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

4.3 東南大學(xué)齒輪箱軸承故障-五分類數(shù)據(jù)集實驗對比

（1）模型 A：

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

模型評估：

準確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

（2）模型 B：

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

模型評估：

準確率、精確率、召回率、F1 Score

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

5 實驗對比結(jié)果分析

Transformer結(jié)構(gòu)優(yōu)勢 ,How Much Attention Do You Need?-AI.x社區(qū)

通過兩個數(shù)據(jù)集的對比實驗，我們可以發(fā)現(xiàn)，Transformer 編碼器層在故障信號分類任務(wù)上取得了不錯的效果，但是僅用多頭注意力機制分類效果有一定程度的下降，證明Transformer 編碼器整體結(jié)構(gòu)在故障信號分類任務(wù)上的優(yōu)越性！大家還可以進一步細致的探索結(jié)構(gòu)中的其他部分。

本文轉(zhuǎn)載自??建模先鋒??，作者：小蝸愛建模 ????

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

小到用iPhone就能跑起來，網(wǎng)友：Good data is all you need!

51CTO技術(shù)棧 ? 3130瀏覽 ? 0回復(fù)
用 LLMs 做數(shù)據(jù)標注：優(yōu)勢、局限與實操指南

Baihai_IDP ? 5262瀏覽 ? 0回復(fù)
Self-Attention在時間序列預(yù)測中有效嗎？新Transformer架構(gòu)效率效果雙提升

海因斯DK ? 5060瀏覽 ? 0回復(fù)
15大結(jié)構(gòu)梳理CNN網(wǎng)絡(luò)的發(fā)展

angel ? 2538瀏覽 ? 0回復(fù)
向量——人工智能技術(shù)的基石結(jié)構(gòu)

AI探索時代 ? 4683瀏覽 ? 1回復(fù)
多模態(tài)AI：概念、用例、優(yōu)勢、挑戰(zhàn)及發(fā)展未來

51CTO內(nèi)容精選 ? 4412瀏覽 ? 0回復(fù)
LLM 推理的 Attention 計算和 KV Cache 優(yōu)化：PagedAttention、vAttention 等

amei2000go ? 9863瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 4492瀏覽 ? 0回復(fù)
MixAttention：跨層 KV Cache 共享 + 滑動窗口 Attention

amei2000go ? 3371瀏覽 ? 0回復(fù)
Sample Packing：長序列 LLM 訓(xùn)練的 Attention 問題及優(yōu)化

amei2000go ? 3069瀏覽 ? 0回復(fù)
Agent實戰(zhàn)-JSON結(jié)構(gòu)化智能

ermulong ? 2487瀏覽 ? 0回復(fù)
使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)

Halo咯咯 ? 2664瀏覽 ? 0回復(fù)
什么是大模型、特點、優(yōu)勢。大模型與AIGC的關(guān)系

parson2000 ? 3612瀏覽 ? 0回復(fù)
為什么Transformer難以學(xué)會搜索？一項新研究揭示關(guān)鍵原因 | 從優(yōu)勢到局限：大型語言模型的潛力與邊界

sbf_2000 ? 2389瀏覽 ? 0回復(fù)
大模型神經(jīng)網(wǎng)絡(luò)之注意力機制——attention

AI探索時代 ? 2245瀏覽 ? 0回復(fù)
故障診斷一區(qū)直接寫，圖卷積+BiGRU-Attention 并行診斷模型

Tang_Lan ? 2837瀏覽 ? 0回復(fù)
CEEMDAN + SSA-TCN-BiLSTM-Attention預(yù)測模型

Tang_Lan ? 2672瀏覽 ? 0回復(fù)
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 2430瀏覽 ? 0回復(fù)
顛覆傳統(tǒng)渲染：實時云渲染技術(shù)的五大核心優(yōu)勢與產(chǎn)業(yè)變革

AI算力補給站 ? 1781瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

一區(qū)直接寫！CEEMDAN分解 + Informer-LSTM +XGBoost組合預(yù)測模型 8天前發(fā)布
我們一起聊聊基于CNN-BiLSTM-Attention的回歸預(yù)測模型！ 2025-06-13 06:27:37發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：多模態(tài)-故障診斷 | 大核卷積開啟視覺新紀元!

下一篇：我們一起聊聊基于時空特征提取的并行預(yù)測模型

社區(qū)精華內(nèi)容

目錄

<style id="9y88l"><rp id="9y88l"></rp></style>

<thead id="9y88l"><rt id="9y88l"></rt></thead>