偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

經(jīng)典ReLU回歸!重大缺陷「死亡ReLU問題」已被解決

人工智能 新聞
不用換模型、不用堆參數(shù),靠 SUGAR 模型性能大增!

在深度學(xué)習(xí)領(lǐng)域中,對(duì)激活函數(shù)的探討已成為一個(gè)獨(dú)立的研究方向。例如 GELU、SELU 和 SiLU 等函數(shù)憑借其平滑梯度與卓越的收斂特性,已成為熱門選擇。

盡管這一趨勢盛行,經(jīng)典 ReLU 函數(shù)仍因其簡潔性、固有稀疏性及其他優(yōu)勢拓?fù)涮匦远鴱V受青睞。

然而 ReLU 單元易陷入所謂的「死亡 ReLU 問題」, 一旦某個(gè)神經(jīng)元在訓(xùn)練中輸出恒為 0,其梯度也為 0,無法再恢復(fù)。 這一現(xiàn)象最終制約了其整體效能,也是 ReLU 網(wǎng)絡(luò)的重大缺陷。

正是死亡 ReLU 問題催生了大量改進(jìn)的線性單元函數(shù),包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。這些函數(shù)通過為負(fù)預(yù)激活值引入非零激活,提供了不同的權(quán)衡。

本文,來自德國呂貝克大學(xué)等機(jī)構(gòu)的研究者引入了一種新穎的方法:SUGAR(Surrogate Gradient for ReLU),在不犧牲 ReLU 優(yōu)勢的情況下解決了 ReLU 的局限性。即前向傳播仍使用標(biāo)準(zhǔn) ReLU(保持其稀疏性和簡單性),反向傳播時(shí)替換 ReLU 的導(dǎo)數(shù)為一個(gè)非零、連續(xù)的替代梯度函數(shù)(surrogate gradient)。

這樣可以讓 ReLU 在保持原始前向行為的同時(shí),避免梯度為零的問題,從而復(fù)活死神經(jīng)元。 

基于此,本文還設(shè)計(jì)了兩種新型替代梯度函數(shù):B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以無縫集成到各種模型中。

本研究的進(jìn)一步貢獻(xiàn)如下:

  • 本文對(duì) VGG-16 和 ResNet-18 進(jìn)行了全面的實(shí)驗(yàn),表明 SUGAR 顯著增強(qiáng)了這兩種架構(gòu)的泛化能力。
  • 本文在 Swin Transformer 和 Conv2NeXt 等現(xiàn)代架構(gòu)上對(duì) SUGAR 進(jìn)行了評(píng)估,展示了其適應(yīng)性和有效性。
  • 對(duì) VGG-16 層激活的深入分析表明,當(dāng)應(yīng)用 SUGAR 時(shí),激活分布發(fā)生了明顯的變化,為其在緩解消亡 ReLU 問題中的作用提供了直觀證據(jù),同時(shí)促進(jìn)了更稀疏的表示。

SUGAR 方法易于實(shí)現(xiàn),并在前向傳播中始終采用 ReLU 激活函數(shù)。與所提出的 B-SiLU 替代函數(shù)結(jié)合使用時(shí),VGG-16 在 CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上的測試準(zhǔn)確率分別提升了 10 個(gè)百分點(diǎn)和 16 個(gè)百分點(diǎn),而 ResNet-18 與未使用 SUGAR 的最佳模型相比,分別提升了 9 個(gè)百分點(diǎn)和 7 個(gè)百分點(diǎn)。

image.png

  • 論文標(biāo)題: The Resurrection of the ReLU 
  • 論文鏈接:https://arxiv.org/pdf/2505.22074

SUGAR 介紹

本文提出的方法將 FGI ( Forward gradient injection )應(yīng)用于具有平滑替代函數(shù)的 ReLU 網(wǎng)絡(luò)中。在 SUGAR 框架下, FGI 可以表示為:

image.png

該公式實(shí)現(xiàn)了梯度注入,并確保即使對(duì)于負(fù)激活也能進(jìn)行梯度傳播。具體來說,利用 [34] 中的乘法技巧,替代梯度函數(shù)的直接注入如下:

image.png

替代函數(shù)的選擇具有靈活性,可兼容當(dāng)前最先進(jìn)的各類激活函數(shù),例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(見圖 8)。

image.png

關(guān)鍵區(qū)別在于,與 ReLU 不同,這些候選替代函數(shù)均具有一個(gè)共同特征:對(duì)負(fù)輸入(x < 0)能產(chǎn)生非零梯度。雖然這些函數(shù)為負(fù)激活提供了梯度流通路徑,但前向傳播及后續(xù)損失計(jì)算仍嚴(yán)格依賴 x > 0 時(shí)的激活輸出。

在初步研究中,本文意識(shí)到需要調(diào)整當(dāng)前的激活函數(shù)以適應(yīng) SUGAR 的特定用途。因此,接下來本文提出了兩個(gè)與這些設(shè)置良好匹配的新替代函數(shù)。

 B-SiLU:引入了一種名為 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函數(shù),它結(jié)合了自門控特性和可調(diào)下限參數(shù)。從數(shù)學(xué)上講,該函數(shù)可以表示為:

image.png

B-SiLU 激活函數(shù)的導(dǎo)數(shù)為:

image.png

圖 8 中可視化了 B-SiLU 及其導(dǎo)數(shù)。

NeLU:本文進(jìn)一步引入了 NeLU(Negative slope Linear Unit),作為 ReLU 的平滑導(dǎo)數(shù)替代品。

image.png

最終的梯度如圖 1 所示。

image.png

實(shí)驗(yàn)

總體而言,與 ReLU 基線相比,SUGAR 結(jié)合 ELU、SELU 以及特別是 B-SiLU 獲得了最大的提升,而 LeakyReLU 和 NeLU 則始終表現(xiàn)不佳(見圖 2)。在 CIFAR-10 數(shù)據(jù)集上使用 ResNet-18 作為骨干網(wǎng)絡(luò)時(shí),B-SiLU 的性能從 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也表現(xiàn)出類似的效果:B-SiLU 將測試精度提高了近 10 個(gè)百分點(diǎn)(從 78.50% 提升到 88.35%)。

image.png

在 CIFAR-100 數(shù)據(jù)集上,SUGAR 結(jié)合 B-SiLU 的優(yōu)勢更加明顯:ResNet-18 的準(zhǔn)確率從 48.99% 躍升至 56.51%,VGG-16 的準(zhǔn)確率從 48.73% 提升至 64.47%(見圖 3)。同樣,Leaky ReLU 和 NeLU 僅顯示出微小的甚至是負(fù)的提升(例如 ResNet-18 上的 43.67% → 43.41%)。

總的來說,B-SiLU 在不同架構(gòu)和數(shù)據(jù)集上均優(yōu)于其他替代激活函數(shù),ELU 和 SELU 能夠提供可靠的改進(jìn),而在這種設(shè)置下,SUGAR 從 Leaky ReLU 和 NeLU 中并未獲得有意義的益處。

image.png

當(dāng)應(yīng)用于 Conv2NeXt 時(shí),如表 1 所示,SUGAR 在前向和反向傳播過程中均始終優(yōu)于使用 GELU 的基礎(chǔ)模型。

image.png

了解更多內(nèi)容,請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-03 10:39:46

算法研究

2020-12-09 06:19:39

ReLU神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2023-09-20 08:52:57

Google模型

2024-05-08 16:44:40

TCPRST網(wǎng)絡(luò)協(xié)議

2017-10-11 23:07:00

神經(jīng)網(wǎng)絡(luò)激活函數(shù)可視化

2017-08-24 13:44:28

牛頓法Logistic回歸Python

2019-08-29 10:10:52

神經(jīng)網(wǎng)絡(luò)激活函數(shù)人工智能

2024-05-15 07:26:50

RedisBigKey優(yōu)化

2016-12-07 09:38:53

SparkMapReduce

2023-12-27 14:17:11

深度學(xué)習(xí)人工智能激活函數(shù)

2012-06-01 10:10:36

2009-12-22 15:57:51

2010-05-18 18:47:31

2009-10-26 14:36:33

VB.NET數(shù)據(jù)自增

2021-12-06 14:05:57

區(qū)塊鏈算法技術(shù)

2021-03-05 16:19:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-01-02 12:50:12

數(shù)據(jù)模型

2024-08-15 14:15:00

數(shù)據(jù)安全

2024-08-05 14:40:00

2012-11-26 10:11:41

移動(dòng)支付平臺(tái)移動(dòng)云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)