偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于 boosting 原理訓練深層殘差神經(jīng)網(wǎng)絡

移動開發(fā) 深度學習
文章指出一種基于 boosting(提升)原理,逐層訓練深度殘差神經(jīng)網(wǎng)絡的方法,并對性能及泛化能力給出了理論上的證明。

1. 背景

1.1 Boosting

Boosting[1] 是一種訓練 Ensemble 模型的經(jīng)典方法,其中一種具體實現(xiàn) GBDT 更是廣泛應用在各類問題上。介紹boost的文章很多,這里不再贅述。簡單而言,boosting 方法是通過特定的準則,逐個訓練一系列弱分類,這些弱分類加權(quán)構(gòu)成一個強分類器(圖1)。

 

圖1 Boosting 方法原理圖【src】

1.2 殘差網(wǎng)絡

殘差網(wǎng)絡[2]目前是圖像分類等任務上***的模型,也被應用到語音識別等領域。其中核心是 skip connect 或者說 shortcut(圖2)。這種結(jié)構(gòu)使梯度更易容向后傳導,因此,使訓練更深的網(wǎng)絡變得可行。

 

圖2. 殘差網(wǎng)絡基本block[2]

在之前的博文作為 Ensemble 模型的 Residual Network中,我們知道,一些學者將殘差網(wǎng)絡視一種特殊的 Ensemble 模型[3,4]。論文作者之一是Robert Schapire(剛注意到已經(jīng)加入微軟研究院),AdaBoost的提出者(和 Yoav Freund一起)。Ensemble 的觀點基本算是主流觀點(之一)了。

2. 訓練方法

2.1 框架

 

圖3. BoostResNet 框架

  • 殘差網(wǎng)絡

即這是一個線性分類器(Logistic Regression)。

  • hypothesis module

其中 $C$ 為分類任務的類別數(shù)。

  • weak module classifier

其中 $\alpha$ 為標量,也即 $h$ 是相鄰兩層 hypothesis 的線性組合。***層沒有更低層,因此,可以視為有一個虛擬的低層,$\alpha_0=0$ 并且 $、o_0(x)=0$。

  • 將殘差網(wǎng)絡顯示表示為 ensemble

令殘差網(wǎng)絡的***輸出為 $F(x)$,并接合上述定義,顯然有:

這里用到了裂項求和的技巧(telescoping sum),因此作者稱提出的算法為 telescoping sum boosting.

我們只需要逐級(residual block)訓練殘差網(wǎng)絡,效果上便等同于訓練了一系列弱分類的 enemble。其中,除了訓練殘差網(wǎng)絡的權(quán)值外,還要訓練一些輔助的參數(shù)——各層的 $\alpha$ 及 $W$(訓練完成后即可丟棄)。

2.2 Telescoping Sum Boosting(裂項求和提升)

文章正文以二分類問題為例展開,我們更關心多分類問題,相關算法在附錄部分。文章給出的偽代碼說明相當清楚,直接復制如下:

其中,$\gamma_t$ 是一個標量;$C_t$ 是一個 m 乘 C (樣本數(shù)乘類別數(shù))的矩陣,$C_t(i, j)$ 表示其中第 $i$ 行第 $j$ 列的元素。

需要特別說明的是,$st(x, l)$ 表示 $s_t(x)$的第 $l$ 個元素(此處符號用的略隨意:-);而 $st(x) = \sum{\tau=1}^t h\tau(x) = \alpha_t \cdot o_t(x) $。

與算法3中類似,$f(g(x_i), l)$ 表示 $f(g(x_i))$ 的第 $l$ 個元素,$g(x_i, y_i)$ 表示 $g(x_i)$ 的第 $i$ 個元素。

顯然 Algorithm 4 給的最小化問題可以用 SGD 優(yōu)化,也可以數(shù)值的方法求解([1] 4.3 節(jié))。

3. 理論

理論分部沒有詳細看。大體上,作者證明了 BoostResNet 保留為 boost 算法是優(yōu)點:1)誤差隨網(wǎng)絡深度(即弱分類器數(shù)量)指數(shù)減小;2)抗過擬合性,模型復雜度承網(wǎng)絡深度線性增長。詳細可參見論文。

4. 討論

BoostResNet ***的特點是逐層訓練,這樣有一系列好處:

  • 減少內(nèi)存占用(Memory Efficient),使得訓練大型的深層網(wǎng)絡成為可能。(目前我們也只能在CIFAR上訓練千層的殘差網(wǎng)絡,過過干癮)
  • 減少計算量(Computationally Efficient),每一級都只訓練一個淺層模型。
  • 因為只需要訓練淺層模型,在優(yōu)化方法上可以有更多的選擇(非SGD方法)。
  • 另外,網(wǎng)絡層數(shù)可以依據(jù)訓練情況動態(tài)的確定。

4.2 一些疑問

文章應該和逐層訓練的殘差網(wǎng)絡(固定或不固定前面各層的權(quán)值)進行比較多,而不是僅僅比較所謂的 e2eResNet。
作者這 1.1 節(jié)***也提到,訓練框架不限于 ResNet,甚至不限于神經(jīng)網(wǎng)絡。不知道用來訓練普通深度模型效果會怎樣,競爭 layer-wise pretraining 現(xiàn)在已經(jīng)顯得有點過時了。

References

  1. Schapire & Freund. Boosting: Foundations and Algorithms. MIT.
  2. He et al. Deep Residual Learning for Image Recognition.
  3. Veit et al. Residual Networks Behave Like Ensembles of Relatively Shallow Networks.
  4. Xie et al. Aggregated Residual Transformations for Deep Neural Networks.
責任編輯:張子龍 來源: 推酷
相關推薦

2017-09-28 16:15:12

神經(jīng)網(wǎng)絡訓練多層

2020-10-06 19:05:09

神經(jīng)網(wǎng)絡人類思維人工智能

2017-12-22 08:47:41

神經(jīng)網(wǎng)絡AND運算

2017-08-28 21:31:37

TensorFlow深度學習神經(jīng)網(wǎng)絡

2023-10-04 11:57:20

訓練模型

2020-03-25 09:48:10

AI芯片神經(jīng)網(wǎng)絡

2018-03-16 13:27:55

神經(jīng)網(wǎng)絡大詞匯量語音識別

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡生物神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡

2020-12-08 20:20:15

神經(jīng)網(wǎng)絡深度學習機器學習

2017-04-17 13:10:09

神經(jīng)網(wǎng)絡人工智能網(wǎng)絡

2022-06-16 10:29:33

神經(jīng)網(wǎng)絡圖像分類算法

2017-12-14 21:17:24

2024-10-15 09:29:36

2017-03-27 16:18:30

神經(jīng)網(wǎng)絡TensorFlow人工智能

2021-12-28 08:48:54

PyTorch神經(jīng)網(wǎng)絡人工智能

2017-08-29 13:50:03

TensorFlow深度學習神經(jīng)網(wǎng)絡

2021-11-16 09:31:24

神經(jīng)網(wǎng)絡AI算法

2024-04-30 14:54:10

2020-12-19 11:05:57

循環(huán)神經(jīng)網(wǎng)絡PyTorch神經(jīng)網(wǎng)絡

2022-07-28 09:00:00

深度學習網(wǎng)絡類型架構(gòu)
點贊
收藏

51CTO技術棧公眾號