偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為什么小批量可以使深度學(xué)習(xí)獲得更大的泛化

人工智能 深度學(xué)習(xí)
批大小是機器學(xué)習(xí)中重要的超參數(shù)之一。這個超參數(shù)定義了在更新內(nèi)部模型參數(shù)之前要處理的樣本數(shù)量。

 批大小是機器學(xué)習(xí)中重要的超參數(shù)之一。這個超參數(shù)定義了在更新內(nèi)部模型參數(shù)之前要處理的樣本數(shù)量。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

上圖為使用 SGD 測試不同批量大小的示例。

批量大小可以決定許多基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的性能。 有很多研究都在為學(xué)習(xí)過程評估最佳批量大小。 例如,對于 SGD可以使用批量梯度下降(使用批量中的所有訓(xùn)練樣本)或小批量(使用一部分訓(xùn)練數(shù)據(jù)),甚至在每個樣本后更新(隨機梯度下降)。 這些不同的處理方式可以改變模型訓(xùn)練的的效果。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

準確性并不是我們關(guān)心的唯一性能指標。 模型的泛化能力可能更加重要。 因為如果我們的模型在看不見的數(shù)據(jù)上表現(xiàn)不佳它就毫無用處。使用更大的批量會導(dǎo)致更差的網(wǎng)絡(luò)泛化。 論文“ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA”的作者試圖調(diào)查這種現(xiàn)象并找出為什么會發(fā)生這種情況。 他們的發(fā)現(xiàn)很有趣,所以我將在本文中進行詳細介紹。 了解這一點將能夠為自己的神經(jīng)網(wǎng)絡(luò)和訓(xùn)練方式做出更好的決策。

理解論文的假設(shè)

要理解任何論文,首先要了解作者試圖證明的內(nèi)容。 作者聲稱他們發(fā)現(xiàn)了為什么大批量會導(dǎo)致更差的泛化。 他們“提供了支持大批量方法趨向于收斂到訓(xùn)練和測試函數(shù)的sharp minima(尖銳的最小值)的觀點的數(shù)值證據(jù)——眾所周知,sharp minima會導(dǎo)致較差的泛化。 而小批量方法始終收斂到flat minima(平坦的最小值),論文的實驗支持一個普遍持有的觀點,即這是由于梯度估計中的固有噪聲造成的。” 我們將在本篇文章中做更多的說明,所以讓我們一步一步來。 下圖描繪了尖銳最小值和平坦最小值之間的差異。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

對于尖銳的最小值,X 的相對較小的變化會導(dǎo)致?lián)p失的較大變化

一旦你理解了這個區(qū)別,讓我們理解作者驗證的兩個(相關(guān)的)主要主張:

  • 使用大批量將使訓(xùn)練過程有非常尖銳的損失情況。 而這種尖銳的損失將降低網(wǎng)絡(luò)的泛化能力。
  • 較小的批量創(chuàng)建更平坦的損失圖像。 這是由于梯度估計中的噪聲造成的。

作者在論文中強調(diào)了這一點,聲明如下: 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

我們現(xiàn)在將查看他們提供的證據(jù)。 他們設(shè)置實驗的一些方法很有趣,會教會我們很多關(guān)于設(shè)置實驗的知識。

定義銳度

銳度是一個易于掌握和可視化的直觀概念。 但是它也存在有一些問題。 例如機器學(xué)習(xí)對高維數(shù)據(jù)進行計算/可視化可能很費資源和時間。 作者也提到了這一點, 所以他們使用更簡單的啟發(fā)式方法:通過相鄰點來進行銳度的檢查, 該函數(shù)的最大值就可以用于靈敏度的計算。

論文原文中說到:

我們采用了一種敏感性度量,雖然不完美,但在計算上是可行的,即使對于大型網(wǎng)絡(luò)也是如此。 它基于探索解決方案的一個小鄰域并計算函數(shù) f 在該鄰域中可以達到的最大值。 我們使用該值來測量給定局部最小值處訓(xùn)練函數(shù)的靈敏度。 由于最大化過程是不準確的,并且為了避免被僅在 Rn 的微小子空間中獲得較大 f 值的情況所誤導(dǎo),我們在整個空間 Rn 以及隨機流形中都執(zhí)行了最大化

需要注意的是,作者將一定程度的交叉驗證集成到程序中。 雖然從解決方案空間中獲取多個樣本似乎過于簡單,但這是一種非常強大的方法并且適用于大多數(shù)情況。 如果你對他們計算的公式感興趣,它看起來像這樣。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

查看相關(guān)的證明

我們了解了作者提出的基本術(shù)語/定義,讓我們看看提出的一些證據(jù)。 本篇文章中無法分享論文/附錄中的所有內(nèi)容,所以如果你對所有細節(jié)感興趣可以閱讀論文的原文。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

在上面的圖中可以看到交叉熵損失與銳度的關(guān)系圖。從圖中可以看到,當(dāng)向右移動時損失實際上越來越小。那么這個圖表是什么意思呢?隨著模型的成熟(損失減少),Large Batch 模型的清晰度會增加。用作者的話來說,“對于在初始點附近的較大的損失函數(shù)值,小批次 和 大批次 方法產(chǎn)生相似的銳度值。隨著損失函數(shù)的減小,與 大批次 方法相對應(yīng)的迭代的銳度迅速增加,而對于 小批次 方法銳度最初保持相對恒定然后降低,這表明在探索階段之后會收斂到平坦的最小化器。”

作者還有其他幾個實驗來展示結(jié)果。除了在不同類型的網(wǎng)絡(luò)上進行測試外,他們還在小批量和大批量網(wǎng)絡(luò)上使用了熱啟動。結(jié)果也與我們所看到的非常一致。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

我在論文中發(fā)現(xiàn)的一個有趣的觀點是,當(dāng)他們證明了這種較低的泛化與使用較大批大小時的模型過擬合或過度訓(xùn)練無關(guān)時。 很容易假設(shè)過擬合是低泛化的原因(一般情況下我們都這么理解),但作者反對這一點。 要了解他們的論點,請查看此表。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

小批量訓(xùn)練通常具有更好的訓(xùn)練性能。 即使在我們使用小批量訓(xùn)練的訓(xùn)練精度較低的網(wǎng)絡(luò)中,我們也注意到會有更高的訓(xùn)練精度。 作者以下原文可以作為重點,“我們強調(diào),泛化差距不是由于統(tǒng)計中常見的過擬合或過度訓(xùn)練造成的。 這種現(xiàn)象以測試準確度曲線的形式表現(xiàn)出來,該曲線在某個迭代峰值處,然后由于模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)的特性而衰減。 這不是我們在實驗中觀察到的。 F2 和 C1 網(wǎng)絡(luò)的訓(xùn)練-測試曲線見圖 2,它們是其他網(wǎng)絡(luò)的代表。 因此,旨在防止模型過擬合的早停的啟發(fā)式方法并不能夠縮小泛化差距。” 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化 

看看網(wǎng)絡(luò)收斂到測試精度的速度有多快

簡而言之,如果這是過度擬合的情況,將不會看到 大批次 方法的性能始終較低。 相反通過更早的停止,我們將避免過擬合并且性能會更接近。 這不是我們觀察到的。 我們的學(xué)習(xí)曲線描繪了一幅截然不同的表現(xiàn)。 

為什么小批量會可以使深度學(xué)習(xí)獲得更大的泛化

 

 

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2012-12-11 10:36:52

AMD成本小批量

2021-03-08 11:28:59

人工智能深度學(xué)習(xí)Python

2022-03-28 11:51:00

深度學(xué)習(xí)機器學(xué)習(xí)模型

2020-04-16 11:19:55

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)層

2022-07-06 10:23:13

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2017-12-15 14:10:20

深度學(xué)習(xí)本質(zhì)邊緣識別

2024-05-23 13:26:27

2025-04-21 16:29:15

機器人人形機器人人工智能

2019-06-12 12:08:50

戴爾

2017-09-29 14:56:28

深度學(xué)習(xí)CTR預(yù)估

2021-11-29 11:40:46

FPGA芯片數(shù)據(jù)中心

2011-05-24 16:39:09

Cfree()

2022-06-09 16:48:10

TensorFlow機器學(xué)習(xí)

2021-01-08 20:14:40

AI

2024-10-24 16:34:45

深度學(xué)習(xí)CUDA人工智能

2017-07-03 10:52:20

深度學(xué)習(xí)人工智能

2017-05-08 16:13:33

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)深度

2016-10-21 13:01:47

金雅拓

2024-06-26 10:50:35

點贊
收藏

51CTO技術(shù)棧公眾號