偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

選擇哪個Batchsize對模型效果最好?

發(fā)布于 2025-1-15 12:56
瀏覽
0收藏

總結(jié)

在項目中,如果你沒有任何參考,那么選擇2次方(即64、128、256、512、1024等)可以會更加直接和易于管理,然后對上限來說,batchsize大小最好<=數(shù)據(jù)集樣本數(shù)*0.1。

梯度下降算法

在更新模型參數(shù)時,我們一般會用到梯度下降算法。這個時候,我們就會有一個問題,每次拿多少訓(xùn)練樣本進行更新參數(shù)呢?這個時候有兩個極端情況,資源夠,那我們把所有數(shù)據(jù)都丟進去,我們稱之為批量梯度下降法(Batch Gradient Descent,BGD)。另外一個極端,我們每次都是拿一個數(shù)據(jù)去訓(xùn)練,此時我們稱之為隨機梯度下降法(Stochastic Gradient Descent,SGD)。

批量梯度下降法(BGD)的好處是穩(wěn)定下降,loss下降得也快,但容易到極小值,而隨機梯度下降法(SGD)的梯度上引入了隨機噪聲,因此在非凸優(yōu)化問題中,其相比批量梯度下 降更容易逃離局部最小值。

選擇哪個Batchsize對模型效果最好?-AI.x社區(qū)

如果拿不同的批量來訓(xùn)練模型來做圖像識別問題,實驗結(jié)果如圖所示,橫軸是批量大小,縱軸是正確率。結(jié)果是可能出乎一部分人的意料:批量大小越大,驗證集準確率越差。 這個是優(yōu)化的問題,大的批量大小優(yōu)化可能會有問題,小的批量大小優(yōu)化的結(jié)果反而是比較好的。

選擇哪個Batchsize對模型效果最好?-AI.x社區(qū)

有噪聲反而可能是好事

有可能存在的解釋是,批量梯度下降法因為沿著一個損失函數(shù),所以比較容易出現(xiàn)局部極小值或者鞍點。而小批量梯度下降法每次都是挑一次批量計算損失,所以每一次更新參數(shù)的時候所使用的損失函數(shù)是有差異的。

選擇哪個Batchsize對模型效果最好?-AI.x社區(qū)

選擇哪個Batchsize對模型效果最好?-AI.x社區(qū)

在論文 “On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima”中,作者在不同數(shù)據(jù)集上訓(xùn)練了六個網(wǎng)絡(luò)(包括全連接網(wǎng)絡(luò)、不同的卷積神經(jīng)網(wǎng)絡(luò)),在很多不同的 情況都觀察到一樣的結(jié)果。

在小的批量,一個批量里面有256筆樣本。在大的批量中,批量大小等于數(shù)據(jù)集樣本數(shù)乘0.1,大的批量跟小的批量的訓(xùn)練準確率(accuracy)差不多。 但就算是在訓(xùn)練的時候結(jié)果差不多,測試的時候,大的批量比小的批量差,代表過擬合。

本文轉(zhuǎn)載自 ??沐白AI筆記??,作者: 楊沐白

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦