偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="ft5s8"></center>

<nav id="ft5s8"></nav>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

選擇哪個Batchsize對模型效果最好？

發(fā)布于 2025-1-15 12:56

瀏覽

0收藏

總結(jié)

在項目中，如果你沒有任何參考，那么選擇2次方（即64、128、256、512、1024等）可以會更加直接和易于管理，然后對上限來說，batchsize大小最好<=數(shù)據(jù)集樣本數(shù)*0.1。

梯度下降算法

在更新模型參數(shù)時，我們一般會用到梯度下降算法。這個時候，我們就會有一個問題，每次拿多少訓(xùn)練樣本進行更新參數(shù)呢？這個時候有兩個極端情況，資源夠，那我們把所有數(shù)據(jù)都丟進去，我們稱之為批量梯度下降法（Batch Gradient Descent，BGD）。另外一個極端，我們每次都是拿一個數(shù)據(jù)去訓(xùn)練，此時我們稱之為隨機梯度下降法（Stochastic Gradient Descent，SGD）。

批量梯度下降法（BGD）的好處是穩(wěn)定下降，loss下降得也快，但容易到極小值，而隨機梯度下降法（SGD）的梯度上引入了隨機噪聲，因此在非凸優(yōu)化問題中，其相比批量梯度下降更容易逃離局部最小值。

選擇哪個Batchsize對模型效果最好？-AI.x社區(qū)

如果拿不同的批量來訓(xùn)練模型來做圖像識別問題，實驗結(jié)果如圖所示，橫軸是批量大小，縱軸是正確率。結(jié)果是可能出乎一部分人的意料：批量大小越大，驗證集準確率越差。 這個是優(yōu)化的問題，大的批量大小優(yōu)化可能會有問題，小的批量大小優(yōu)化的結(jié)果反而是比較好的。

選擇哪個Batchsize對模型效果最好？-AI.x社區(qū)

有噪聲反而可能是好事

有可能存在的解釋是，批量梯度下降法因為沿著一個損失函數(shù)，所以比較容易出現(xiàn)局部極小值或者鞍點。而小批量梯度下降法每次都是挑一次批量計算損失，所以每一次更新參數(shù)的時候所使用的損失函數(shù)是有差異的。

選擇哪個Batchsize對模型效果最好？-AI.x社區(qū)

選擇哪個Batchsize對模型效果最好？-AI.x社區(qū)

在論文 “On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima”中，作者在不同數(shù)據(jù)集上訓(xùn)練了六個網(wǎng)絡(luò)（包括全連接網(wǎng)絡(luò)、不同的卷積神經(jīng)網(wǎng)絡(luò)），在很多不同的情況都觀察到一樣的結(jié)果。

在小的批量，一個批量里面有256筆樣本。在大的批量中，批量大小等于數(shù)據(jù)集樣本數(shù)乘0.1,大的批量跟小的批量的訓(xùn)練準確率（accuracy）差不多。 但就算是在訓(xùn)練的時候結(jié)果差不多，測試的時候，大的批量比小的批量差，代表過擬合。

本文轉(zhuǎn)載自 ??沐白AI筆記??，作者：楊沐白

標簽

網(wǎng)絡(luò)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

訓(xùn)練大模型自動在RAG和記憶間選擇

51CTO內(nèi)容精選 ? 3310瀏覽 ? 0回復(fù)
【LLM】對大語言模型微調(diào)優(yōu)化的研究

sbf_2000 ? 3973瀏覽 ? 0回復(fù)
哪個中文開源大模型在信息抽取上效果最好？附：用于提取的提示詞

大語言模型論文跟蹤 ? 5758瀏覽 ? 0回復(fù)
CodeRAG-Bench：RAG遇到了Coder，哪個模型在RAG的加持下最會寫代碼？

大語言模型論文跟蹤 ? 4894瀏覽 ? 0回復(fù)
大模型應(yīng)用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 5172瀏覽 ? 0回復(fù)
如果老板讓你基于大模型搭建一個系統(tǒng)，怎么選擇一個適合自己任務(wù)的大模型？選擇大模型需要考慮哪些問題？

AI探索時代 ? 2824瀏覽 ? 0回復(fù)
最強大模型統(tǒng)計網(wǎng)站，從此告別LLM選擇恐懼癥！

魚蟲子 ? 3241瀏覽 ? 0回復(fù)
如何選擇適合企業(yè)需求的大語言模型

51CTO內(nèi)容精選 ? 2904瀏覽 ? 0回復(fù)
借助LLM實現(xiàn)模型選擇和試驗自動化

51CTO內(nèi)容精選 ? 2483瀏覽 ? 0回復(fù)
Gemini Exp 1114：有史以來最好的大模型！擊敗 o1-Preview + Claude 3.5 Sonnet！

老蛀蟲 ? 2602瀏覽 ? 0回復(fù)
論文解讀：迄今為止最好的 RAG 技術(shù)棧

sulu637 ? 3080瀏覽 ? 0回復(fù)
最大限度提高人工智能訓(xùn)練效率：選擇合適的模型

51CTO內(nèi)容精選 ? 2807瀏覽 ? 0回復(fù)
M3DocRAG：文檔問答用哪個多模態(tài)大模型效果最好？

大語言模型論文跟蹤 ? 3167瀏覽 ? 0回復(fù)
深度學(xué)習(xí)的Batchsize必須是2的n次方嗎？

石映飛云 ? 3537瀏覽 ? 0回復(fù)
Coze，Dify，F(xiàn)astGPT，哪個更強？全方位對比分析來了！

玄姐聊AGI ? 1.2w瀏覽 ? 0回復(fù)
聊聊DeepSeek大模型對AI Agent的影響

王吉偉自頻道 ? 2405瀏覽 ? 0回復(fù)
大模型是一場新的搜索戰(zhàn)爭，OpenAI不會贏家通吃，一家最好被收購！

51CTO技術(shù)棧 ? 2352瀏覽 ? 0回復(fù)
DeepSeek 模型架構(gòu)的特殊選擇

amei2000go ? 2052瀏覽 ? 0回復(fù)
提示詞工程對大模型應(yīng)用的重要性

AI探索時代 ? 1850瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

一文講透深入理解邏輯回歸 2025-06-17 06:35:55發(fā)布
如何有效降低機器學(xué)習(xí)模型過擬合？ 2025-06-04 07:02:18發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：一文講清楚視覺大模型！CLIP模型論文解讀

下一篇： DeepNetwork中一般Dropout原理

社區(qū)精華內(nèi)容

目錄

<tfoot id="i2jef"><fieldset id="i2jef"></fieldset></tfoot>