偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解

南夏的算法驛站

發(fā)布于 2025-6-23 06:40

瀏覽

0收藏

批歸一化（Batch Normalization）和層歸一化（Layer Normalization）是深度學(xué)習(xí)中廣泛應(yīng)用的兩種數(shù)據(jù)歸一化方法，用于改善神經(jīng)網(wǎng)絡(luò)的訓(xùn)練性能。本文將從提出這兩種技術(shù)的原論文出發(fā)，詳細(xì)闡述技術(shù)背景、原理及基于Pytorch的實(shí)現(xiàn)方式。

1.批歸一化（Batch Normalization）

批歸一化由谷歌的Sergey Ioffe和Christian Szegedy于2015年在論文“Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”中提出。

（1）技術(shù)背景：深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練十分復(fù)雜，因?yàn)樵谟?xùn)練過(guò)程中隨著前一層網(wǎng)絡(luò)參數(shù)的變化，下一層網(wǎng)絡(luò)的輸入分布也會(huì)發(fā)生變化。而更低的學(xué)習(xí)率和更精細(xì)的參數(shù)初始化又會(huì)減慢模型訓(xùn)練速度，特別是會(huì)讓具有飽和非線(xiàn)性的模型收斂變得十分困難，如使用Sigmoid激活函數(shù)時(shí)，容易陷入梯度消失之中。

Ps：飽和非線(xiàn)性是指激活函數(shù)在輸入值較大或較小時(shí)，其輸出趨于恒定，導(dǎo)數(shù)接近于零的現(xiàn)象，如Sigmoid和Tanh激活函數(shù)。

（2）技術(shù)原理：批歸一化則是通過(guò)標(biāo)準(zhǔn)化輸入來(lái)解決上述問(wèn)題，將歸一化作為模型架構(gòu)的一部分，對(duì)每次訓(xùn)練中的小批量樣本執(zhí)行歸一化，使得我們可以使用更高的學(xué)習(xí)率且能降低對(duì)參數(shù)初始化的要求。同時(shí)，在某些情況下還能充當(dāng)正則化使用，可以替代Dropout技術(shù)。

（3）批歸一化詳細(xì)計(jì)算步驟：

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

需要特別注意的是，批歸一化中模型在測(cè)試時(shí)使用的是訓(xùn)練中累積的全局均值和方差替代小批量樣本的統(tǒng)計(jì)值，有關(guān)全局均值和方差的計(jì)算可見(jiàn)下述詳細(xì)代碼的實(shí)現(xiàn)，更加清晰明了。

（4）基于Pytorch的實(shí)現(xiàn)

Pytorch中提供了nn.BatchNorm1d、nn.BatchNorm2d 和 nn.BatchNorm3d，對(duì)應(yīng)不同輸入維度的批歸一化層，如下所示：

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

【參數(shù)詳解】

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

(5) 使用Python手動(dòng)實(shí)現(xiàn)批歸一化

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

2.層歸一化（Layer Normalization）

層歸一化由多倫多大學(xué)的Jimmy Lei Ba等人于2016年于論文“Layer Normalization”中提出。

（1）技術(shù)背景：批歸一化的效果取決于小批量的大小，且在循環(huán)神經(jīng)網(wǎng)絡(luò)中的應(yīng)用受到明顯的限制。同時(shí)，批歸一化也不能應(yīng)用于在線(xiàn)學(xué)習(xí)任務(wù)或小批量必須很小的極大分布式模型。

Ps：循環(huán)神經(jīng)網(wǎng)絡(luò)中循環(huán)神經(jīng)元的輸入總和通常隨序列長(zhǎng)度的變化而變化，因此對(duì)其應(yīng)該針對(duì)不同時(shí)間步長(zhǎng)進(jìn)行不同的統(tǒng)計(jì)。

（2）技術(shù)原理：層歸一化則是通過(guò)計(jì)算單個(gè)樣本中所有特征值的均值和方差來(lái)實(shí)現(xiàn)輸入數(shù)據(jù)的歸一化，可以直接應(yīng)用于循環(huán)神經(jīng)網(wǎng)絡(luò)。與批歸一化一樣的是在歸一化之后也提供了自適應(yīng)偏差和增益兩個(gè)可學(xué)習(xí)參數(shù)來(lái)增強(qiáng)模型的表達(dá)能力。與批歸一化不同的是，層歸一化在訓(xùn)練和測(cè)試的時(shí)候執(zhí)行完全相同的計(jì)算。

（3）層歸一化詳細(xì)計(jì)算步驟：

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

（4）基于Pytorch的實(shí)現(xiàn)

Pytorch中提供了nn.LayerNorm實(shí)現(xiàn)層歸一化層，適合處理任何維度的輸入，如下所示：

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

【參數(shù)詳解】

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

（5）使用Python手動(dòng)實(shí)現(xiàn)層歸一化

【深度學(xué)習(xí)】批歸一化（BatchNorm）與層歸一化（LayerNorm）：技術(shù)背景、原理及基于Pytorch的代碼詳解-AI.x社區(qū)

本文轉(zhuǎn)載自???南夏的算法驛站???，作者：趙南夏

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

一文詳解Transformer 細(xì)節(jié)及代碼實(shí)現(xiàn)

angel ? 3736瀏覽 ? 0回復(fù)
深度學(xué)習(xí)架構(gòu)的超級(jí)英雄——BatchNorm2d

51CTO內(nèi)容精選 ? 2862瀏覽 ? 0回復(fù)
一文詳解大語(yǔ)言模型的流行架構(gòu)與訓(xùn)練技術(shù)

angel ? 4487瀏覽 ? 0回復(fù)
基于LangGraph多智能體技術(shù)，搭建AI寫(xiě)作自動(dòng)化系統(tǒng)

小虎哦哦 ? 4544瀏覽 ? 0回復(fù)
一文剖析AI大模型技術(shù)架構(gòu)的全景視圖：從基礎(chǔ)實(shí)施層、云原生層、模型層、應(yīng)用技術(shù)層、能力層、到應(yīng)用層

玄姐聊AGI ? 5375瀏覽 ? 0回復(fù)
最近一段時(shí)間關(guān)于大模型技術(shù)的學(xué)習(xí)及應(yīng)用的心得體會(huì)

AI探索時(shí)代 ? 3812瀏覽 ? 0回復(fù)
一種模塊化大模型Agent框架全棧技術(shù)綜述

PaperAgent ? 4713瀏覽 ? 0回復(fù)
小紅書(shū)開(kāi)源StoryMaker：個(gè)性化圖像生成模型，實(shí)現(xiàn)角色一致性與背景變化的完美結(jié)合

angel ? 7340瀏覽 ? 0回復(fù)
時(shí)序預(yù)測(cè)數(shù)據(jù)處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 4488瀏覽 ? 0回復(fù)
基于關(guān)系型深度學(xué)習(xí)的自助機(jī)器學(xué)習(xí)

51CTO內(nèi)容精選 ? 2378瀏覽 ? 0回復(fù)
RAG增強(qiáng)之路：增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線(xiàn)方案及思路

大模型自然語(yǔ)言處理 ? 2815瀏覽 ? 0回復(fù)
一文詳解MHA、GQA、MQA原理

大模型自然語(yǔ)言處理 ? 4502瀏覽 ? 0回復(fù)
一文詳解集成學(xué)習(xí)算法原理

寶寶數(shù)模AI ? 2484瀏覽 ? 0回復(fù)
深度學(xué)習(xí)二分類(lèi)評(píng)估詳細(xì)解析與代碼實(shí)戰(zhàn)

AI悠閑區(qū) ? 2600瀏覽 ? 0回復(fù)
詳解MMoE 模型：多任務(wù)學(xué)習(xí)中的專(zhuān)家混合建模與實(shí)踐【附代碼】

南夏的算法驛站 ? 4233瀏覽 ? 0回復(fù)
AI Agents 與 Agentic AI：技術(shù)差異深度剖析及應(yīng)用前景

Halo咯咯 ? 2444瀏覽 ? 0回復(fù)
Meta 重磅發(fā)布 DyT 函數(shù)：Transformer 無(wú)需歸一化層，性能反超傳統(tǒng)方案！

AIPaperDaily ? 2517瀏覽 ? 0回復(fù)
從碎片化到一體化：Rankify 如何重塑檢索、重排與生成的全流程

Halo咯咯 ? 1440瀏覽 ? 0回復(fù)
一文剖析基于 MCP 的 AI 應(yīng)用技術(shù)架構(gòu)全景視圖：從基礎(chǔ)實(shí)施層、云原生層、模型層、應(yīng)用技術(shù)層、應(yīng)用架構(gòu)層

玄姐聊AGI ? 1695瀏覽 ? 0回復(fù)

南夏的算法驛站

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

分類(lèi)模型性能度量：錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線(xiàn)與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別 2025-06-10 06:37:51發(fā)布
分類(lèi)模型性能度量：錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線(xiàn)與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別 2025-05-14 00:05:30發(fā)布

熱門(mén)推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線(xiàn)性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開(kāi)源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：分類(lèi)模型性能度量：錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線(xiàn)與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別

社區(qū)精華內(nèi)容

目錄

<ruby id="qg0by"></ruby>

<sup id="qg0by"></sup>

<ol id="qg0by"></ol>

<center id="qg0by"><samp id="qg0by"><wbr id="qg0by"></wbr></samp></center>

<kbd id="qg0by"></kbd>