偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從“推倒重來”到“無縫進(jìn)化” :Net2Net如何革新神經(jīng)網(wǎng)絡(luò)訓(xùn)練范式?

人工智能
這篇論文,以其簡潔、強(qiáng)大且實(shí)用的方法,解決了深度學(xué)習(xí)模型迭代中的一個(gè)根本性效率問題。其核心在于“函數(shù)保持變換”這一洞見,通過Net2WiderNet和Net2DeeperNet兩種操作,實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)知識的無損、即時(shí)遷移。

在深度學(xué)習(xí)的研究與開發(fā)中,我們常常面臨一個(gè)核心痛點(diǎn):模型結(jié)構(gòu)的迭代充斥著巨大的計(jì)算浪費(fèi)。

當(dāng)我們試圖通過增加深度或?qū)挾葋硗黄菩⌒途W(wǎng)絡(luò)性能瓶頸時(shí),傳統(tǒng)方法只能拋棄已有的訓(xùn)練成果,將擴(kuò)大后的新模型從頭開始訓(xùn)練。

圖片圖片

??論文地址:https://arxiv.org/pdf/1511.05641

這一痛點(diǎn),正是谷歌大腦團(tuán)隊(duì)在2016年的論文 《Net2Net: Accelerating Learning via Knowledge Transfer》 中所要解決的核心問題。

它提出了一種名為“Net2Net”的系列方法,旨在實(shí)現(xiàn)一種無損的、即時(shí)性的知識遷移,從而將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練范式從“重復(fù)造輪子”推向“無縫進(jìn)化”。

本文將深入淺出地解析Net2Net的核心思想、技術(shù)細(xì)節(jié)、實(shí)驗(yàn)驗(yàn)證及其深遠(yuǎn)影響。

1.困局與破局“函數(shù)保持變換”

深度學(xué)習(xí)模型的開發(fā)是一個(gè)高度迭代和實(shí)驗(yàn)性的過程。

研究者或工程師通常從一個(gè)基準(zhǔn)架構(gòu)開始,通過評估其性能。

圖片圖片

逐步調(diào)整其深度(層數(shù))和寬度(每層的神經(jīng)元或?yàn)V波器數(shù)量),以尋求更優(yōu)的配置。

然而,每一次架構(gòu)的更改,都意味著:

  • 計(jì)算資源的巨大浪費(fèi):訓(xùn)練一個(gè)現(xiàn)代神經(jīng)網(wǎng)絡(luò),尤其是在大規(guī)模數(shù)據(jù)集上,需要消耗數(shù)百甚至上千GPU/TPU時(shí)。每次從頭訓(xùn)練都使研究成本呈指數(shù)級上升。
  • 時(shí)間成本的不可承受之重:漫長的訓(xùn)練周期嚴(yán)重拖慢了科研探索和產(chǎn)品迭代的速度。
  • 知識傳承的斷裂:小模型在訓(xùn)練過程中學(xué)習(xí)到的特征表示、決策邊界等寶貴“知識”,在構(gòu)建新模型時(shí)被完全拋棄。

Net2Net的核心哲學(xué):繼承與發(fā)展

Net2Net的提出,基于一個(gè)直觀而深刻的洞見:

當(dāng)我們擴(kuò)展現(xiàn)有網(wǎng)絡(luò)時(shí),新網(wǎng)絡(luò)的初始狀態(tài)不應(yīng)是一張白紙,而應(yīng)繼承其“前輩”的全部知識與能力。 

這意味著,一個(gè)被拓寬或加深的新網(wǎng)絡(luò),在初始時(shí)刻,其行為應(yīng)與原始網(wǎng)絡(luò)完全一致。在數(shù)學(xué)上,這一思想被精煉地定義為 “函數(shù)保持變換” 。

這意味著,學(xué)生網(wǎng)絡(luò)在完成變換的瞬間,其性能與教師網(wǎng)絡(luò)完全相同。

隨后,我們可以基于這個(gè)強(qiáng)大的“高起點(diǎn)”,用遠(yuǎn)少于從頭訓(xùn)練所需的步驟對學(xué)生網(wǎng)絡(luò)進(jìn)行微調(diào),使其快速收斂至一個(gè)更優(yōu)的性能平臺。

這本質(zhì)上是一種極其高效的知識遷移。

2.技術(shù)深潛兩大核心武器

Net2Net主要通過兩種具體的操作來實(shí)現(xiàn)函數(shù)保持變換:Net2WiderNet(拓寬網(wǎng)絡(luò))和 Net2DeeperNet(加深網(wǎng)絡(luò))。

Net2WiderNet:如何讓網(wǎng)絡(luò)“變胖”而不失真?

Net2WiderNet的目標(biāo)是增加網(wǎng)絡(luò)中某一層的神經(jīng)元(全連接層)或?yàn)V波器(卷積層)的數(shù)量。

假設(shè)我們有一個(gè)全連接層,其權(quán)重矩陣為 ,偏置為 ,具有  個(gè)神經(jīng)元。我們希望將其拓寬至具有  個(gè)神經(jīng)元()。

圖片圖片

為什么這樣做能保持函數(shù)不變?

直觀理解:假設(shè)原神經(jīng)元  被復(fù)制了一份,得到  和 。在向前傳播時(shí),A和A'接收到完全相同的輸入,產(chǎn)生完全相同的激活輸出。

如果下一層對A和A'的響應(yīng)權(quán)重之和等于原來對A的權(quán)重,那么下一層接收到的總輸入就與拓寬前一模一樣。

數(shù)學(xué)上可以嚴(yán)格證明,經(jīng)過這樣的變換,網(wǎng)絡(luò)的最終輸出  與  是恒等的。

對于卷積層,操作思想完全一致,只是將“神經(jīng)元”替換為“濾波器(通道)”,權(quán)重從向量變?yōu)榫矸e核張量。

Net2DeeperNet:如何讓網(wǎng)絡(luò)“變深”而不阻塞?

Net2DeeperNet的目標(biāo)是在現(xiàn)有網(wǎng)絡(luò)的兩個(gè)層之間插入一個(gè)新的層。

插入新層并實(shí)現(xiàn)函數(shù)保持,最直接的想法是將新層初始化為恒等映射。

通過這樣的初始化,新層的加入確實(shí)不會改變網(wǎng)絡(luò)的信息流,實(shí)現(xiàn)了函數(shù)保持。

2. 卷積層:在卷積網(wǎng)絡(luò)中,恒等映射可以通過使用一種特殊的卷積核來實(shí)現(xiàn):一個(gè)中心為1,周圍全為0的卷積核。

例如,對于一個(gè)3x3的卷積,如果其輸入輸出通道數(shù)相同,我們可以將每個(gè)通道對應(yīng)的卷積核初始化為僅在中心位置為1,其余8個(gè)位置為0。

這樣,該卷積操作輸出的每個(gè)像素都等于輸入對應(yīng)位置的像素,實(shí)現(xiàn)了恒等映射。

圖片圖片

以上討論忽略了一個(gè)關(guān)鍵組件:非線性激活函數(shù)(如ReLU, sigmoid)。

如果在新層之后立即使用ReLU激活函數(shù),那么當(dāng)輸入存在負(fù)值時(shí),恒等映射就會被破壞(負(fù)值會被置零)。

論文對此進(jìn)行了討論,并指出:如果網(wǎng)絡(luò)的激活值空間主要位于ReLU的線性區(qū)域(即輸入為正),那么初始化為單位矩陣的深層網(wǎng)絡(luò)依然能近似地保持函數(shù)。

在實(shí)踐中,這種近似已經(jīng)足夠好,使得網(wǎng)絡(luò)能夠從一個(gè)極優(yōu)的起點(diǎn)開始微調(diào)。

這也提示我們,選擇與函數(shù)保持兼容的激活函數(shù)(或其在某些區(qū)域的特性)是成功應(yīng)用Net2DeeperNet的一個(gè)考量。

3.實(shí)驗(yàn)驗(yàn)證從理論到實(shí)踐

論文在經(jīng)典的CIFAR-10圖像分類數(shù)據(jù)集上進(jìn)行了系統(tǒng)的實(shí)驗(yàn),以驗(yàn)證Net2Net方法的有效性。

實(shí)驗(yàn)對比了兩種方案:

  • Baseline(從頭訓(xùn)練):直接隨機(jī)初始化一個(gè)大型網(wǎng)絡(luò),并進(jìn)行完整周期的訓(xùn)練。
  • Net2Net方案:先訓(xùn)練一個(gè)較小的教師網(wǎng)絡(luò),然后使用Net2Net技術(shù)將其擴(kuò)展為同樣的大型網(wǎng)絡(luò),再對擴(kuò)展后的網(wǎng)絡(luò)進(jìn)行微調(diào)。

結(jié)果清晰地表明,Net2Net方案以壓倒性優(yōu)勢勝出。

圖片圖片

達(dá)到相同甚至更高的測試精度,Net2Net所需的訓(xùn)練步數(shù)(時(shí)間)遠(yuǎn)少于從頭訓(xùn)練。

在某些實(shí)驗(yàn)中,Net2Net僅用了后者十分之一甚至更少的訓(xùn)練步驟就達(dá)到了目標(biāo)精度。

這直接將模型迭代的周期從“天”級別縮短到了“小時(shí)”級別。

 結(jié)語 

這篇論文,以其簡潔、強(qiáng)大且實(shí)用的方法,解決了深度學(xué)習(xí)模型迭代中的一個(gè)根本性效率問題。

其核心在于“函數(shù)保持變換”這一洞見,通過Net2WiderNet和Net2DeeperNet兩種操作,實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)知識的無損、即時(shí)遷移。

盡管后續(xù)出現(xiàn)了更多復(fù)雜的知識遷移方法,但Net2Net因其理論的優(yōu)雅與實(shí)現(xiàn)的簡潔,依然在深度學(xué)習(xí)工具鏈中占有一席之地。

責(zé)任編輯:武曉燕 來源: Fairy Girl
相關(guān)推薦

2018-04-18 14:12:58

AMD顯卡頻率

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2023-06-16 07:14:37

英特爾酷睿產(chǎn)品

2017-12-22 08:47:41

神經(jīng)網(wǎng)絡(luò)AND運(yùn)算

2013-11-28 09:24:57

SDN傳統(tǒng)網(wǎng)絡(luò)

2017-07-27 10:46:44

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2017-06-11 23:38:43

進(jìn)化圖像神經(jīng)網(wǎng)絡(luò)

2025-08-01 09:41:52

2025-09-12 16:13:12

2017-03-10 12:16:46

機(jī)器學(xué)習(xí)

2017-03-27 16:18:30

神經(jīng)網(wǎng)絡(luò)TensorFlow人工智能

2025-01-03 08:29:53

2017-08-29 13:50:03

TensorFlow深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2012-04-29 16:01:39

Phone

2019-07-24 05:36:32

神經(jīng)網(wǎng)絡(luò)語言模型NNLM

2017-08-28 21:31:37

TensorFlow深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2009-06-24 16:57:47

MyEclipseJavaCC插件

2020-08-06 10:11:13

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法

2024-02-26 07:31:26

WindowsLinuxmacOS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號