偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LeCun新作:神經(jīng)網(wǎng)絡(luò)在實(shí)踐中的靈活性到底有多大?

人工智能 新聞
神經(jīng)網(wǎng)絡(luò)擬合數(shù)據(jù)的能力受哪些因素影響?CNN一定比Transformer差嗎?ReLU和SGD還有哪些神奇的作用?近日,LeCun參與的一項(xiàng)工作向我們展示了神經(jīng)網(wǎng)絡(luò)在實(shí)踐中的靈活性。

人工智能在今天百花齊放,大模型靠規(guī)模稱王,小模型則憑數(shù)據(jù)取勝。

當(dāng)然我們也希望,可以付出更少的資源,并達(dá)到相同的效果。

很早之前,谷歌就有相關(guān)研究,探索了在固定算力的情況下,如何分配模型參數(shù)量和訓(xùn)練數(shù)據(jù)量,以達(dá)到最好的性能。

近日,LeCun參與的一項(xiàng)工作從另一個(gè)角度向我們展示了,神經(jīng)網(wǎng)絡(luò)在實(shí)踐中的靈活性到底有多大?

圖片

論文地址:https://arxiv.org/pdf/2406.11463

這個(gè)靈活性指的是,神經(jīng)網(wǎng)絡(luò)擬合訓(xùn)練數(shù)據(jù)(樣本數(shù)量)的能力,在實(shí)際應(yīng)用中受到哪些因素的影響。

比如我們第一時(shí)間想到的可能就是模型的參數(shù)量。

人們普遍認(rèn)為,神經(jīng)網(wǎng)絡(luò)可以擬合至少與自身參數(shù)一樣多的訓(xùn)練樣本。

這就像是解一個(gè)線性方程組,有多少個(gè)參數(shù)(或者方程)、多少個(gè)未知數(shù),從而判斷解的數(shù)量。

圖片

然而神經(jīng)網(wǎng)絡(luò)實(shí)際上要復(fù)雜的多,盡管在理論上能夠進(jìn)行通用函數(shù)逼近,但在實(shí)踐中,我們訓(xùn)練的模型容量有限,不同優(yōu)化器也會(huì)導(dǎo)致不同的效果。

所以,本文決定用實(shí)驗(yàn)的方法,分別考察數(shù)據(jù)本身的性質(zhì)、模型架構(gòu)、大小、優(yōu)化器和正則化器等因素。

而模型擬合數(shù)據(jù)的能力(或者說(shuō)學(xué)習(xí)信息的能力),由有效模型復(fù)雜性(EMC)來(lái)表示。

這個(gè)EMC是怎么算的呢?

一開始,在少量樣本上訓(xùn)練模型。如果它在訓(xùn)練后達(dá)到100%的訓(xùn)練準(zhǔn)確率,則將模型重新初始化并增大訓(xùn)練樣本數(shù)量。

迭代執(zhí)行此過(guò)程,每次逐步增加樣本量,直到模型不再完全擬合所有訓(xùn)練樣本,將模型能實(shí)現(xiàn)完美擬合的最大樣本量作為網(wǎng)絡(luò)的EMC。

——一直喂飯,直到吃撐,則得到飯量大小。

實(shí)證分析

為了全面剖析影響神經(jīng)網(wǎng)絡(luò)靈活性的因素,研究人員考慮了各種數(shù)據(jù)集、架構(gòu)和優(yōu)化器。

數(shù)據(jù)集

實(shí)驗(yàn)采用了包括MNIST、CIFAR-10、CIFAR-100和ImageNet等視覺(jué)數(shù)據(jù)集,以及Forest-Cover Type、Adult Income和Credit等表格數(shù)據(jù)集。

另外,實(shí)驗(yàn)還使用了更大規(guī)模的合成數(shù)據(jù)集,通過(guò)Min-SNR加權(quán)策略進(jìn)行的高效擴(kuò)散訓(xùn)練,生成分辨率為128×128的高質(zhì)量圖像數(shù)據(jù)集——ImageNet-20MS,包含10個(gè)類別的2000萬(wàn)個(gè)樣本。

模型

實(shí)驗(yàn)評(píng)估了多層感知器(MLP)、CNN架構(gòu)的ResNet和EfficientNet,以及Transformer架構(gòu)的ViT。

圖片

作者系統(tǒng)地調(diào)整了這些架構(gòu)的寬度和深度:

比如對(duì)于MLP,通過(guò)每層添加神經(jīng)元來(lái)增加寬度,同時(shí)保持層數(shù)不變,或者通過(guò)添加更多層來(lái)增加深度,同時(shí)保持每層神經(jīng)元數(shù)量不變。

對(duì)于一般的CNN(多個(gè)卷積層,接一個(gè)恒定大小的全連接層),可以改變每層的kernel數(shù)量或者卷積層的總數(shù)。

對(duì)于ResNet,可以改變kernel的數(shù)量或者block的數(shù)量(深度)。

圖片

而對(duì)于ViT,可以改變編碼器的數(shù)量(深度)、patch embedding的維度和自注意力(寬度)。

圖片

優(yōu)化器

實(shí)驗(yàn)采用的優(yōu)化器包括隨機(jī)梯度下降(SGD)、Adam、AdamW、全批次梯度下降(full-batch Gradient Descent)和second-order Shampoo optimizer。

由此,研究人員可以測(cè)試隨機(jī)性和預(yù)處理等特征如何影響最小值。同時(shí)。為了確??鐢?shù)據(jù)集和模型大小進(jìn)行有效優(yōu)化,研究人員仔細(xì)調(diào)整了每個(gè)設(shè)置的學(xué)習(xí)率和批量大小,并省略了權(quán)重衰減。

數(shù)據(jù)對(duì)EMC的影響

研究人員通過(guò)修改隱藏層的寬度來(lái)擴(kuò)展一個(gè)2層的MLP,通過(guò)修改層數(shù)和通道數(shù)來(lái)擴(kuò)展CNN,并在一系列圖像(MNIST、CIFAR-10、CIFAR-100、ImageNet)和表格(CoverType、Income 和 Credit)數(shù)據(jù)集上訓(xùn)練模型。

結(jié)果顯示,在不同數(shù)據(jù)類型上訓(xùn)練的網(wǎng)絡(luò)在EMC方面存在顯著差異:

圖片

在表格數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)表現(xiàn)出更高的容量;而在圖像分類數(shù)據(jù)集中,測(cè)試精度和容量之間存在很強(qiáng)的相關(guān)性。

值得注意的是,MNIST(模型達(dá)到99%以上的測(cè)試準(zhǔn)確度)產(chǎn)生的EMC最高,而ImageNet的EMC最低,這表明了泛化與數(shù)據(jù)擬合能力之間的關(guān)系。

輸入和標(biāo)簽的作用

這里通過(guò)改變每層中的神經(jīng)元或kernel的數(shù)量,來(lái)調(diào)整MLP和CNN的寬度,并在合成數(shù)據(jù)集ImageNet-20MS上進(jìn)行訓(xùn)練。

實(shí)驗(yàn)測(cè)試了四種情況下的EMC:語(yǔ)義標(biāo)簽、隨機(jī)標(biāo)簽、隨機(jī)輸入(高斯噪聲)和固定隨機(jī)排列下的輸入。

分配隨機(jī)標(biāo)簽(而非真實(shí)標(biāo)簽)的目的是探索過(guò)參數(shù)化(overparameterization)和欠參數(shù)化(underparameterization)之間的邊界。

圖片

從上圖的結(jié)果可以發(fā)現(xiàn),與原始標(biāo)簽相比,當(dāng)分配隨機(jī)標(biāo)簽時(shí),網(wǎng)絡(luò)擬合的樣本要少得多,此時(shí)神經(jīng)網(wǎng)絡(luò)的參數(shù)效率低于線性模型。而從整體上來(lái)看,模型的參數(shù)量與擬合的數(shù)據(jù)量大致呈線性關(guān)系。

分類數(shù)量對(duì)EMC的影響

作者隨機(jī)合并了CIFAR-100中的類別(保留原始數(shù)據(jù)集的大?。?,在具有不同數(shù)量kernel的2層CNN上進(jìn)行實(shí)驗(yàn)。

圖片

結(jié)果如上圖所示,隨著類數(shù)量的增加,帶有語(yǔ)義標(biāo)簽的數(shù)據(jù)變得越來(lái)越難以擬合,因?yàn)槟P捅仨殞?duì)其權(quán)重中的每個(gè)樣本進(jìn)行編碼。

相比之下,隨機(jī)標(biāo)記的數(shù)據(jù)變得更容易擬合,因?yàn)槟P筒辉俦黄葹檎Z(yǔ)義上不同的樣本分配相同的類標(biāo)簽。

預(yù)測(cè)泛化

神經(jīng)網(wǎng)絡(luò)偏向于擬合語(yǔ)義連貫的標(biāo)簽而不是隨機(jī)標(biāo)簽,而且,與隨機(jī)標(biāo)簽相比,網(wǎng)絡(luò)擬合語(yǔ)義標(biāo)簽的熟練程度通常與其泛化能力相關(guān)。

這種泛化也使得CNN這種架構(gòu)能夠擬合比模型參數(shù)量更多的樣本。

傳統(tǒng)的機(jī)器學(xué)習(xí)觀念認(rèn)為,高容量模型往往會(huì)過(guò)度擬合,從而影響其對(duì)新數(shù)據(jù)的泛化,而PAC-貝葉斯理論則指出,模型更喜歡正確的數(shù)據(jù)標(biāo)記。

而本文的實(shí)驗(yàn)將這兩種理論聯(lián)系在了一起。

圖片

上圖中,在正確標(biāo)記和隨機(jī)標(biāo)記的數(shù)據(jù)上計(jì)算各種CNN和MLP的EMC,測(cè)量模型遇到語(yǔ)義標(biāo)簽與隨機(jī)標(biāo)簽時(shí)EMC增加的百分比。

結(jié)果表明EMC增加的百分比與generalization gap之間存在顯著的負(fù)相關(guān)關(guān)系,這不僅證實(shí)了泛化的理論基礎(chǔ),而且闡明了理論的實(shí)際意義。

模型架構(gòu)對(duì)EMC的影響

關(guān)于CNN和ViT的效率和泛化能力一直存在爭(zhēng)議。

實(shí)驗(yàn)表明,CNN以硬編碼的歸納偏差為特征,在EMC中優(yōu)于ViT和MLP。當(dāng)對(duì)語(yǔ)義標(biāo)記的數(shù)據(jù)進(jìn)行評(píng)估時(shí),這種優(yōu)勢(shì)在所有模型大小中都持續(xù)存在。

圖片

CNN從具有空間結(jié)構(gòu)的數(shù)據(jù)中獲益匪淺,當(dāng)空間結(jié)構(gòu)通過(guò)排列被打破時(shí),擬合的樣本就會(huì)減少。而MLP缺乏這種對(duì)空間結(jié)構(gòu)的偏好,因此它們擬合數(shù)據(jù)的能力是不變的。

圖片

另外,用高斯噪聲代替輸入可提高兩種架構(gòu)的容量,這可以解釋為,在高維中,嘈雜的數(shù)據(jù)相距甚遠(yuǎn),因此更容易分離。

圖片

值得注意的是,與隨機(jī)輸入相比,CNN可以擬合具有語(yǔ)義標(biāo)簽的樣本數(shù)量要多得多,MLP卻正好相反,這再次凸顯了CNN在圖像分類方面的卓越泛化能力。

擴(kuò)展網(wǎng)絡(luò)規(guī)模

下圖展示了各種擴(kuò)展配置下的EMC。

圖片

對(duì)于ResNet,擴(kuò)展措施包括增加寬度(kernel數(shù)量)、增加深度。EfficientNet固定系數(shù),同時(shí)縮放深度、寬度和分辨率。ResNet-RS根據(jù)模型大小、訓(xùn)練持續(xù)時(shí)間和數(shù)據(jù)集大小調(diào)整縮放。

對(duì)于ViT,使用SViT和SoViT方法,并嘗試分別改變編碼器塊的數(shù)量(深度)和patch embedding的維度和自注意力(寬度)。

分析表明,縮放深度比縮放寬度更具參數(shù)效率。這個(gè)結(jié)論同時(shí)也適用于隨機(jī)標(biāo)記的數(shù)據(jù),表明并不是泛化的產(chǎn)物。

激活函數(shù)

非線性激活函數(shù)對(duì)于神經(jīng)網(wǎng)絡(luò)容量至關(guān)重要,沒(méi)有它們,神經(jīng)網(wǎng)絡(luò)只是大型因式分解線性模型。

研究結(jié)果表明,ReLU顯著增強(qiáng)了模型的容量。雖然它最初的作用是為了減輕梯度的消失和爆炸,但ReLU還提高了網(wǎng)絡(luò)的數(shù)據(jù)擬合能力。

圖片

相比之下,tanh雖然也是非線性的,但不能實(shí)現(xiàn)類似的效果。

優(yōu)化在擬合數(shù)據(jù)中的作用

優(yōu)化技術(shù)和正則化策略的選擇在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中至關(guān)重要。這種選擇不僅影響訓(xùn)練收斂性,還影響所找到的解決方案的性質(zhì)。

參與實(shí)驗(yàn)的優(yōu)化器包括SGD、全批次梯度下降、Adam、AdamW和Shampoo。

圖片

以前的研究認(rèn)為SGD具有很強(qiáng)的平坦度尋求正則化效應(yīng),但上圖表明,SGD還能夠比全批次(非隨機(jī))梯度下降訓(xùn)練擬合更多的數(shù)據(jù)。

不同優(yōu)化器的EMC測(cè)量值表明,優(yōu)化器不僅在收斂速率上有所不同,而且在發(fā)現(xiàn)的最小值類型上也有所不同。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2016-11-08 13:50:57

2009-01-01 22:08:15

企業(yè)網(wǎng)絡(luò)提高

2010-02-01 18:23:54

Python

2012-08-30 16:24:04

HTML5歐朋W3C

2013-02-26 10:44:26

2022-10-10 18:39:01

legendapp前端框架

2010-02-23 17:04:32

Python編程語(yǔ)言

2022-05-10 15:10:25

加密貨幣區(qū)塊鏈金融犯罪

2012-08-23 15:10:44

Facebook

2012-08-23 14:21:47

大數(shù)據(jù)

2012-05-31 09:24:55

云計(jì)算云存儲(chǔ)

2024-10-22 15:04:15

2009-01-22 19:03:32

服務(wù)器虛擬化VMware

2024-05-15 08:54:04

C++類型限定符代碼

2012-03-07 15:22:02

2015-12-31 09:44:56

公有云谷歌云評(píng)測(cè)

2010-07-20 09:18:48

云計(jì)算靈活性

2009-08-25 16:11:12

Repeater控件

2014-04-30 15:52:59

紅帽

2010-07-22 10:08:39

JavaFXJava
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)