偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

15 分鐘吃透核心:卷積 / 池化 / 全連接 + 六大經(jīng)典模型對比

人工智能
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是一種深度學(xué)習(xí)模型,專門用于處理和分析視覺數(shù)據(jù),在圖像識別、目標(biāo)檢測等任務(wù)中表現(xiàn)尤為出色。然而,CNN的架構(gòu)因其固有的復(fù)雜性和快速演進(jìn)的特性,往往難以掌握。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是一種深度學(xué)習(xí)模型,專門用于處理和分析視覺數(shù)據(jù),在圖像識別、目標(biāo)檢測等任務(wù)中表現(xiàn)尤為出色。

然而,CNN的架構(gòu)因其固有的復(fù)雜性和快速演進(jìn)的特性,往往難以掌握。

在本文中,將詳細(xì)介紹標(biāo)準(zhǔn)CNN架構(gòu)及CNN家族中的各類模型,并拆解其核心組成部分,包括:

  • 卷積層
  • 池化層
  • 全連接層

同時講解步長(stride)、卷積核(kernel)、池化(pooling)等關(guān)鍵概念。

什么是卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)(CNN) 是一種特殊類型的神經(jīng)網(wǎng)絡(luò),其設(shè)計靈感來源于人類大腦的視覺皮層。

與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)將圖像視為扁平像素數(shù)組的處理方式不同,CNN采用分層結(jié)構(gòu),通過學(xué)習(xí)從邊緣、曲線等簡單模式到復(fù)雜物體、紋理的特征,逐步構(gòu)建對視覺數(shù)據(jù)的理解。

其核心功能是通過多層帶神經(jīng)元的網(wǎng)絡(luò)結(jié)構(gòu),自適應(yīng)地從輸入數(shù)據(jù)中學(xué)習(xí)空間特征層次。

下圖展示了標(biāo)準(zhǔn)CNN架構(gòu)在圖像分類任務(wù)中的工作流程:

圖A: 標(biāo)準(zhǔn)CNN架構(gòu)圖A: 標(biāo)準(zhǔn)CNN架構(gòu)

CNN的架構(gòu)由一系列圖層組成,每個圖層執(zhí)行特定操作以提取和轉(zhuǎn)換特征。

在下一部分中,將從“卷積塊”開始講解——卷積塊是CNN中用于從輸入圖像中檢測獨(dú)特特征的核心組件。

卷積塊

卷積塊(Convolutional Block)是CNN的基礎(chǔ)構(gòu)建單元,由一組用于從輸入數(shù)據(jù)中提取特征的圖層組成。

圖A所示,這些卷積塊相互堆疊,構(gòu)成CNN架構(gòu)的核心部分。

下圖詳細(xì)展示了一個標(biāo)準(zhǔn)卷積塊的結(jié)構(gòu),包含1個卷積層(橙色區(qū)域)和1個池化層(綠色區(qū)域):

圖B_含單個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)圖B_含單個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)

盡管不同CNN架構(gòu)中卷積塊的具體圖層可能存在差異,但標(biāo)準(zhǔn)卷積塊通常包含:

  • 1個或多個卷積層
  • 1個池化層

卷積層

卷積層是卷積塊的核心,負(fù)責(zé)檢測輸入數(shù)據(jù)中的特定特征。

圖B所示,卷積層的架構(gòu)包含濾波器(filter) 、批量歸一化(batch normalization) 和非線性激活函數(shù)(non-linear activation) 三個部分。

其中,濾波器由多個卷積核(kernel,即小型數(shù)值矩陣) 組成,通過執(zhí)行卷積運(yùn)算(convolutional operation) ,將輸入數(shù)據(jù)中的特定特征突出顯示為特征圖(feature maps) 。

隨后,卷積層對這些特征圖應(yīng)用批量歸一化和非線性激活函數(shù),再將處理后的結(jié)果傳遞給池化層。

卷積運(yùn)算

卷積運(yùn)算是一個“元素級乘法-求和”過程,幫助網(wǎng)絡(luò)識別邊緣、紋理、形狀等特征。

圖B中的架構(gòu)使用了含3個3×3卷積核的單個濾波器——這是因為輸入數(shù)據(jù)具有3個深度維度(深度維度數(shù)量與卷積核數(shù)量必須保持一致)。

每個3×3卷積核包含9個權(quán)重矩陣作為其參數(shù),因此:

  • 單個卷積核的參數(shù)數(shù)量:9個權(quán)重
  • 單個濾波器的參數(shù)數(shù)量:3個卷積核 × 9個權(quán)重 = 27個權(quán)重 + 1個偏置項(bias term)= 共28個可學(xué)習(xí)模型參數(shù)

這些模型參數(shù)會在訓(xùn)練過程中不斷優(yōu)化。

濾波器

濾波器由卷積核組成,濾波器的數(shù)量直接影響輸出特征圖的深度。

例如,2個不同的濾波器會生成2個不同的特征圖,最終形成深度為2的輸出:

圖C. 含兩個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)圖C. 含兩個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)

圖C中,由于卷積層使用了2個濾波器,生成了2個特征圖,因此池化層最終輸出2個激活圖(activation maps) 。

每個激活圖中都包含高度激活的神經(jīng)元(圖C中的粉色單元格),激活程度取決于該激活圖所捕捉的特征類型。

由此可見,使用更多濾波器能讓網(wǎng)絡(luò)從輸入數(shù)據(jù)中捕捉更多樣化的特征,這對于識別現(xiàn)實(shí)世界物體等變異性較高的任務(wù)尤為適用。

但另一方面,增加濾波器數(shù)量會顯著增加可學(xué)習(xí)模型參數(shù)的數(shù)量:

  • 圖B(1個濾波器) :每個卷積層含28個參數(shù)
  • 圖C(2個濾波器) :每個卷積層含56個參數(shù)

參數(shù)增加會導(dǎo)致:

  1. 訓(xùn)練時間延長
  2. 內(nèi)存占用增加
  3. 過擬合(overfitting)風(fēng)險上升

因此,在CNN架構(gòu)設(shè)計中,找到“濾波器數(shù)量”與“模型性能/效率”的平衡是關(guān)鍵。

卷積運(yùn)算的數(shù)學(xué)表達(dá)式

卷積運(yùn)算的過程是:卷積核在輸入數(shù)據(jù)上滑動(或“卷積”),將卷積核中的數(shù)值與當(dāng)前覆蓋的圖像塊(image patch)的對應(yīng)像素值相乘,再將所有乘積結(jié)果求和,最終得到特征圖中的單個數(shù)值。

若將輸入數(shù)據(jù)表示為I,卷積核表示為K(其中M為卷積核的高度維度,N為寬度維度,例如圖BM=N=3),當(dāng)前像素坐標(biāo)表示為(i, j),則該過程的數(shù)學(xué)表達(dá)式為:

圖片圖片

其中:

  • (I ? K):特征圖(輸入圖像I與卷積核K通過互相關(guān)運(yùn)算(cross-correlation) 得到的卷積結(jié)果)
  • (i, j):當(dāng)前像素的坐標(biāo)
  • I:輸入數(shù)據(jù)(矩陣),I(i, j)表示第i行、第j列像素的數(shù)值
  • K:卷積核矩陣(維度為M×N
  • K(m, n):卷積核第m行、第n列的權(quán)重值(對應(yīng)圖B中的w?w?

例如,下圖展示了使用索貝爾卷積核(sobel kernel) (一種二維卷積核)執(zhí)行的卷積運(yùn)算:

圖D 索貝爾卷積核的卷積運(yùn)算過程圖D 索貝爾卷積核的卷積運(yùn)算過程

圖D中,卷積運(yùn)算首先對初始的3組坐標(biāo)(i, j)= (1, 1)(i, j) = (1, 3)執(zhí)行計算。

在實(shí)際應(yīng)用中,該過程會對輸入I中所有可能的坐標(biāo)組重復(fù)執(zhí)行,最終生成完整的特征圖。

步長(stride) 和填充(padding) 是決定卷積核需處理多少組坐標(biāo)的關(guān)鍵參數(shù)。

步長與填充

步長(stride) 指卷積核在輸入矩陣上滑動時每次移動的像素數(shù)。

圖D中,步長設(shè)置為1,即卷積核每次計算后向右移動1個像素。

盡管步長為2或更大的情況并不常見,但步長越大,最終輸出特征圖的尺寸越小。

填充(padding) 是在輸入圖像邊緣添加額外像素的技術(shù),主要用于:

  1. 保留空間維度:卷積運(yùn)算會縮小輸出特征圖的尺寸,通過在輸入圖像邊緣添加像素,可使輸出尺寸等于或大于輸入尺寸。
  2. 避免邊緣信息丟失:圖像邊緣的像素僅被卷積核處理少數(shù)幾次,而中心像素會被多次處理。填充能確保所有像素被平等處理,避免重要邊緣信息的丟失。

默認(rèn)的填充設(shè)置是有效填充(valid padding,也稱“無填充”) :不在輸入圖像邊緣添加任何像素,卷積核僅在輸入圖像的有效區(qū)域內(nèi)滑動,最終輸出尺寸小于輸入尺寸。

與之相對,零填充(zero padding) 是一種常用的填充方式,即在圖像邊緣添加數(shù)值為0的像素。

零填充的常見策略包括:

  • Same填充(Same Padding):添加恰好足夠的零像素,使輸出特征圖的尺寸與輸入完全相同。填充量會根據(jù)卷積核尺寸和步長自動計算。
  • Full填充(Full Padding):在圖像邊緣添加大量零像素,確保輸入圖像的每個像素(包括角落像素)都能成為卷積核的中心。這種方式會使輸出尺寸大于輸入尺寸。

圖D中,為簡化演示,采用了有效填充(無填充)。

若應(yīng)用零填充,輸入數(shù)據(jù)將呈現(xiàn)為圖D’ 的形式,卷積核會在這些填充區(qū)域上滑動以執(zhí)行卷積運(yùn)算:

圖D :含零填充的輸入數(shù)據(jù)圖D :含零填充的輸入數(shù)據(jù)

最后,二維卷積核生成的輸出尺寸O可通過以下公式計算:

圖片圖片

其中:

  • O:輸出特征圖的尺寸(高度或?qū)挾龋?/span>
  • n:輸入數(shù)據(jù)的尺寸(高度或?qū)挾龋?/span>
  • f:卷積核的尺寸
  • p:填充量(邊緣添加的像素數(shù))
  • s:步長

圖D’ 為例,已知參數(shù)如下:

  • n = 6(輸入尺寸)
  • f = 3(卷積核尺寸)
  • p = 0(有效填充)或p = 1(Same填充)
  • s = 1(步長)

則不同填充策略下的輸出尺寸計算如下:

  • 有效填充(p=0):O = ((6 - 3 + 0) / 1) + 1 = 4 → 小于輸入尺寸n=6
  • Same填充(p=1):O = ((6 - 3 + 2) / 1) + 1 = 6 → 等于輸入尺寸n=6
  • Full填充(p=3,此處需調(diào)整p以滿足Full填充邏輯):O = ((6 - 3 + 6) / 1) + 1 = 9 → 大于輸入尺寸n=6

這些計算結(jié)果清晰展示了填充對輸出尺寸的影響。

批量歸一化

部分卷積塊會在激活函數(shù)之前加入批量歸一化(Batch Normalization,簡稱BN)過程。

該過程對特征圖進(jìn)行歸一化處理,通過減少內(nèi)部協(xié)變量偏移(internal covariate shift) ,幫助穩(wěn)定訓(xùn)練過程。

內(nèi)部協(xié)變量偏移是指:在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,各層輸入數(shù)據(jù)的分布會發(fā)生變化。這種偏移會迫使每一層在每個訓(xùn)練周期(epoch)都重新適應(yīng)變化的輸入分布,從而減緩訓(xùn)練速度。

批量歸一化是解決這一問題的常用方案:通過將特征圖的均值調(diào)整為0、方差調(diào)整為1,使輸入分布更密集、更穩(wěn)定,進(jìn)而加速訓(xùn)練。

非線性激活函數(shù)

在卷積層運(yùn)算的最后一步,會對每個特征圖應(yīng)用非線性激活函數(shù)(non-linear activation function) 。

常用的激活函數(shù)是ReLU函數(shù)(Rectified Linear Unit),其作用是返回輸入值(神經(jīng)元的加權(quán)和與偏置之和,記為x)與0中的較大值,公式如下:

圖片圖片

該過程為網(wǎng)絡(luò)引入了非線性特性,使其能夠?qū)W習(xí)復(fù)雜的特征模式。

池化層

池化層(Pooling Layer) 通過縮小特征圖的空間維度,對特征圖進(jìn)行下采樣(downsample),最終生成激活圖。

池化層的主要作用包括:

  1. 降低計算負(fù)荷:縮小特征圖尺寸,減少后續(xù)圖層的參數(shù)數(shù)量和計算量。
  2. 實(shí)現(xiàn)平移不變性(translation invariance):使網(wǎng)絡(luò)對輸入特征的位置偏移更具魯棒性,確保即使特征位置發(fā)生微小變化,網(wǎng)絡(luò)仍能識別該特征。

池化層生成的每個激活圖,都是對卷積層處理后輸入數(shù)據(jù)特征的“總結(jié)”。

池化運(yùn)算的類型

下圖展示了多種常見的池化運(yùn)算方式:

步長時的多種池化運(yùn)算步長時的多種池化運(yùn)算

最大池化(Max Pooling)

最常用的池化方式,從指定區(qū)域中選擇激活程度最高的特征

這種方式會提取區(qū)域內(nèi)最顯著的特征,同時丟棄其他被認(rèn)為不重要的特征。

常見應(yīng)用場景

  • 大多數(shù)圖像分類任務(wù)(目標(biāo)是識別特征是否存在,而非精確位置)。

平均池化(Average Pooling)

計算池化窗口內(nèi)所有元素的平均值

與最大池化不同,平均池化會考慮區(qū)域內(nèi)的所有數(shù)值,有助于平滑特征圖、減少噪聲干擾。

常見應(yīng)用場景

  • 醫(yī)學(xué)影像分析
  • 衛(wèi)星影像處理
  • 任何需要關(guān)注區(qū)域內(nèi)特征整體分布(而非單一強(qiáng)信號)的任務(wù)。

Lp池化(Lp-Pooling)

一種廣義的池化方式,通過計算池化窗口內(nèi)數(shù)值的Lp范數(shù)(Lp norm) 實(shí)現(xiàn)下采樣,最大池化和平均池化均為其特殊情況:

  • 當(dāng)p = 1時,Lp池化等價于平均池化。
  • 當(dāng)p = ∞時,Lp池化等價于最大池化。

常見應(yīng)用場景

  • 科研領(lǐng)域中的廣義池化方案。

混合池化(Mixed Pooling)

對最大池化和平均池化的線性組合。

網(wǎng)絡(luò)可根據(jù)具體任務(wù)學(xué)習(xí)最優(yōu)的組合比例,靈活性更高。

常見應(yīng)用場景

  • 科研領(lǐng)域中的廣義池化方案。

隨機(jī)池化(Stochastic Pooling)

與確定性選擇(如最大池化選最大值、平均池化算平均值)不同,隨機(jī)池化會根據(jù)數(shù)值大小按比例隨機(jī)采樣池化窗口內(nèi)的激活值。

這種隨機(jī)性可作為一種正則化手段,幫助減少過擬合。

常見應(yīng)用場景

  • 處理小型數(shù)據(jù)集時,用于緩解過擬合的正則化方法。

全局池化(Global Pooling)

與滑動小窗口的池化方式不同,全局池化將整個特征圖總結(jié)為單個數(shù)值。

全局池化通常應(yīng)用于CNN的卷積部分末尾、全連接層之前,主要有兩種類型:

  • 全局平均池化(Global Average Pooling,GAP):計算整個特征圖所有元素的平均值。
  • 全局最大池化(Global Max Pooling,GMP):取整個特征圖的最大值。

盡管池化方式多樣,但所有池化運(yùn)算的核心目標(biāo)一致:通過下采樣縮小特征圖尺寸,降低計算負(fù)荷,同時實(shí)現(xiàn)平移不變性。

池化層的替代方案

池化層可完全由“大踏步卷積層(convolutional layers with larger stride)”替代。

例如,步長設(shè)為2的卷積層可將特征圖的空間維度縮小一半,實(shí)現(xiàn)與池化層相同的下采樣效果。

這種替代方案具有兩個顯著優(yōu)勢:

  1. 下采樣過程的最優(yōu)學(xué)習(xí):允許網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)的下采樣操作,可能構(gòu)建更具表達(dá)能力的模型,提升性能。
  2. 全程保留空間信息:大踏步卷積不會丟棄區(qū)域內(nèi)的數(shù)值,能保留更多輸入數(shù)據(jù)信息,幫助網(wǎng)絡(luò)捕捉更豐富的上下文。

尤其當(dāng)所有池化層都被大踏步卷積層替代時,會形成全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN) ——這類網(wǎng)絡(luò)能在整個訓(xùn)練和推理過程中保留空間信息。

研究表明,全卷積網(wǎng)絡(luò)更適合需要復(fù)雜上下文理解的任務(wù),例如:

  • 語義分割(semantic segmentation)
  • 異常檢測(anomaly detection)
  • 目標(biāo)檢測(object detection)
  • 圖像超分辨率(image super-resolution)

但正如圖B圖C所示,增加卷積層會導(dǎo)致可學(xué)習(xí)參數(shù)數(shù)量增加,使模型更復(fù)雜、計算成本更高。因此,在選擇方案時需權(quán)衡利弊。

全連接層(FC Layer)

全連接層(Fully Connected Layer,簡稱FC層) ,又稱密集層(Dense Layer) ,是CNN中最后的特征轉(zhuǎn)換部分——該層中每個神經(jīng)元都與前一層的所有神經(jīng)元相連。

全連接層的核心作用是:基于卷積塊提取的特征圖(即特征),做出最終決策。

卷積塊提取的特征包括邊緣、角落、紋理等局部特征,而全連接層會將這些高層抽象特征整合,用于執(zhí)行最終任務(wù),例如:

  • 分類任務(wù):在圖像分類問題中,全連接層會將扁平化后的特征圖轉(zhuǎn)換為每個類別的概率。
  • 回歸任務(wù):在回歸問題中,全連接層會輸出單個連續(xù)值。

扁平化步驟

圖A所示,在全連接層處理特征圖之前,需先將特征圖轉(zhuǎn)換為單個長一維向量(1D vector)——這一過程稱為扁平化(flattening) 。

該步驟是必要的,因為全連接層僅接受一維向量作為輸入。

扁平化后的向量將作為第一層全連接層的輸入,隨后依次傳遞給后續(xù)全連接層進(jìn)行處理。

注意事項

全連接層擅長學(xué)習(xí)特征間的全局模式和關(guān)聯(lián),因此在最終決策步驟中表現(xiàn)出色。

但全連接層的參數(shù)數(shù)量極大:由于每個神經(jīng)元都與前一層所有神經(jīng)元相連,權(quán)重數(shù)量會迅速增加。

這會導(dǎo)致兩個問題:

  1. 模型過擬合風(fēng)險上升
  2. 計算成本增加

為緩解這些問題,通常會采用 dropout 等正則化技術(shù)。

輸出層

CNN中的輸出層(Output Layer) 是生成網(wǎng)絡(luò)最終輸出的關(guān)鍵層。

輸出層會接收卷積塊和全連接層傳遞的高層抽象特征,并將其轉(zhuǎn)換為最終的輸出形式。

圖A所示,在分類任務(wù)中,輸出層會對輸入應(yīng)用softmax激活函數(shù),生成預(yù)設(shè)類別的概率分布(例如鳥類、獅子、貓)。

Softmax函數(shù)能確保所有類別的輸出概率之和為1,使結(jié)果可直接解釋為類別概率。

在回歸任務(wù)中,輸出層通常包含1個或多個神經(jīng)元,采用線性激活函數(shù)(或無激活函數(shù)),輸出連續(xù)值。

以上就是CNN架構(gòu)的完整介紹。

當(dāng)卷積層提取完特征層次后,CNN的架構(gòu)會過渡到與標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)(feedforward network)類似的結(jié)構(gòu)。

在訓(xùn)練過程中,全連接層和卷積核的權(quán)重、偏置等可學(xué)習(xí)模型參數(shù),會通過反向傳播(backpropagation)算法不斷優(yōu)化。

卷積神經(jīng)網(wǎng)絡(luò)的類型

為應(yīng)對不同任務(wù)挑戰(zhàn),研究者開發(fā)了多種CNN架構(gòu)。

首先,根據(jù)卷積核的維度,CNN可分為三類:

  • 一維CNN(1D CNNs)
  • 二維CNN(2D CNNs,最常見的CNN類型,如圖C中使用的索貝爾卷積核)
  • 三維CNN(3D CNNs)

下面將分別介紹這三類CNN。

一維CNN(1D CNNs)

一維CNN適用于序列數(shù)據(jù)(如時間序列分析、自然語言處理),其濾波器僅沿序列的一個維度滑動。

常見應(yīng)用場景

  • 文本、音頻、傳感器數(shù)據(jù)等序列數(shù)據(jù)的分析與特征提取。

缺點(diǎn)

  • 不適用于需要從圖像或視頻中提取空間特征的任務(wù)——因為一維CNN僅考慮輸入數(shù)據(jù)的一個維度。

二維CNN(2D CNNs)

二維CNN是處理圖像和視頻數(shù)據(jù)的標(biāo)準(zhǔn)類型。

如前所述,其濾波器在二維平面上滑動,捕捉空間特征,因此能高效學(xué)習(xí)空間特征層次。

常見應(yīng)用場景

  • 圖像分類、目標(biāo)檢測等涉及靜態(tài)視覺數(shù)據(jù)的任務(wù)。

缺點(diǎn)

  • 不適用于體積數(shù)據(jù)(volumetric data)或具有強(qiáng)時間相關(guān)性的序列數(shù)據(jù)。

主要的二維CNN模型

以下是幾種典型的二維CNN架構(gòu)模型:

LeNet-5

  • 手寫數(shù)字識別領(lǐng)域的開創(chuàng)性模型。
  • 適用場景:作為簡單圖像分類任務(wù)(低分辨率圖像)的基礎(chǔ)模型。
  • 缺點(diǎn):深度和容量有限,不適用于復(fù)雜、高分辨率圖像任務(wù)。

LeNet架構(gòu)LeNet架構(gòu)

AlexNet

  • 比LeNet-5更深、更寬,是推動深度學(xué)習(xí)普及的關(guān)鍵模型。
  • 適用場景:作為比LeNet更強(qiáng)的圖像分類基準(zhǔn)模型,適用于較大數(shù)據(jù)集。
  • 缺點(diǎn):以當(dāng)前標(biāo)準(zhǔn)來看架構(gòu)較淺;使用的大尺寸卷積核(11×11、5×5)效率較低。

AlexNet架構(gòu)AlexNet架構(gòu)

VGGNet

  • 架構(gòu)簡潔統(tǒng)一,通過使用小尺寸(3×3)卷積核增加網(wǎng)絡(luò)深度。
  • 適用場景:作為其他模型的特征提取器(架構(gòu)魯棒且易于理解)。
  • 缺點(diǎn):參數(shù)數(shù)量大、內(nèi)存消耗高,導(dǎo)致訓(xùn)練和部署速度慢。

VGGNet架構(gòu)VGGNet架構(gòu)

GoogLeNet

  • 深度網(wǎng)絡(luò),參數(shù)數(shù)量較少——核心創(chuàng)新是“ inception模塊(inception module)”:該模塊允許網(wǎng)絡(luò)在單個圖層內(nèi)自主選擇卷積核尺寸和池化操作。
  • 適用場景:需要高性能且計算高效的模型的任務(wù)。
  • 缺點(diǎn):架構(gòu)復(fù)雜,理解和實(shí)現(xiàn)難度較高。

GoogLeNet架構(gòu)GoogLeNet架構(gòu)

ResNet(殘差網(wǎng)絡(luò),Residual Network)

  • 突破性模型,解決了極深網(wǎng)絡(luò)中的梯度消失(vanishing gradient)問題。
  • 適用場景:任何需要訓(xùn)練極深網(wǎng)絡(luò)的視覺任務(wù)——其殘差連接(residual connections)可防止網(wǎng)絡(luò)深度增加時性能下降。
  • 缺點(diǎn):網(wǎng)絡(luò)深度仍可能導(dǎo)致訓(xùn)練時間較長(盡管比同等深度的非殘差網(wǎng)絡(luò)更易訓(xùn)練)。

ResNet架構(gòu)ResNet架構(gòu)

DenseNet(密集連接網(wǎng)絡(luò),Densely Connected Network)

  • 核心特點(diǎn)是“密集連接”:每個圖層都與前向傳播路徑中的所有其他圖層相連。
  • 適用場景:內(nèi)存和計算資源有限的任務(wù)。
  • 缺點(diǎn):密集連接會導(dǎo)致特征圖數(shù)量龐大,內(nèi)存消耗較高。

DenseNet架構(gòu)DenseNet架構(gòu)

三維CNN(3D CNNs)

三維CNN適用于體積數(shù)據(jù),如醫(yī)學(xué)影像(MRI、CT掃描)或視頻分類。

其濾波器在三維空間中運(yùn)算,可同時捕捉空間和時間信息。

常見應(yīng)用場景

  • 需同時考慮空間和時間特征進(jìn)行分類的三維數(shù)據(jù)任務(wù)。

缺點(diǎn)

  • 計算成本高。
  • 由于參數(shù)數(shù)量大,需要大量訓(xùn)練數(shù)據(jù)。

主要模型

  • DenseNet:盡管DenseNet的常見實(shí)現(xiàn)是針對二維卷積,但“密集塊(dense blocks)”的核心原理可擴(kuò)展到三維卷積,適用于醫(yī)學(xué)影像、視頻分析等領(lǐng)域。
責(zé)任編輯:武曉燕 來源: AIGC深一度
相關(guān)推薦

2011-01-04 09:20:00

2009-01-11 09:23:00

2010-10-19 14:57:25

谷歌云計算

2017-05-15 10:30:00

大數(shù)據(jù)數(shù)據(jù)化運(yùn)營應(yīng)用

2022-05-15 23:32:00

元宇宙虛擬世界科技

2009-03-16 12:10:02

Windows 7微軟對比

2018-08-06 09:40:22

2025-03-24 00:25:00

Go語言并發(fā)編程

2024-07-04 08:23:55

2010-05-06 09:45:18

Linux虛擬化

2010-02-04 09:57:40

FedoraUbuntu

2015-09-09 16:23:58

蘋果核心產(chǎn)品

2010-08-31 14:01:48

CSS

2025-02-24 14:31:36

2022-06-30 14:40:08

開發(fā)邊緣編碼

2020-11-06 11:16:07

網(wǎng)絡(luò)安全安全威脅網(wǎng)絡(luò)攻擊

2022-02-07 07:48:17

MyBatisJavaORM

2023-09-08 00:04:40

2024-05-30 07:41:22

2023-10-18 10:48:44

Python解釋器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號