偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="f9yaf"></pre>

<menuitem id="f9yaf"><delect id="f9yaf"></delect></menuitem>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

15 分鐘吃透核心：卷積 / 池化 / 全連接 + 六大經(jīng)典模型對比

2025-09-26 09:08:27

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）是一種深度學(xué)習(xí)模型，專門用于處理和分析視覺數(shù)據(jù)，在圖像識別、目標(biāo)檢測等任務(wù)中表現(xiàn)尤為出色。然而，CNN的架構(gòu)因其固有的復(fù)雜性和快速演進(jìn)的特性，往往難以掌握。

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）是一種深度學(xué)習(xí)模型，專門用于處理和分析視覺數(shù)據(jù)，在圖像識別、目標(biāo)檢測等任務(wù)中表現(xiàn)尤為出色。

然而，CNN的架構(gòu)因其固有的復(fù)雜性和快速演進(jìn)的特性，往往難以掌握。

在本文中，將詳細(xì)介紹標(biāo)準(zhǔn)CNN架構(gòu)及CNN家族中的各類模型，并拆解其核心組成部分，包括：

卷積層
池化層
全連接層

同時講解步長（stride）、卷積核（kernel）、池化（pooling）等關(guān)鍵概念。

什么是卷積神經(jīng)網(wǎng)絡(luò)（CNN）

卷積神經(jīng)網(wǎng)絡(luò)（CNN） 是一種特殊類型的神經(jīng)網(wǎng)絡(luò)，其設(shè)計靈感來源于人類大腦的視覺皮層。

與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)將圖像視為扁平像素數(shù)組的處理方式不同，CNN采用分層結(jié)構(gòu)，通過學(xué)習(xí)從邊緣、曲線等簡單模式到復(fù)雜物體、紋理的特征，逐步構(gòu)建對視覺數(shù)據(jù)的理解。

其核心功能是通過多層帶神經(jīng)元的網(wǎng)絡(luò)結(jié)構(gòu)，自適應(yīng)地從輸入數(shù)據(jù)中學(xué)習(xí)空間特征層次。

下圖展示了標(biāo)準(zhǔn)CNN架構(gòu)在圖像分類任務(wù)中的工作流程：

圖A: 標(biāo)準(zhǔn)CNN架構(gòu)

CNN的架構(gòu)由一系列圖層組成，每個圖層執(zhí)行特定操作以提取和轉(zhuǎn)換特征。

在下一部分中，將從“卷積塊”開始講解——卷積塊是CNN中用于從輸入圖像中檢測獨(dú)特特征的核心組件。

卷積塊

卷積塊（Convolutional Block）是CNN的基礎(chǔ)構(gòu)建單元，由一組用于從輸入數(shù)據(jù)中提取特征的圖層組成。

如圖A所示，這些卷積塊相互堆疊，構(gòu)成CNN架構(gòu)的核心部分。

下圖詳細(xì)展示了一個標(biāo)準(zhǔn)卷積塊的結(jié)構(gòu)，包含1個卷積層（橙色區(qū)域）和1個池化層（綠色區(qū)域）：

圖B_含單個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)

盡管不同CNN架構(gòu)中卷積塊的具體圖層可能存在差異，但標(biāo)準(zhǔn)卷積塊通常包含：

1個或多個卷積層
1個池化層

卷積層

卷積層是卷積塊的核心，負(fù)責(zé)檢測輸入數(shù)據(jù)中的特定特征。

如圖B所示，卷積層的架構(gòu)包含濾波器（filter） 、批量歸一化（batch normalization） 和非線性激活函數(shù)（non-linear activation） 三個部分。

其中，濾波器由多個卷積核（kernel，即小型數(shù)值矩陣） 組成，通過執(zhí)行卷積運(yùn)算（convolutional operation） ，將輸入數(shù)據(jù)中的特定特征突出顯示為特征圖（feature maps） 。

隨后，卷積層對這些特征圖應(yīng)用批量歸一化和非線性激活函數(shù)，再將處理后的結(jié)果傳遞給池化層。

卷積運(yùn)算

卷積運(yùn)算是一個“元素級乘法-求和”過程，幫助網(wǎng)絡(luò)識別邊緣、紋理、形狀等特征。

圖B中的架構(gòu)使用了含3個3×3卷積核的單個濾波器——這是因為輸入數(shù)據(jù)具有3個深度維度（深度維度數(shù)量與卷積核數(shù)量必須保持一致）。

每個3×3卷積核包含9個權(quán)重矩陣作為其參數(shù)，因此：

單個卷積核的參數(shù)數(shù)量：9個權(quán)重
單個濾波器的參數(shù)數(shù)量：3個卷積核 × 9個權(quán)重 = 27個權(quán)重 + 1個偏置項（bias term）= 共28個可學(xué)習(xí)模型參數(shù)

這些模型參數(shù)會在訓(xùn)練過程中不斷優(yōu)化。

濾波器

濾波器由卷積核組成，濾波器的數(shù)量直接影響輸出特征圖的深度。

例如，2個不同的濾波器會生成2個不同的特征圖，最終形成深度為2的輸出：

圖C. 含兩個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)

在圖C中，由于卷積層使用了2個濾波器，生成了2個特征圖，因此池化層最終輸出2個激活圖（activation maps） 。

每個激活圖中都包含高度激活的神經(jīng)元（圖C中的粉色單元格），激活程度取決于該激活圖所捕捉的特征類型。

由此可見，使用更多濾波器能讓網(wǎng)絡(luò)從輸入數(shù)據(jù)中捕捉更多樣化的特征，這對于識別現(xiàn)實(shí)世界物體等變異性較高的任務(wù)尤為適用。

但另一方面，增加濾波器數(shù)量會顯著增加可學(xué)習(xí)模型參數(shù)的數(shù)量：

圖B（1個濾波器） ：每個卷積層含28個參數(shù)
圖C（2個濾波器） ：每個卷積層含56個參數(shù)

參數(shù)增加會導(dǎo)致：

訓(xùn)練時間延長
內(nèi)存占用增加
過擬合（overfitting）風(fēng)險上升

因此，在CNN架構(gòu)設(shè)計中，找到“濾波器數(shù)量”與“模型性能/效率”的平衡是關(guān)鍵。

卷積運(yùn)算的數(shù)學(xué)表達(dá)式

卷積運(yùn)算的過程是：卷積核在輸入數(shù)據(jù)上滑動（或“卷積”），將卷積核中的數(shù)值與當(dāng)前覆蓋的圖像塊（image patch）的對應(yīng)像素值相乘，再將所有乘積結(jié)果求和，最終得到特征圖中的單個數(shù)值。

若將輸入數(shù)據(jù)表示為I，卷積核表示為K（其中M為卷積核的高度維度，N為寬度維度，例如圖B中M=N=3），當(dāng)前像素坐標(biāo)表示為(i, j)，則該過程的數(shù)學(xué)表達(dá)式為：

圖片

其中：

(I ? K)：特征圖（輸入圖像I與卷積核K通過互相關(guān)運(yùn)算（cross-correlation） 得到的卷積結(jié)果）
(i, j)：當(dāng)前像素的坐標(biāo)
I：輸入數(shù)據(jù)（矩陣），I(i, j)表示第i行、第j列像素的數(shù)值
K：卷積核矩陣（維度為M×N）
K(m, n)：卷積核第m行、第n列的權(quán)重值（對應(yīng)圖B中的w?至w?）

例如，下圖展示了使用索貝爾卷積核（sobel kernel） （一種二維卷積核）執(zhí)行的卷積運(yùn)算：

圖D 索貝爾卷積核的卷積運(yùn)算過程

在圖D中，卷積運(yùn)算首先對初始的3組坐標(biāo)(i, j)= (1, 1)至(i, j) = (1, 3)執(zhí)行計算。

在實(shí)際應(yīng)用中，該過程會對輸入I中所有可能的坐標(biāo)組重復(fù)執(zhí)行，最終生成完整的特征圖。

步長（stride） 和填充（padding） 是決定卷積核需處理多少組坐標(biāo)的關(guān)鍵參數(shù)。

步長與填充

步長（stride） 指卷積核在輸入矩陣上滑動時每次移動的像素數(shù)。

在圖D中，步長設(shè)置為1，即卷積核每次計算后向右移動1個像素。

盡管步長為2或更大的情況并不常見，但步長越大，最終輸出特征圖的尺寸越小。

填充（padding） 是在輸入圖像邊緣添加額外像素的技術(shù)，主要用于：

保留空間維度：卷積運(yùn)算會縮小輸出特征圖的尺寸，通過在輸入圖像邊緣添加像素，可使輸出尺寸等于或大于輸入尺寸。
避免邊緣信息丟失：圖像邊緣的像素僅被卷積核處理少數(shù)幾次，而中心像素會被多次處理。填充能確保所有像素被平等處理，避免重要邊緣信息的丟失。

默認(rèn)的填充設(shè)置是有效填充（valid padding，也稱“無填充”） ：不在輸入圖像邊緣添加任何像素，卷積核僅在輸入圖像的有效區(qū)域內(nèi)滑動，最終輸出尺寸小于輸入尺寸。

與之相對，零填充（zero padding） 是一種常用的填充方式，即在圖像邊緣添加數(shù)值為0的像素。

零填充的常見策略包括：

Same填充（Same Padding）：添加恰好足夠的零像素，使輸出特征圖的尺寸與輸入完全相同。填充量會根據(jù)卷積核尺寸和步長自動計算。
Full填充（Full Padding）：在圖像邊緣添加大量零像素，確保輸入圖像的每個像素（包括角落像素）都能成為卷積核的中心。這種方式會使輸出尺寸大于輸入尺寸。

在圖D中，為簡化演示，采用了有效填充（無填充）。

若應(yīng)用零填充，輸入數(shù)據(jù)將呈現(xiàn)為圖D’ 的形式，卷積核會在這些填充區(qū)域上滑動以執(zhí)行卷積運(yùn)算：

圖D ：含零填充的輸入數(shù)據(jù)

最后，二維卷積核生成的輸出尺寸O可通過以下公式計算：

圖片

其中：

O：輸出特征圖的尺寸（高度或?qū)挾龋?/span>
n：輸入數(shù)據(jù)的尺寸（高度或?qū)挾龋?/span>
f：卷積核的尺寸
p：填充量（邊緣添加的像素數(shù)）
s：步長

以圖D’ 為例，已知參數(shù)如下：

n = 6（輸入尺寸）
f = 3（卷積核尺寸）
p = 0（有效填充）或p = 1（Same填充）
s = 1（步長）

則不同填充策略下的輸出尺寸計算如下：

有效填充（p=0）：O = ((6 - 3 + 0) / 1) + 1 = 4 → 小于輸入尺寸n=6
Same填充（p=1）：O = ((6 - 3 + 2) / 1) + 1 = 6 → 等于輸入尺寸n=6
Full填充（p=3，此處需調(diào)整p以滿足Full填充邏輯）：O = ((6 - 3 + 6) / 1) + 1 = 9 → 大于輸入尺寸n=6

這些計算結(jié)果清晰展示了填充對輸出尺寸的影響。

批量歸一化

部分卷積塊會在激活函數(shù)之前加入批量歸一化（Batch Normalization，簡稱BN）過程。

該過程對特征圖進(jìn)行歸一化處理，通過減少內(nèi)部協(xié)變量偏移（internal covariate shift） ，幫助穩(wěn)定訓(xùn)練過程。

內(nèi)部協(xié)變量偏移是指：在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，各層輸入數(shù)據(jù)的分布會發(fā)生變化。這種偏移會迫使每一層在每個訓(xùn)練周期（epoch）都重新適應(yīng)變化的輸入分布，從而減緩訓(xùn)練速度。

批量歸一化是解決這一問題的常用方案：通過將特征圖的均值調(diào)整為0、方差調(diào)整為1，使輸入分布更密集、更穩(wěn)定，進(jìn)而加速訓(xùn)練。

非線性激活函數(shù)

在卷積層運(yùn)算的最后一步，會對每個特征圖應(yīng)用非線性激活函數(shù)（non-linear activation function） 。

常用的激活函數(shù)是ReLU函數(shù)（Rectified Linear Unit），其作用是返回輸入值（神經(jīng)元的加權(quán)和與偏置之和，記為x）與0中的較大值，公式如下：

圖片

該過程為網(wǎng)絡(luò)引入了非線性特性，使其能夠?qū)W習(xí)復(fù)雜的特征模式。

池化層

池化層（Pooling Layer） 通過縮小特征圖的空間維度，對特征圖進(jìn)行下采樣（downsample），最終生成激活圖。

池化層的主要作用包括：

降低計算負(fù)荷：縮小特征圖尺寸，減少后續(xù)圖層的參數(shù)數(shù)量和計算量。
實(shí)現(xiàn)平移不變性（translation invariance）：使網(wǎng)絡(luò)對輸入特征的位置偏移更具魯棒性，確保即使特征位置發(fā)生微小變化，網(wǎng)絡(luò)仍能識別該特征。

池化層生成的每個激活圖，都是對卷積層處理后輸入數(shù)據(jù)特征的“總結(jié)”。

池化運(yùn)算的類型

下圖展示了多種常見的池化運(yùn)算方式：

步長時的多種池化運(yùn)算

最大池化（Max Pooling）

最常用的池化方式，從指定區(qū)域中選擇激活程度最高的特征。

這種方式會提取區(qū)域內(nèi)最顯著的特征，同時丟棄其他被認(rèn)為不重要的特征。

常見應(yīng)用場景：

大多數(shù)圖像分類任務(wù)（目標(biāo)是識別特征是否存在，而非精確位置）。

平均池化（Average Pooling）

計算池化窗口內(nèi)所有元素的平均值。

與最大池化不同，平均池化會考慮區(qū)域內(nèi)的所有數(shù)值，有助于平滑特征圖、減少噪聲干擾。

常見應(yīng)用場景：

醫(yī)學(xué)影像分析
衛(wèi)星影像處理
任何需要關(guān)注區(qū)域內(nèi)特征整體分布（而非單一強(qiáng)信號）的任務(wù)。

Lp池化（Lp-Pooling）

一種廣義的池化方式，通過計算池化窗口內(nèi)數(shù)值的Lp范數(shù)（Lp norm） 實(shí)現(xiàn)下采樣，最大池化和平均池化均為其特殊情況：

當(dāng)p = 1時，Lp池化等價于平均池化。
當(dāng)p = ∞時，Lp池化等價于最大池化。

常見應(yīng)用場景：

科研領(lǐng)域中的廣義池化方案。

混合池化（Mixed Pooling）

對最大池化和平均池化的線性組合。

網(wǎng)絡(luò)可根據(jù)具體任務(wù)學(xué)習(xí)最優(yōu)的組合比例，靈活性更高。

常見應(yīng)用場景：

科研領(lǐng)域中的廣義池化方案。

隨機(jī)池化（Stochastic Pooling）

與確定性選擇（如最大池化選最大值、平均池化算平均值）不同，隨機(jī)池化會根據(jù)數(shù)值大小按比例隨機(jī)采樣池化窗口內(nèi)的激活值。

這種隨機(jī)性可作為一種正則化手段，幫助減少過擬合。

常見應(yīng)用場景：

處理小型數(shù)據(jù)集時，用于緩解過擬合的正則化方法。

全局池化（Global Pooling）

與滑動小窗口的池化方式不同，全局池化將整個特征圖總結(jié)為單個數(shù)值。

全局池化通常應(yīng)用于CNN的卷積部分末尾、全連接層之前，主要有兩種類型：

全局平均池化（Global Average Pooling，GAP）：計算整個特征圖所有元素的平均值。
全局最大池化（Global Max Pooling，GMP）：取整個特征圖的最大值。

盡管池化方式多樣，但所有池化運(yùn)算的核心目標(biāo)一致：通過下采樣縮小特征圖尺寸，降低計算負(fù)荷，同時實(shí)現(xiàn)平移不變性。

池化層的替代方案

池化層可完全由“大踏步卷積層（convolutional layers with larger stride）”替代。

例如，步長設(shè)為2的卷積層可將特征圖的空間維度縮小一半，實(shí)現(xiàn)與池化層相同的下采樣效果。

這種替代方案具有兩個顯著優(yōu)勢：

下采樣過程的最優(yōu)學(xué)習(xí)：允許網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)的下采樣操作，可能構(gòu)建更具表達(dá)能力的模型，提升性能。
全程保留空間信息：大踏步卷積不會丟棄區(qū)域內(nèi)的數(shù)值，能保留更多輸入數(shù)據(jù)信息，幫助網(wǎng)絡(luò)捕捉更豐富的上下文。

尤其當(dāng)所有池化層都被大踏步卷積層替代時，會形成全卷積網(wǎng)絡(luò)（Fully Convolutional Network，F(xiàn)CN） ——這類網(wǎng)絡(luò)能在整個訓(xùn)練和推理過程中保留空間信息。

研究表明，全卷積網(wǎng)絡(luò)更適合需要復(fù)雜上下文理解的任務(wù)，例如：

語義分割（semantic segmentation）
異常檢測（anomaly detection）
目標(biāo)檢測（object detection）
圖像超分辨率（image super-resolution）

但正如圖B和圖C所示，增加卷積層會導(dǎo)致可學(xué)習(xí)參數(shù)數(shù)量增加，使模型更復(fù)雜、計算成本更高。因此，在選擇方案時需權(quán)衡利弊。

全連接層（FC Layer）

全連接層（Fully Connected Layer，簡稱FC層） ，又稱密集層（Dense Layer） ，是CNN中最后的特征轉(zhuǎn)換部分——該層中每個神經(jīng)元都與前一層的所有神經(jīng)元相連。

全連接層的核心作用是：基于卷積塊提取的特征圖（即特征），做出最終決策。

卷積塊提取的特征包括邊緣、角落、紋理等局部特征，而全連接層會將這些高層抽象特征整合，用于執(zhí)行最終任務(wù)，例如：

分類任務(wù)：在圖像分類問題中，全連接層會將扁平化后的特征圖轉(zhuǎn)換為每個類別的概率。
回歸任務(wù)：在回歸問題中，全連接層會輸出單個連續(xù)值。

扁平化步驟

如圖A所示，在全連接層處理特征圖之前，需先將特征圖轉(zhuǎn)換為單個長一維向量（1D vector）——這一過程稱為扁平化（flattening） 。

該步驟是必要的，因為全連接層僅接受一維向量作為輸入。

扁平化后的向量將作為第一層全連接層的輸入，隨后依次傳遞給后續(xù)全連接層進(jìn)行處理。

注意事項

全連接層擅長學(xué)習(xí)特征間的全局模式和關(guān)聯(lián)，因此在最終決策步驟中表現(xiàn)出色。

但全連接層的參數(shù)數(shù)量極大：由于每個神經(jīng)元都與前一層所有神經(jīng)元相連，權(quán)重數(shù)量會迅速增加。

這會導(dǎo)致兩個問題：

模型過擬合風(fēng)險上升
計算成本增加

為緩解這些問題，通常會采用 dropout 等正則化技術(shù)。

輸出層

CNN中的輸出層（Output Layer） 是生成網(wǎng)絡(luò)最終輸出的關(guān)鍵層。

輸出層會接收卷積塊和全連接層傳遞的高層抽象特征，并將其轉(zhuǎn)換為最終的輸出形式。

如圖A所示，在分類任務(wù)中，輸出層會對輸入應(yīng)用softmax激活函數(shù)，生成預(yù)設(shè)類別的概率分布（例如鳥類、獅子、貓）。

Softmax函數(shù)能確保所有類別的輸出概率之和為1，使結(jié)果可直接解釋為類別概率。

在回歸任務(wù)中，輸出層通常包含1個或多個神經(jīng)元，采用線性激活函數(shù)（或無激活函數(shù)），輸出連續(xù)值。

以上就是CNN架構(gòu)的完整介紹。

當(dāng)卷積層提取完特征層次后，CNN的架構(gòu)會過渡到與標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)（feedforward network）類似的結(jié)構(gòu)。

在訓(xùn)練過程中，全連接層和卷積核的權(quán)重、偏置等可學(xué)習(xí)模型參數(shù)，會通過反向傳播（backpropagation）算法不斷優(yōu)化。

卷積神經(jīng)網(wǎng)絡(luò)的類型

為應(yīng)對不同任務(wù)挑戰(zhàn)，研究者開發(fā)了多種CNN架構(gòu)。

首先，根據(jù)卷積核的維度，CNN可分為三類：

一維CNN（1D CNNs）
二維CNN（2D CNNs，最常見的CNN類型，如圖C中使用的索貝爾卷積核）
三維CNN（3D CNNs）

下面將分別介紹這三類CNN。

一維CNN（1D CNNs）

一維CNN適用于序列數(shù)據(jù)（如時間序列分析、自然語言處理），其濾波器僅沿序列的一個維度滑動。

常見應(yīng)用場景：

文本、音頻、傳感器數(shù)據(jù)等序列數(shù)據(jù)的分析與特征提取。

缺點(diǎn)：

不適用于需要從圖像或視頻中提取空間特征的任務(wù)——因為一維CNN僅考慮輸入數(shù)據(jù)的一個維度。

二維CNN（2D CNNs）

二維CNN是處理圖像和視頻數(shù)據(jù)的標(biāo)準(zhǔn)類型。

如前所述，其濾波器在二維平面上滑動，捕捉空間特征，因此能高效學(xué)習(xí)空間特征層次。

常見應(yīng)用場景：

圖像分類、目標(biāo)檢測等涉及靜態(tài)視覺數(shù)據(jù)的任務(wù)。

缺點(diǎn)：

不適用于體積數(shù)據(jù)（volumetric data）或具有強(qiáng)時間相關(guān)性的序列數(shù)據(jù)。

主要的二維CNN模型

以下是幾種典型的二維CNN架構(gòu)模型：

LeNet-5

手寫數(shù)字識別領(lǐng)域的開創(chuàng)性模型。
適用場景：作為簡單圖像分類任務(wù)（低分辨率圖像）的基礎(chǔ)模型。
缺點(diǎn)：深度和容量有限，不適用于復(fù)雜、高分辨率圖像任務(wù)。

LeNet架構(gòu)

AlexNet

比LeNet-5更深、更寬，是推動深度學(xué)習(xí)普及的關(guān)鍵模型。
適用場景：作為比LeNet更強(qiáng)的圖像分類基準(zhǔn)模型，適用于較大數(shù)據(jù)集。
缺點(diǎn)：以當(dāng)前標(biāo)準(zhǔn)來看架構(gòu)較淺；使用的大尺寸卷積核（11×11、5×5）效率較低。

AlexNet架構(gòu)

VGGNet

架構(gòu)簡潔統(tǒng)一，通過使用小尺寸（3×3）卷積核增加網(wǎng)絡(luò)深度。
適用場景：作為其他模型的特征提取器（架構(gòu)魯棒且易于理解）。
缺點(diǎn)：參數(shù)數(shù)量大、內(nèi)存消耗高，導(dǎo)致訓(xùn)練和部署速度慢。

VGGNet架構(gòu)

GoogLeNet

深度網(wǎng)絡(luò)，參數(shù)數(shù)量較少——核心創(chuàng)新是“ inception模塊（inception module）”：該模塊允許網(wǎng)絡(luò)在單個圖層內(nèi)自主選擇卷積核尺寸和池化操作。
適用場景：需要高性能且計算高效的模型的任務(wù)。
缺點(diǎn)：架構(gòu)復(fù)雜，理解和實(shí)現(xiàn)難度較高。

GoogLeNet架構(gòu)

ResNet（殘差網(wǎng)絡(luò)，Residual Network）

突破性模型，解決了極深網(wǎng)絡(luò)中的梯度消失（vanishing gradient）問題。
適用場景：任何需要訓(xùn)練極深網(wǎng)絡(luò)的視覺任務(wù)——其殘差連接（residual connections）可防止網(wǎng)絡(luò)深度增加時性能下降。
缺點(diǎn)：網(wǎng)絡(luò)深度仍可能導(dǎo)致訓(xùn)練時間較長（盡管比同等深度的非殘差網(wǎng)絡(luò)更易訓(xùn)練）。

ResNet架構(gòu)

DenseNet（密集連接網(wǎng)絡(luò)，Densely Connected Network）

核心特點(diǎn)是“密集連接”：每個圖層都與前向傳播路徑中的所有其他圖層相連。
適用場景：內(nèi)存和計算資源有限的任務(wù)。
缺點(diǎn)：密集連接會導(dǎo)致特征圖數(shù)量龐大，內(nèi)存消耗較高。

DenseNet架構(gòu)

三維CNN（3D CNNs）

三維CNN適用于體積數(shù)據(jù)，如醫(yī)學(xué)影像（MRI、CT掃描）或視頻分類。

其濾波器在三維空間中運(yùn)算，可同時捕捉空間和時間信息。

常見應(yīng)用場景：

需同時考慮空間和時間特征進(jìn)行分類的三維數(shù)據(jù)任務(wù)。

缺點(diǎn)：

計算成本高。
由于參數(shù)數(shù)量大，需要大量訓(xùn)練數(shù)據(jù)。

主要模型：

DenseNet：盡管DenseNet的常見實(shí)現(xiàn)是針對二維卷積，但“密集塊（dense blocks）”的核心原理可擴(kuò)展到三維卷積，適用于醫(yī)學(xué)影像、視頻分析等領(lǐng)域。

責(zé)任編輯：武曉燕來源： AIGC深一度

卷積池化模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="bumes"><progress id="bumes"><tr id="bumes"></tr></progress></center>

<var id="bumes"></var>

<big id="bumes"></big>