15 分鐘吃透核心:卷積 / 池化 / 全連接 + 六大經(jīng)典模型對比
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是一種深度學(xué)習(xí)模型,專門用于處理和分析視覺數(shù)據(jù),在圖像識別、目標(biāo)檢測等任務(wù)中表現(xiàn)尤為出色。
然而,CNN的架構(gòu)因其固有的復(fù)雜性和快速演進(jìn)的特性,往往難以掌握。
在本文中,將詳細(xì)介紹標(biāo)準(zhǔn)CNN架構(gòu)及CNN家族中的各類模型,并拆解其核心組成部分,包括:
- 卷積層
- 池化層
- 全連接層
同時講解步長(stride)、卷積核(kernel)、池化(pooling)等關(guān)鍵概念。
什么是卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)(CNN) 是一種特殊類型的神經(jīng)網(wǎng)絡(luò),其設(shè)計靈感來源于人類大腦的視覺皮層。
與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)將圖像視為扁平像素數(shù)組的處理方式不同,CNN采用分層結(jié)構(gòu),通過學(xué)習(xí)從邊緣、曲線等簡單模式到復(fù)雜物體、紋理的特征,逐步構(gòu)建對視覺數(shù)據(jù)的理解。
其核心功能是通過多層帶神經(jīng)元的網(wǎng)絡(luò)結(jié)構(gòu),自適應(yīng)地從輸入數(shù)據(jù)中學(xué)習(xí)空間特征層次。
下圖展示了標(biāo)準(zhǔn)CNN架構(gòu)在圖像分類任務(wù)中的工作流程:
圖A: 標(biāo)準(zhǔn)CNN架構(gòu)
CNN的架構(gòu)由一系列圖層組成,每個圖層執(zhí)行特定操作以提取和轉(zhuǎn)換特征。
在下一部分中,將從“卷積塊”開始講解——卷積塊是CNN中用于從輸入圖像中檢測獨(dú)特特征的核心組件。
卷積塊
卷積塊(Convolutional Block)是CNN的基礎(chǔ)構(gòu)建單元,由一組用于從輸入數(shù)據(jù)中提取特征的圖層組成。
如圖A所示,這些卷積塊相互堆疊,構(gòu)成CNN架構(gòu)的核心部分。
下圖詳細(xì)展示了一個標(biāo)準(zhǔn)卷積塊的結(jié)構(gòu),包含1個卷積層(橙色區(qū)域)和1個池化層(綠色區(qū)域):
圖B_含單個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)
盡管不同CNN架構(gòu)中卷積塊的具體圖層可能存在差異,但標(biāo)準(zhǔn)卷積塊通常包含:
- 1個或多個卷積層
- 1個池化層
卷積層
卷積層是卷積塊的核心,負(fù)責(zé)檢測輸入數(shù)據(jù)中的特定特征。
如圖B所示,卷積層的架構(gòu)包含濾波器(filter) 、批量歸一化(batch normalization) 和非線性激活函數(shù)(non-linear activation) 三個部分。
其中,濾波器由多個卷積核(kernel,即小型數(shù)值矩陣) 組成,通過執(zhí)行卷積運(yùn)算(convolutional operation) ,將輸入數(shù)據(jù)中的特定特征突出顯示為特征圖(feature maps) 。
隨后,卷積層對這些特征圖應(yīng)用批量歸一化和非線性激活函數(shù),再將處理后的結(jié)果傳遞給池化層。
卷積運(yùn)算
卷積運(yùn)算是一個“元素級乘法-求和”過程,幫助網(wǎng)絡(luò)識別邊緣、紋理、形狀等特征。
圖B中的架構(gòu)使用了含3個3×3卷積核的單個濾波器——這是因為輸入數(shù)據(jù)具有3個深度維度(深度維度數(shù)量與卷積核數(shù)量必須保持一致)。
每個3×3卷積核包含9個權(quán)重矩陣作為其參數(shù),因此:
- 單個卷積核的參數(shù)數(shù)量:9個權(quán)重
- 單個濾波器的參數(shù)數(shù)量:3個卷積核 × 9個權(quán)重 = 27個權(quán)重 + 1個偏置項(bias term)= 共28個可學(xué)習(xí)模型參數(shù)
這些模型參數(shù)會在訓(xùn)練過程中不斷優(yōu)化。
濾波器
濾波器由卷積核組成,濾波器的數(shù)量直接影響輸出特征圖的深度。
例如,2個不同的濾波器會生成2個不同的特征圖,最終形成深度為2的輸出:
圖C. 含兩個濾波器的標(biāo)準(zhǔn)卷積塊架構(gòu)
在圖C中,由于卷積層使用了2個濾波器,生成了2個特征圖,因此池化層最終輸出2個激活圖(activation maps) 。
每個激活圖中都包含高度激活的神經(jīng)元(圖C中的粉色單元格),激活程度取決于該激活圖所捕捉的特征類型。
由此可見,使用更多濾波器能讓網(wǎng)絡(luò)從輸入數(shù)據(jù)中捕捉更多樣化的特征,這對于識別現(xiàn)實(shí)世界物體等變異性較高的任務(wù)尤為適用。
但另一方面,增加濾波器數(shù)量會顯著增加可學(xué)習(xí)模型參數(shù)的數(shù)量:
- 圖B(1個濾波器) :每個卷積層含28個參數(shù)
- 圖C(2個濾波器) :每個卷積層含56個參數(shù)
參數(shù)增加會導(dǎo)致:
- 訓(xùn)練時間延長
- 內(nèi)存占用增加
- 過擬合(overfitting)風(fēng)險上升
因此,在CNN架構(gòu)設(shè)計中,找到“濾波器數(shù)量”與“模型性能/效率”的平衡是關(guān)鍵。
卷積運(yùn)算的數(shù)學(xué)表達(dá)式
卷積運(yùn)算的過程是:卷積核在輸入數(shù)據(jù)上滑動(或“卷積”),將卷積核中的數(shù)值與當(dāng)前覆蓋的圖像塊(image patch)的對應(yīng)像素值相乘,再將所有乘積結(jié)果求和,最終得到特征圖中的單個數(shù)值。
若將輸入數(shù)據(jù)表示為I,卷積核表示為K(其中M為卷積核的高度維度,N為寬度維度,例如圖B中M=N=3),當(dāng)前像素坐標(biāo)表示為(i, j),則該過程的數(shù)學(xué)表達(dá)式為:
圖片
其中:
(I ? K):特征圖(輸入圖像I與卷積核K通過互相關(guān)運(yùn)算(cross-correlation) 得到的卷積結(jié)果)(i, j):當(dāng)前像素的坐標(biāo)I:輸入數(shù)據(jù)(矩陣),I(i, j)表示第i行、第j列像素的數(shù)值K:卷積核矩陣(維度為M×N)K(m, n):卷積核第m行、第n列的權(quán)重值(對應(yīng)圖B中的w?至w?)
例如,下圖展示了使用索貝爾卷積核(sobel kernel) (一種二維卷積核)執(zhí)行的卷積運(yùn)算:
圖D 索貝爾卷積核的卷積運(yùn)算過程
在圖D中,卷積運(yùn)算首先對初始的3組坐標(biāo)(i, j)= (1, 1)至(i, j) = (1, 3)執(zhí)行計算。
在實(shí)際應(yīng)用中,該過程會對輸入I中所有可能的坐標(biāo)組重復(fù)執(zhí)行,最終生成完整的特征圖。
步長(stride) 和填充(padding) 是決定卷積核需處理多少組坐標(biāo)的關(guān)鍵參數(shù)。
步長與填充
步長(stride) 指卷積核在輸入矩陣上滑動時每次移動的像素數(shù)。
在圖D中,步長設(shè)置為1,即卷積核每次計算后向右移動1個像素。
盡管步長為2或更大的情況并不常見,但步長越大,最終輸出特征圖的尺寸越小。
填充(padding) 是在輸入圖像邊緣添加額外像素的技術(shù),主要用于:
- 保留空間維度:卷積運(yùn)算會縮小輸出特征圖的尺寸,通過在輸入圖像邊緣添加像素,可使輸出尺寸等于或大于輸入尺寸。
- 避免邊緣信息丟失:圖像邊緣的像素僅被卷積核處理少數(shù)幾次,而中心像素會被多次處理。填充能確保所有像素被平等處理,避免重要邊緣信息的丟失。
默認(rèn)的填充設(shè)置是有效填充(valid padding,也稱“無填充”) :不在輸入圖像邊緣添加任何像素,卷積核僅在輸入圖像的有效區(qū)域內(nèi)滑動,最終輸出尺寸小于輸入尺寸。
與之相對,零填充(zero padding) 是一種常用的填充方式,即在圖像邊緣添加數(shù)值為0的像素。
零填充的常見策略包括:
- Same填充(Same Padding):添加恰好足夠的零像素,使輸出特征圖的尺寸與輸入完全相同。填充量會根據(jù)卷積核尺寸和步長自動計算。
- Full填充(Full Padding):在圖像邊緣添加大量零像素,確保輸入圖像的每個像素(包括角落像素)都能成為卷積核的中心。這種方式會使輸出尺寸大于輸入尺寸。
在圖D中,為簡化演示,采用了有效填充(無填充)。
若應(yīng)用零填充,輸入數(shù)據(jù)將呈現(xiàn)為圖D’ 的形式,卷積核會在這些填充區(qū)域上滑動以執(zhí)行卷積運(yùn)算:
圖D :含零填充的輸入數(shù)據(jù)
最后,二維卷積核生成的輸出尺寸O可通過以下公式計算:
圖片
其中:
O:輸出特征圖的尺寸(高度或?qū)挾龋?/span>n:輸入數(shù)據(jù)的尺寸(高度或?qū)挾龋?/span>f:卷積核的尺寸p:填充量(邊緣添加的像素數(shù))s:步長
以圖D’ 為例,已知參數(shù)如下:
n = 6(輸入尺寸)f = 3(卷積核尺寸)p = 0(有效填充)或p = 1(Same填充)s = 1(步長)
則不同填充策略下的輸出尺寸計算如下:
- 有效填充(
p=0):O = ((6 - 3 + 0) / 1) + 1 = 4→ 小于輸入尺寸n=6 - Same填充(
p=1):O = ((6 - 3 + 2) / 1) + 1 = 6→ 等于輸入尺寸n=6 - Full填充(
p=3,此處需調(diào)整p以滿足Full填充邏輯):O = ((6 - 3 + 6) / 1) + 1 = 9→ 大于輸入尺寸n=6
這些計算結(jié)果清晰展示了填充對輸出尺寸的影響。
批量歸一化
部分卷積塊會在激活函數(shù)之前加入批量歸一化(Batch Normalization,簡稱BN)過程。
該過程對特征圖進(jìn)行歸一化處理,通過減少內(nèi)部協(xié)變量偏移(internal covariate shift) ,幫助穩(wěn)定訓(xùn)練過程。
內(nèi)部協(xié)變量偏移是指:在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,各層輸入數(shù)據(jù)的分布會發(fā)生變化。這種偏移會迫使每一層在每個訓(xùn)練周期(epoch)都重新適應(yīng)變化的輸入分布,從而減緩訓(xùn)練速度。
批量歸一化是解決這一問題的常用方案:通過將特征圖的均值調(diào)整為0、方差調(diào)整為1,使輸入分布更密集、更穩(wěn)定,進(jìn)而加速訓(xùn)練。
非線性激活函數(shù)
在卷積層運(yùn)算的最后一步,會對每個特征圖應(yīng)用非線性激活函數(shù)(non-linear activation function) 。
常用的激活函數(shù)是ReLU函數(shù)(Rectified Linear Unit),其作用是返回輸入值(神經(jīng)元的加權(quán)和與偏置之和,記為x)與0中的較大值,公式如下:
圖片
該過程為網(wǎng)絡(luò)引入了非線性特性,使其能夠?qū)W習(xí)復(fù)雜的特征模式。
池化層
池化層(Pooling Layer) 通過縮小特征圖的空間維度,對特征圖進(jìn)行下采樣(downsample),最終生成激活圖。
池化層的主要作用包括:
- 降低計算負(fù)荷:縮小特征圖尺寸,減少后續(xù)圖層的參數(shù)數(shù)量和計算量。
- 實(shí)現(xiàn)平移不變性(translation invariance):使網(wǎng)絡(luò)對輸入特征的位置偏移更具魯棒性,確保即使特征位置發(fā)生微小變化,網(wǎng)絡(luò)仍能識別該特征。
池化層生成的每個激活圖,都是對卷積層處理后輸入數(shù)據(jù)特征的“總結(jié)”。
池化運(yùn)算的類型
下圖展示了多種常見的池化運(yùn)算方式:
步長時的多種池化運(yùn)算
最大池化(Max Pooling)
最常用的池化方式,從指定區(qū)域中選擇激活程度最高的特征。
這種方式會提取區(qū)域內(nèi)最顯著的特征,同時丟棄其他被認(rèn)為不重要的特征。
常見應(yīng)用場景:
- 大多數(shù)圖像分類任務(wù)(目標(biāo)是識別特征是否存在,而非精確位置)。
平均池化(Average Pooling)
計算池化窗口內(nèi)所有元素的平均值。
與最大池化不同,平均池化會考慮區(qū)域內(nèi)的所有數(shù)值,有助于平滑特征圖、減少噪聲干擾。
常見應(yīng)用場景:
- 醫(yī)學(xué)影像分析
- 衛(wèi)星影像處理
- 任何需要關(guān)注區(qū)域內(nèi)特征整體分布(而非單一強(qiáng)信號)的任務(wù)。
Lp池化(Lp-Pooling)
一種廣義的池化方式,通過計算池化窗口內(nèi)數(shù)值的Lp范數(shù)(Lp norm) 實(shí)現(xiàn)下采樣,最大池化和平均池化均為其特殊情況:
- 當(dāng)
p = 1時,Lp池化等價于平均池化。 - 當(dāng)
p = ∞時,Lp池化等價于最大池化。
常見應(yīng)用場景:
- 科研領(lǐng)域中的廣義池化方案。
混合池化(Mixed Pooling)
對最大池化和平均池化的線性組合。
網(wǎng)絡(luò)可根據(jù)具體任務(wù)學(xué)習(xí)最優(yōu)的組合比例,靈活性更高。
常見應(yīng)用場景:
- 科研領(lǐng)域中的廣義池化方案。
隨機(jī)池化(Stochastic Pooling)
與確定性選擇(如最大池化選最大值、平均池化算平均值)不同,隨機(jī)池化會根據(jù)數(shù)值大小按比例隨機(jī)采樣池化窗口內(nèi)的激活值。
這種隨機(jī)性可作為一種正則化手段,幫助減少過擬合。
常見應(yīng)用場景:
- 處理小型數(shù)據(jù)集時,用于緩解過擬合的正則化方法。
全局池化(Global Pooling)
與滑動小窗口的池化方式不同,全局池化將整個特征圖總結(jié)為單個數(shù)值。
全局池化通常應(yīng)用于CNN的卷積部分末尾、全連接層之前,主要有兩種類型:
- 全局平均池化(Global Average Pooling,GAP):計算整個特征圖所有元素的平均值。
- 全局最大池化(Global Max Pooling,GMP):取整個特征圖的最大值。
盡管池化方式多樣,但所有池化運(yùn)算的核心目標(biāo)一致:通過下采樣縮小特征圖尺寸,降低計算負(fù)荷,同時實(shí)現(xiàn)平移不變性。
池化層的替代方案
池化層可完全由“大踏步卷積層(convolutional layers with larger stride)”替代。
例如,步長設(shè)為2的卷積層可將特征圖的空間維度縮小一半,實(shí)現(xiàn)與池化層相同的下采樣效果。
這種替代方案具有兩個顯著優(yōu)勢:
- 下采樣過程的最優(yōu)學(xué)習(xí):允許網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)的下采樣操作,可能構(gòu)建更具表達(dá)能力的模型,提升性能。
- 全程保留空間信息:大踏步卷積不會丟棄區(qū)域內(nèi)的數(shù)值,能保留更多輸入數(shù)據(jù)信息,幫助網(wǎng)絡(luò)捕捉更豐富的上下文。
尤其當(dāng)所有池化層都被大踏步卷積層替代時,會形成全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN) ——這類網(wǎng)絡(luò)能在整個訓(xùn)練和推理過程中保留空間信息。
研究表明,全卷積網(wǎng)絡(luò)更適合需要復(fù)雜上下文理解的任務(wù),例如:
- 語義分割(semantic segmentation)
- 異常檢測(anomaly detection)
- 目標(biāo)檢測(object detection)
- 圖像超分辨率(image super-resolution)
但正如圖B和圖C所示,增加卷積層會導(dǎo)致可學(xué)習(xí)參數(shù)數(shù)量增加,使模型更復(fù)雜、計算成本更高。因此,在選擇方案時需權(quán)衡利弊。
全連接層(FC Layer)
全連接層(Fully Connected Layer,簡稱FC層) ,又稱密集層(Dense Layer) ,是CNN中最后的特征轉(zhuǎn)換部分——該層中每個神經(jīng)元都與前一層的所有神經(jīng)元相連。
全連接層的核心作用是:基于卷積塊提取的特征圖(即特征),做出最終決策。
卷積塊提取的特征包括邊緣、角落、紋理等局部特征,而全連接層會將這些高層抽象特征整合,用于執(zhí)行最終任務(wù),例如:
- 分類任務(wù):在圖像分類問題中,全連接層會將扁平化后的特征圖轉(zhuǎn)換為每個類別的概率。
- 回歸任務(wù):在回歸問題中,全連接層會輸出單個連續(xù)值。
扁平化步驟
如圖A所示,在全連接層處理特征圖之前,需先將特征圖轉(zhuǎn)換為單個長一維向量(1D vector)——這一過程稱為扁平化(flattening) 。
該步驟是必要的,因為全連接層僅接受一維向量作為輸入。
扁平化后的向量將作為第一層全連接層的輸入,隨后依次傳遞給后續(xù)全連接層進(jìn)行處理。
注意事項
全連接層擅長學(xué)習(xí)特征間的全局模式和關(guān)聯(lián),因此在最終決策步驟中表現(xiàn)出色。
但全連接層的參數(shù)數(shù)量極大:由于每個神經(jīng)元都與前一層所有神經(jīng)元相連,權(quán)重數(shù)量會迅速增加。
這會導(dǎo)致兩個問題:
- 模型過擬合風(fēng)險上升
- 計算成本增加
為緩解這些問題,通常會采用 dropout 等正則化技術(shù)。
輸出層
CNN中的輸出層(Output Layer) 是生成網(wǎng)絡(luò)最終輸出的關(guān)鍵層。
輸出層會接收卷積塊和全連接層傳遞的高層抽象特征,并將其轉(zhuǎn)換為最終的輸出形式。
如圖A所示,在分類任務(wù)中,輸出層會對輸入應(yīng)用softmax激活函數(shù),生成預(yù)設(shè)類別的概率分布(例如鳥類、獅子、貓)。
Softmax函數(shù)能確保所有類別的輸出概率之和為1,使結(jié)果可直接解釋為類別概率。
在回歸任務(wù)中,輸出層通常包含1個或多個神經(jīng)元,采用線性激活函數(shù)(或無激活函數(shù)),輸出連續(xù)值。
以上就是CNN架構(gòu)的完整介紹。
當(dāng)卷積層提取完特征層次后,CNN的架構(gòu)會過渡到與標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)(feedforward network)類似的結(jié)構(gòu)。
在訓(xùn)練過程中,全連接層和卷積核的權(quán)重、偏置等可學(xué)習(xí)模型參數(shù),會通過反向傳播(backpropagation)算法不斷優(yōu)化。
卷積神經(jīng)網(wǎng)絡(luò)的類型
為應(yīng)對不同任務(wù)挑戰(zhàn),研究者開發(fā)了多種CNN架構(gòu)。
首先,根據(jù)卷積核的維度,CNN可分為三類:
- 一維CNN(1D CNNs)
- 二維CNN(2D CNNs,最常見的CNN類型,如圖C中使用的索貝爾卷積核)
- 三維CNN(3D CNNs)
下面將分別介紹這三類CNN。
一維CNN(1D CNNs)
一維CNN適用于序列數(shù)據(jù)(如時間序列分析、自然語言處理),其濾波器僅沿序列的一個維度滑動。
常見應(yīng)用場景:
- 文本、音頻、傳感器數(shù)據(jù)等序列數(shù)據(jù)的分析與特征提取。
缺點(diǎn):
- 不適用于需要從圖像或視頻中提取空間特征的任務(wù)——因為一維CNN僅考慮輸入數(shù)據(jù)的一個維度。
二維CNN(2D CNNs)
二維CNN是處理圖像和視頻數(shù)據(jù)的標(biāo)準(zhǔn)類型。
如前所述,其濾波器在二維平面上滑動,捕捉空間特征,因此能高效學(xué)習(xí)空間特征層次。
常見應(yīng)用場景:
- 圖像分類、目標(biāo)檢測等涉及靜態(tài)視覺數(shù)據(jù)的任務(wù)。
缺點(diǎn):
- 不適用于體積數(shù)據(jù)(volumetric data)或具有強(qiáng)時間相關(guān)性的序列數(shù)據(jù)。
主要的二維CNN模型
以下是幾種典型的二維CNN架構(gòu)模型:
LeNet-5
- 手寫數(shù)字識別領(lǐng)域的開創(chuàng)性模型。
- 適用場景:作為簡單圖像分類任務(wù)(低分辨率圖像)的基礎(chǔ)模型。
- 缺點(diǎn):深度和容量有限,不適用于復(fù)雜、高分辨率圖像任務(wù)。
LeNet架構(gòu)
AlexNet
- 比LeNet-5更深、更寬,是推動深度學(xué)習(xí)普及的關(guān)鍵模型。
- 適用場景:作為比LeNet更強(qiáng)的圖像分類基準(zhǔn)模型,適用于較大數(shù)據(jù)集。
- 缺點(diǎn):以當(dāng)前標(biāo)準(zhǔn)來看架構(gòu)較淺;使用的大尺寸卷積核(11×11、5×5)效率較低。
AlexNet架構(gòu)
VGGNet
- 架構(gòu)簡潔統(tǒng)一,通過使用小尺寸(3×3)卷積核增加網(wǎng)絡(luò)深度。
- 適用場景:作為其他模型的特征提取器(架構(gòu)魯棒且易于理解)。
- 缺點(diǎn):參數(shù)數(shù)量大、內(nèi)存消耗高,導(dǎo)致訓(xùn)練和部署速度慢。
VGGNet架構(gòu)
GoogLeNet
- 深度網(wǎng)絡(luò),參數(shù)數(shù)量較少——核心創(chuàng)新是“ inception模塊(inception module)”:該模塊允許網(wǎng)絡(luò)在單個圖層內(nèi)自主選擇卷積核尺寸和池化操作。
- 適用場景:需要高性能且計算高效的模型的任務(wù)。
- 缺點(diǎn):架構(gòu)復(fù)雜,理解和實(shí)現(xiàn)難度較高。
GoogLeNet架構(gòu)
ResNet(殘差網(wǎng)絡(luò),Residual Network)
- 突破性模型,解決了極深網(wǎng)絡(luò)中的梯度消失(vanishing gradient)問題。
- 適用場景:任何需要訓(xùn)練極深網(wǎng)絡(luò)的視覺任務(wù)——其殘差連接(residual connections)可防止網(wǎng)絡(luò)深度增加時性能下降。
- 缺點(diǎn):網(wǎng)絡(luò)深度仍可能導(dǎo)致訓(xùn)練時間較長(盡管比同等深度的非殘差網(wǎng)絡(luò)更易訓(xùn)練)。
ResNet架構(gòu)
DenseNet(密集連接網(wǎng)絡(luò),Densely Connected Network)
- 核心特點(diǎn)是“密集連接”:每個圖層都與前向傳播路徑中的所有其他圖層相連。
- 適用場景:內(nèi)存和計算資源有限的任務(wù)。
- 缺點(diǎn):密集連接會導(dǎo)致特征圖數(shù)量龐大,內(nèi)存消耗較高。
DenseNet架構(gòu)
三維CNN(3D CNNs)
三維CNN適用于體積數(shù)據(jù),如醫(yī)學(xué)影像(MRI、CT掃描)或視頻分類。
其濾波器在三維空間中運(yùn)算,可同時捕捉空間和時間信息。
常見應(yīng)用場景:
- 需同時考慮空間和時間特征進(jìn)行分類的三維數(shù)據(jù)任務(wù)。
缺點(diǎn):
- 計算成本高。
- 由于參數(shù)數(shù)量大,需要大量訓(xùn)練數(shù)據(jù)。
主要模型:
- DenseNet:盡管DenseNet的常見實(shí)現(xiàn)是針對二維卷積,但“密集塊(dense blocks)”的核心原理可擴(kuò)展到三維卷積,適用于醫(yī)學(xué)影像、視頻分析等領(lǐng)域。



























