譯者 | 朱先忠
審校 | 重樓

簡介
多層感知機(MLP)——有時也稱為人工神經(jīng)網(wǎng)絡(luò)(ANN)或前饋神經(jīng)網(wǎng)絡(luò)(FNN)——是深度學(xué)習(xí)中最基礎(chǔ)、最強大的架構(gòu)之一。其靈活的設(shè)計和卓越的性能使其成為解決各領(lǐng)域各種問題的首選算法。
此外,MLP是所有現(xiàn)代深度學(xué)習(xí)架構(gòu)的核心構(gòu)建塊——無論是CNN、RNN、LSTM還是Transformer。所有這些模型都可以被認為是MLP的專門版本,它們通過在其之上添加結(jié)構(gòu)和約束來處理不同的問題。
在本文中,我們將深入探索MLP的迷人世界。我們將探討其開發(fā)背后的動機、架構(gòu)、工作原理、局限性以及現(xiàn)代替代方案。本文的目標是幫助你建立強大的直覺和概念基礎(chǔ),而不會讓你陷入繁重的數(shù)學(xué)知識中。
概括地講,我們將在本文探討如下內(nèi)容:
- 為什么會有MLP?
- MLP到底是什么?它是如何從感知器演變而來的?
- MLP架構(gòu)的核心組件是什么?
- MLP中的可訓(xùn)練參數(shù)是什么(權(quán)重和偏差)?
- MLP如何通過前向和后向傳播進行工作?
- MLP的主要優(yōu)勢是什么?
- MLP的局限性是什么?
- MLP何時有效,何時失效?讓我們開始吧!
先決條件
多層感知機(MLP)本質(zhì)上是感知器的擴展,而感知器是第一個神經(jīng)網(wǎng)絡(luò)。因此,在深入研究MLP之前,必須對感知器的架構(gòu)和工作原理有深入的了解。
不過別擔(dān)心,我已經(jīng)幫你搞定了!我寫了一篇專門的博客,詳細解釋了感知器,包括它的核心組件、功能和局限性:
深度學(xué)習(xí)專題:感知器解析——構(gòu)建模塊、工作原理和局限性
(了解感知器是什么、它的組成部分、直覺、如何訓(xùn)練以及它的局限性,為……鋪平了道路。)
閱讀此博客將為你提供堅實的基礎(chǔ),并使你更容易理解如何構(gòu)建MLP來處理復(fù)雜問題。
為什么MLP會出現(xiàn)?
1958年,一位名叫弗蘭克·羅森布拉特(Frank Rosenblatt)的研究人員受人腦神經(jīng)元功能啟發(fā),開發(fā)了一個數(shù)學(xué)模型。這是一個革命性的發(fā)展,因為它使我們能夠在機器中模擬人腦的智能,并標志著構(gòu)建智能機器的第一步。該模型被命名為“感知器”。

圖片來源:Arion Das
感知器具有簡單的架構(gòu)(如上圖所示):
- 輸入層充當(dāng)門,將數(shù)據(jù)或輸入特征輸入系統(tǒng)。
- 權(quán)重表示每個輸入在確定最終決策時的重要性。
- 輸出層通過執(zhí)行以下兩個操作來處理輸入以生成最終輸出:1)首先,通過對輸入進行加權(quán)和形成線性決策邊界來整理存儲在輸入中的信息;2)其次,將加權(quán)和通過步進激活函數(shù),將其轉(zhuǎn)換為有意義的輸出。感知器也被稱為單層感知器,因為它僅由一個計算層(輸出層)組成,而輸入層僅將特征傳遞到系統(tǒng)中而不進行任何處理。
感知器最初引起了極大的轟動。但隨著研究人員開始將其應(yīng)用于實際問題,他們發(fā)現(xiàn)了一些嚴重的局限性,阻礙了它發(fā)揮其潛力。盡管取得了突破性的進展,感知器在一些關(guān)鍵領(lǐng)域仍舉步維艱。其主要問題如下: - 由于它只能將數(shù)據(jù)點分為兩類,因此它只能處理二分類問題。這使得它限制性太強,無法在多類分類或回歸問題中使用。
- 它僅包含一個計算層(輸出層),用于處理輸入并產(chǎn)生輸出。這種過于簡單的架構(gòu)不足以捕捉數(shù)據(jù)中復(fù)雜的非線性關(guān)系或?qū)哟文J健?/span>
- 它只能處理線性可分數(shù)據(jù)——即可以用直線或平面分離的數(shù)據(jù)。但它在處理非線性可分數(shù)據(jù)(即數(shù)據(jù)點無法通過線性邊界分離)時卻慘敗。在這種情況下,感知器永遠不會收斂,導(dǎo)致權(quán)重?zé)o休止地更新而無法得到解。
- 感知器生成的決策邊界并不能保證是最優(yōu)的。不同的訓(xùn)練運行可能會根據(jù)權(quán)重初始化和數(shù)據(jù)點的順序生成不同的邊界。此外,也沒有可靠的方法來衡量所選邊界的實際效果。盡管這種感知技術(shù)堪稱革命性理念,但它仍然受到自身局限性的影響。但研究人員并沒有止步于此。他們決心克服這些缺陷,不斷前行,最終在20世紀80年代中期,隨著多層感知機(MLP)的出現(xiàn),他們的堅持終于得到了回報。
什么是MLP、它如何從感知器演變而來?
20世紀80年代中期,多層感知機(MLP)作為感知器的擴展被引入,其設(shè)計初衷是為了克服感知器的缺點。為了將感知器轉(zhuǎn)變?yōu)楦鼜姶蟮亩鄬痈兄獧C(MLP),研究人員通過解決其局限性引入了以下關(guān)鍵增強功能:
增強功能1:捕捉非線性決策邊界
感知器的簡單架構(gòu)只能產(chǎn)生單一的線性決策邊界,限制了其捕捉復(fù)雜非線性模式的能力。
為了克服這一限制,研究人員開始另辟蹊徑:與其依賴單一的直線決策邊界,不如生成多個線性邊界,并將它們智能地組合起來,形成一個平滑的曲面決策面,結(jié)果會怎樣呢?這種曲面邊界能夠捕捉非線性數(shù)據(jù)的本質(zhì),解決簡單感知器無法解決的問題。
步驟1:為了實現(xiàn)這個想法,研究人員首先將多個感知器堆疊在一起,以創(chuàng)建多個線性邊界。例如,對于僅包含兩個輸入特征的數(shù)據(jù)集,他們使用兩個感知器而不是一個。每個感知器都形成自己的線性決策邊界——每個邊界捕捉數(shù)據(jù)集的不同方面,如下圖所示:

圖片來源:湯姆·阿爾康
步驟2:下一個挑戰(zhàn)是如何將這些單獨的邊界合并成一個彎曲的邊界?這個問題通過添加另一個感知器來解決,該感知器將前兩個感知器的輸出作為其輸入。
但由于線性函數(shù)的線性組合仍然是線性的,我們必須首先將非線性激活函數(shù)(例如Sigmoid、ReLU或tanh)應(yīng)用于這些感知器的輸出。
經(jīng)過這種轉(zhuǎn)換后,下一層感知器可以組合它們的信息來產(chǎn)生合并的輸出,從而產(chǎn)生更復(fù)雜的決策邊界,準確捕捉數(shù)據(jù)中的底層模式(如下圖所示的彎曲邊界)。

圖片來源:湯姆·阿爾康
這種堆疊設(shè)計后來被稱為多層感知機(MLP)。顧名思義,MLP通過將多個感知器排列成多層來擴展基本感知器,其中每層的輸出成為下一層的輸入。低級感知器充當(dāng)特征提取器,學(xué)習(xí)不同的線性邊界,而高級感知器則將這些輸出整合起來,形成可以模擬復(fù)雜非線性關(guān)系的曲線決策邊界。
增強功能2:擴展到多類分類和回歸
原始感知器的另一個主要限制是其對二分類問題的適用性有限。由于它依賴階躍函數(shù)作為激活函數(shù),因此只能將數(shù)據(jù)分成兩類。
研究人員很快意識到,為輸出層選擇合適的激活函數(shù)可以使MLP解決各種各樣的任務(wù),例如用于二元分類的S型激活、用于多類分類的SoftMax或用于回歸的線性激活。
增強功能3:使用優(yōu)化器進行損失函數(shù)優(yōu)化
原始感知器的另一個關(guān)鍵限制是,它每次訓(xùn)練時都會創(chuàng)建不同的決策方案。這是因為它從隨機權(quán)重開始,而它查看訓(xùn)練樣本的順序會影響它調(diào)整權(quán)重的方式。此外,沒有明確的方法來衡量它找到的邊界是否真的是最佳邊界。它只能知道每個點是否被正確分類,但無法評估分離的整體質(zhì)量。
通過定義一個損失函數(shù)來量化預(yù)測誤差,以衡量網(wǎng)絡(luò)的整體性能,解決了這一限制。然后,網(wǎng)絡(luò)使用梯度下降等優(yōu)化器,逐步調(diào)整所有權(quán)重,以減少誤差。通過這種方式,網(wǎng)絡(luò)能夠持續(xù)找到最佳的決策邊界,從而使MLP能夠更可靠地捕捉數(shù)據(jù)中的底層模式。
MLP架構(gòu)——構(gòu)建模塊

圖片來源:AIML.com
激活函數(shù)的演變,結(jié)合分層架構(gòu)和損失函數(shù)的優(yōu)化,將單層感知器轉(zhuǎn)變?yōu)槎鄬痈兄獧C——一種能夠捕捉非線性模式并解決分類和回歸問題的模型。最終的MLP架構(gòu)的核心組件包括:
輸入層
輸入層充當(dāng)原始數(shù)據(jù)的入口。此層不執(zhí)行任何計算,只是將數(shù)據(jù)饋送到網(wǎng)絡(luò)。例如,在信用卡欺詐檢測系統(tǒng)中,交易金額、地點和時間等特征通過此層輸入模型。
隱藏單元
堆疊在輸入層和輸出層之間的感知器被稱為隱藏單元、節(jié)點或神經(jīng)元。每個隱藏單元都是一個感知器,包含兩個關(guān)鍵組件,用于執(zhí)行兩個主要操作:
- 求和:使用形成線性方程的求和函數(shù)計算輸入的加權(quán)和。
- 激活:將加權(quán)和通過激活函數(shù)(例如ReLU、sigmoid、tanh等)引入系統(tǒng)非線性。
隱藏層(一個或多個)
堆疊多個隱藏單元后形成的層稱為隱藏層,它們位于輸入層和輸出層之間。隱藏層是真正的游戲規(guī)則改變者,因為它們負責(zé)處理MLP中的所有處理。它們使網(wǎng)絡(luò)能夠超越簡單的線性數(shù)據(jù)模式,學(xué)習(xí)數(shù)據(jù)中高度復(fù)雜的非線性模式。
輸出層
輸出層是MLP架構(gòu)的最后一層。它由感知器組成,這些感知器將最后一個隱藏層的結(jié)果組合起來,產(chǎn)生最終的預(yù)測。該層中的每個感知器還包含兩個關(guān)鍵組件:
- 求和:計算最后一個隱藏層節(jié)點的輸出的加權(quán)和,形成非線性決策邊界。
- 激活:將加權(quán)和通過激活函數(shù)(例如ReLU、sigmoid或tanh)來產(chǎn)生最終輸出或預(yù)測。輸出層的節(jié)點數(shù)以及激活函數(shù)取決于問題類型:
- 二元分類:具有S形激活的單個節(jié)點。
- 多類分類:具有SoftMax激活函數(shù)的多個節(jié)點,其中節(jié)點數(shù)等于數(shù)據(jù)中的類別數(shù)。
- 回歸:具有線性激活的單個節(jié)點。
請注意,在計算MLP系統(tǒng)的層數(shù)時,我們僅包含隱藏層和輸出層。輸入層不計算在內(nèi),因為它不執(zhí)行任何計算,它只是將數(shù)據(jù)輸入網(wǎng)絡(luò)。例如,如果一個模型有一個隱藏層和一個輸出層,則無論每層有多少個神經(jīng)元,它都被稱為2層MLP。
MLP的可訓(xùn)練參數(shù):權(quán)重和偏差
在感知器中,每個輸入都會乘以一個權(quán)重,該權(quán)重表示該輸入對最終預(yù)測的重要性。較大的權(quán)重會使輸入更具影響力,而較小的權(quán)重或負權(quán)重則會降低甚至抵消其影響。此外,每個感知器還有一個偏置項,通過移動決策邊界來提高模型的靈活性。
多層感知機(MLP)本質(zhì)上是多層堆疊的感知器的集合。網(wǎng)絡(luò)中的每個感知器都有各自的權(quán)重和偏差。與單個感知器一樣,這些權(quán)重和偏差無需手動設(shè)置,而是由網(wǎng)絡(luò)在訓(xùn)練過程中學(xué)習(xí)而來。由于這些值會在整個訓(xùn)練過程中更新,因此它們統(tǒng)稱為可訓(xùn)練參數(shù)。
MLP架構(gòu)中可訓(xùn)練參數(shù)的總數(shù)是通過對網(wǎng)絡(luò)中所有感知器的權(quán)重和偏差進行求和來計算的——計算每一層的權(quán)重和偏差并將它們相加。
對于MLP網(wǎng)絡(luò)中的每個感知器
對于單個感知器,權(quán)重的數(shù)量等于輸入的數(shù)量,因為每個輸入都有由感知器分配的權(quán)重。此外,每個感知器都附加一個偏差,以增加決策邊界的靈活性。

示例:具有兩個輸入的感知器有3個可訓(xùn)練參數(shù)——2個權(quán)重和1個偏差。
對于MLP網(wǎng)絡(luò)中的每一層
在具有多個感知器的層中,可訓(xùn)練參數(shù)取決于該層的輸入數(shù)量和該層中感知器的數(shù)量。
對于整個MLP網(wǎng)絡(luò)
網(wǎng)絡(luò)中總的可訓(xùn)練參數(shù)是通過對所有層的參數(shù)求和得到的:

例子
考慮一個具有2個輸入、1個帶有2個節(jié)點的隱藏層和1個帶有1個節(jié)點的輸出層的MLP。
- (從輸入到隱藏層)由于隱藏層有兩個輸入和兩個感知器,因此該層的總可訓(xùn)練參數(shù)為:2(輸入)×2(隱藏節(jié)點)+2(偏差)=6
- (從隱藏層到輸出層)由于這一層有一個感知器,并且有2個輸入(來自隱藏層的兩個感知器的輸出),因此這一層的總可訓(xùn)練參數(shù)為:2(隱藏輸出)×1(輸出節(jié)點)+1(偏差)=3
- (總可訓(xùn)練參數(shù))該MLP架構(gòu)的總可訓(xùn)練參數(shù)是其各層參數(shù)的總和:6(隱藏層)+3(輸出層)=9
MLP的工作原理
為了理解多層感知機(MLP)的內(nèi)部功能,我們需要將其分為兩個關(guān)鍵方面:
- 模型如何生成預(yù)測
- 模型如何學(xué)習(xí)或訓(xùn)練通過將輸入數(shù)據(jù)傳遞到網(wǎng)絡(luò)來產(chǎn)生預(yù)測的過程稱為前向傳播。另一方面,調(diào)整模型參數(shù)以最小化誤差(或損失)的過程稱為反向傳播。
在本節(jié)中,我們將深入研究前向傳播和反向傳播,以了解MLP的實際工作原理。
示例設(shè)置:學(xué)生入學(xué)預(yù)測
讓我們考慮一個簡單的二元分類任務(wù),根據(jù)兩個輸入(CGPA和IQ)預(yù)測學(xué)生是否會被安置,我們選擇的MLP架構(gòu)是:
- 具有2個節(jié)點的輸入層(x?=CGPA和x?=IQ)
- 具有2個節(jié)點的隱藏層
- 具有1個節(jié)點和S形激活的輸出層(輸出放置概率)
前向傳播:MLP如何進行預(yù)測

圖片來源:AIML.com
以下內(nèi)容將描述數(shù)據(jù)如何流經(jīng)網(wǎng)絡(luò)以產(chǎn)生最終的預(yù)測(如上圖所示):
步驟1:輸入進入網(wǎng)絡(luò)
網(wǎng)絡(luò)通過輸入層接收輸入。在我們的示例中,輸入為:x?= CGPA & x?= IQ。
步驟2:輸入層到隱藏層
然后,輸入(x?和x?)被傳遞到隱藏層的每個神經(jīng)元。每個神經(jīng)元接受這些輸入,應(yīng)用其自身的重要性權(quán)重并計算加權(quán)和:

一旦每個神經(jīng)元都有了綜合分數(shù),它就會通過激活函數(shù)將這些輸出轉(zhuǎn)換為引入非線性。

兩個隱藏神經(jīng)元獨立形成兩個“決策邊界”(z?和z?),并根據(jù)輸入的組合方式生成兩個輸出(a?和a?)。
步驟3:隱藏層到輸出層
隱藏層神經(jīng)元(a?和a?)的輸出成為輸出層神經(jīng)元的輸入。輸出層神經(jīng)元計算這些輸入的加權(quán)和,然后應(yīng)用S型激活函數(shù)產(chǎn)生最終輸出。

步驟4:最終預(yù)測
輸出層給出的最終輸出是最終預(yù)測,在這種情況下是一個概率(0到1),因為我們使用了S型激活函數(shù),它將任何實數(shù)轉(zhuǎn)換為0到1之間的值。

總而言之,在正向傳播過程中,輸入逐層流經(jīng)網(wǎng)絡(luò)。每個神經(jīng)元應(yīng)用其權(quán)重和激活函數(shù)來轉(zhuǎn)換數(shù)據(jù),并將結(jié)果傳遞到下一層。這個循序漸進的過程使網(wǎng)絡(luò)能夠組合和解釋輸入,最終以概率形式生成最終預(yù)測——這說明了MLP如何進行決策。
反向傳播:MLP如何從錯誤中學(xué)習(xí)


圖片來源:AIML.com
訓(xùn)練多層感知機(MLP)的目標是找到其可訓(xùn)練參數(shù)(權(quán)重和偏差)的最優(yōu)值,以使模型的預(yù)測盡可能接近實際結(jié)果。該過程可以分為以下步驟:
步驟1:隨機參數(shù)初始化和前向傳播
訓(xùn)練從為所有權(quán)重和偏差分配隨機值開始。這些初始值允許網(wǎng)絡(luò)通過前向傳播生成預(yù)測,其中輸入使用當(dāng)前參數(shù)和激活函數(shù)逐層轉(zhuǎn)換。
步驟2:將預(yù)測與實際結(jié)果進行比較
一旦生成預(yù)測,網(wǎng)絡(luò)就會通過將預(yù)測值與真實值進行比較來計算損失(或預(yù)測誤差)。損失函數(shù)量化了預(yù)測與實際結(jié)果的偏差。
步驟3:測量每個參數(shù)對預(yù)測誤差的貢獻
網(wǎng)絡(luò)分析每個權(quán)重和偏差對損失的影響程度。利用梯度(損失函數(shù)相對于每個參數(shù)的斜率),網(wǎng)絡(luò)確定減少誤差所需的調(diào)整方向和幅度。
步驟4:更新參數(shù)
優(yōu)化器(例如梯度下降)會根據(jù)確定的方向略微調(diào)整權(quán)重和偏差。此更新旨在降低損失,逐步改善網(wǎng)絡(luò)的預(yù)測。
步驟5:迭代多個時期
從正向傳播到損失計算,再到反向傳播,最后到參數(shù)更新,這個循環(huán)會在許多訓(xùn)練樣本和多個迭代周期中重復(fù)進行。隨著每次迭代,網(wǎng)絡(luò)逐漸學(xué)習(xí)數(shù)據(jù)中的潛在模式,并持續(xù)訓(xùn)練直至模型收斂。
總而言之,前向傳播是關(guān)于進行預(yù)測,而反向傳播是關(guān)于從錯誤中學(xué)習(xí)。理解這個循環(huán)可以讓你更清晰地理解MLP的訓(xùn)練,并為探索高級神經(jīng)網(wǎng)絡(luò)奠定基礎(chǔ)。
MLP的主要優(yōu)勢是什么?
MLP的分層架構(gòu)具有以下主要優(yōu)勢,使其成為解決實際挑戰(zhàn)的可靠選擇:
- 捕捉復(fù)雜模式:與感知器或其他線性模型不同,多層感知機(MLP)可以捕捉并建模輸入和輸出之間復(fù)雜的非線性關(guān)系。它們能夠有效地處理數(shù)據(jù)非線性可分的問題,使其更加強大,更適用于現(xiàn)實世界的情況。
- 復(fù)雜任務(wù)的高精度:由于能夠捕捉非線性模式,MLP通常比邏輯回歸或單層感知器等簡單模型實現(xiàn)更高的預(yù)測精度。
- 處理多個輸入和輸出:MLP的優(yōu)勢之一是它能夠同時處理多個輸入,并在需要時產(chǎn)生多個輸出。這種靈活性使得MLP在現(xiàn)實世界中非常有用,因為決策通常取決于多種因素的組合,而不僅僅是單一因素。
- 自動特征提取:MLP可以通過隱藏層高效地學(xué)習(xí)數(shù)據(jù)的分層表示。這意味著它們可以自動提取有意義的特征,從而減少大量手動特征工程的需要。
- 廣泛適用性:MLP極其靈活,可應(yīng)用于各種各樣的問題。它們在分類和回歸任務(wù)、模式識別甚至?xí)r間序列預(yù)測方面都表現(xiàn)出色。這種適應(yīng)各種不同場景的能力使MLP成為機器學(xué)習(xí)中的首選模型,尤其是在你需要一種能夠應(yīng)對各種挑戰(zhàn)的技術(shù)時。總而言之,MLP提供了強大的功能組合。它們可以捕捉復(fù)雜的非線性模式,在高難度任務(wù)中提供高精度,處理多個輸入和輸出,甚至可以自動提取有用的特征。它們廣泛適用于不同類型的問題,使其成為機器學(xué)習(xí)中最通用、最實用的模型之一。
MLP的局限性是什么?
雖然MLP功能強大,但它們也存在一些局限性。在決定MLP是否適合特定問題時,了解這些局限性至關(guān)重要。以下是使用MLP時經(jīng)常遇到的一些關(guān)鍵限制:
- 大數(shù)據(jù)需求:由于其分層架構(gòu),MLP通常包含大量可訓(xùn)練參數(shù)(權(quán)重和偏差)。為了有效地調(diào)整這些參數(shù)并避免性能不佳,它們需要大量帶標簽的訓(xùn)練數(shù)據(jù)。如果數(shù)據(jù)有限,網(wǎng)絡(luò)可能難以學(xué)習(xí)到有意義的模式。
- 計算成本高昂:訓(xùn)練MLP可能速度緩慢且耗費資源,尤其是在層數(shù)和神經(jīng)元數(shù)量增加的情況下。優(yōu)化如此多的參數(shù)通常需要GPU或TPU等專用硬件,才能在合理的時間內(nèi)完成訓(xùn)練。
- 黑箱特性:與線性或基于樹的模型不同,多層感知機(MLP)常常被批評難以解釋。理解模型做出特定預(yù)測的原因并非易事,這在醫(yī)療保健或金融等可解釋性至關(guān)重要的領(lǐng)域可能是一個挑戰(zhàn)。
- 容易過度擬合:由于數(shù)據(jù)有限,MLP很容易在訓(xùn)練示例上過度擬合,導(dǎo)致在看不見的示例上表現(xiàn)不佳。
- 對于非結(jié)構(gòu)化或順序數(shù)據(jù)來說并不理想:盡管MLP在技術(shù)上可以處理任何輸入數(shù)據(jù)類型,但對于非結(jié)構(gòu)化數(shù)據(jù)(如圖像、文本)或順序數(shù)據(jù)(如時間序列)來說,它們并不是最有效的選擇。了解這些限制可以幫助你決定何時使用MLP以及何時探索更合適的替代方案。
何時使用MLP,何時不應(yīng)使用MLP?
現(xiàn)在,我們已經(jīng)探討了MLP的優(yōu)缺點,那么最大的問題是:你真的應(yīng)該用它來解決你的問題嗎?在投入時間構(gòu)建和訓(xùn)練MLP之前,一些簡單的經(jīng)驗法則可以幫助你判斷它是否是合適的工具。
如果出現(xiàn)以下情況,請使用MLP:
- 你正在使用大型表格數(shù)據(jù)集。
- 你的數(shù)據(jù)中的關(guān)系是高度非線性的。
- 你擁有訓(xùn)練深度MLP所需的計算架構(gòu)。
- 你的目標是做出準確的預(yù)測而不是解釋模型結(jié)果。
如果出現(xiàn)以下情況,請避免使用MLP:
- 你正在使用容易過度擬合的小型數(shù)據(jù)集。
- 數(shù)據(jù)中的關(guān)系大多是線性的,簡單的模型就足夠了。
- 可解釋性——做出決定的原因與決定本身一樣重要——對你來說至關(guān)重要。
- 你正在處理有限的計算資源。
- 你的數(shù)據(jù)非常稀疏或包含多個分類特征。
- 你的數(shù)據(jù)具有很強的序列或空間模式,如圖像、文本或時間序列數(shù)據(jù)。
簡而言之,當(dāng)你擁有龐大、復(fù)雜、非線性的數(shù)據(jù)集,并且準確性比可解釋性更重要時,MLP會大放異彩。但當(dāng)數(shù)據(jù)規(guī)模較小、關(guān)系簡單,或者可解釋性和效率更重要時,更簡單或更專業(yè)的模型通常會表現(xiàn)得更好。
結(jié)論
總之,MLP彌合了簡單感知器與現(xiàn)代深度學(xué)習(xí)之間的差距,使我們能夠建模復(fù)雜的非線性關(guān)系。然而,MLP并非沒有缺點,尤其是與更高級的模型相比時。因此,關(guān)鍵在于了解MLP何時是合適的工具,以及何時應(yīng)該超越它們。構(gòu)建這個基礎(chǔ)不僅有助于實際應(yīng)用,還能讓我們更容易理解更高級的神經(jīng)網(wǎng)絡(luò)。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:Deep Learning Specialization: Understanding Multi-Layer Perceptron (MLP) Inside Out,作者:Damini Saini




























