最強總結(jié),機器學習中必會的 15 個關(guān)鍵術(shù)語??!
1.算法
算法是一系列明確的步驟或規(guī)則,用于解決特定問題或完成特定任務。
在機器學習中,算法用于從數(shù)據(jù)中學習模式,并做出預測或決策。
示例:線性回歸、決策樹、支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)等都是常見的機器學習算法。例如,線性回歸根據(jù)歷史數(shù)據(jù)預測連續(xù)值(如房價)。
2.模型
模型是通過機器學習算法從數(shù)據(jù)中學習到的數(shù)學表示。它能夠?qū)π聰?shù)據(jù)進行預測或分類。
示例:決策樹模型可以根據(jù)輸入特征來決定輸出類別;神經(jīng)網(wǎng)絡(luò)模型可以識別圖像中的物體。
3.訓練數(shù)據(jù)
訓練數(shù)據(jù)是指用于訓練機器學習模型的數(shù)據(jù)集。
它由輸入輸出對組成,可幫助模型學習所需的任務。
訓練數(shù)據(jù)越多樣化、越有代表性,模型的性能就越好。
示例:對于預測房價的模型,訓練數(shù)據(jù)可能包括房屋特征(如大小、臥室數(shù)量)及其相應的價格。
4.測試數(shù)據(jù)
測試數(shù)據(jù)是一個單獨的數(shù)據(jù)集,用于評估機器學習模型在未知數(shù)據(jù)上的表現(xiàn)。
這有助于防止過度擬合,即模型在訓練數(shù)據(jù)上可能表現(xiàn)良好,但在新數(shù)據(jù)上卻表現(xiàn)不佳。
示例:訓練垃圾郵件過濾器后,你可以在以前從未見過的電子郵件上對其進行測試,以檢查其準確性。
5.特征
特征是模型用來進行預測的數(shù)據(jù)的單個可測量屬性。
在機器學習的背景下,選擇正確的特征對于構(gòu)建良好的模型至關(guān)重要。
示例:在預測房價時,特征可能包括臥室數(shù)量、面積和位置。
6.標簽
標簽是與每個訓練樣本關(guān)聯(lián)的目標值或類別。
在監(jiān)督學習中,模型使用這些標簽來學習輸入和輸出之間的關(guān)系。
示例:在預測電子郵件是否為垃圾郵件的模型中,標簽將是“垃圾郵件”或“非垃圾郵件”。
7.過度擬合
過度擬合是指模型對訓練數(shù)據(jù)(包括噪聲和異常值)的學習過于深入,導致新數(shù)據(jù)上的表現(xiàn)不佳。
這意味著模型與訓練數(shù)據(jù)的擬合程度過高,使其通用性較差。
示例:由于過度擬合,模型在訓練數(shù)據(jù)上表現(xiàn)完美,但在測試數(shù)據(jù)上表現(xiàn)不佳。
8.欠擬合
當模型過于簡單,無法捕捉數(shù)據(jù)中的模式時,就會發(fā)生欠擬合,從而導致訓練和測試數(shù)據(jù)的性能不佳。
示例:使用線性回歸來擬合一個明顯非線性的關(guān)系,導致預測誤差較大。
9.準確性
準確性是衡量分類模型正確預測的比例。計算方法是正確預測的數(shù)量除以總預測數(shù)量。
示例:如果一個模型能夠正確識別 100 封電子郵件中的 90 封是否為垃圾郵件,則其準確率為 90%。
10.精確率和召回率
精確率和召回率是評價分類模型的重要指標,尤其是在不平衡的數(shù)據(jù)集中。
- 精確率:在所有被模型預測為正類的樣本中,實際為正類的比例。
- 召回率:在所有實際為正類的樣本中,模型正確預測為正類的比例。
示例:在疾病篩查中,高精確率意味著大多數(shù)被診斷為患病的人確實患??;高召回率意味著大多數(shù)實際患病的人被成功識別。
11.學習率
學習率是一個超參數(shù),它控制模型權(quán)重相對于損失梯度的更新程度。
較高的學習率可能會導致模型收斂過快而錯過最優(yōu)解,而較低的學習率則可能導致訓練過程過慢。
示例:在神經(jīng)網(wǎng)絡(luò)中,學習率決定了模型在訓練期間從錯誤中學習的速度。
12.epoch
一個 epoch 是指在模型訓練過程中對整個訓練數(shù)據(jù)集進行一次完整的遍歷。
多個 epoch 可以讓模型更好地學習,因為它會在每次遍歷中調(diào)整其權(quán)重。
示例:如果有1000個訓練樣本,1個epoch意味著模型已經(jīng)看過所有1000個樣本一次。
13.超參數(shù)
超參數(shù)是在訓練之前設(shè)置的參數(shù),用于控制學習過程和模型結(jié)構(gòu)。
與模型參數(shù)不同,超參數(shù)不能通過訓練直接學習到。
示例:學習率、批量大?。╞atch size)、神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層的神經(jīng)元數(shù)量等都是常見的超參數(shù)。
14.損失函數(shù)
損失函數(shù)用于衡量模型預測值與真實值之間的差距。
訓練過程中,模型通過最小化損失函數(shù)來進行優(yōu)化。
示例:均方誤差(MSE)常用于回歸任務,交叉熵損失常用于分類任務。
15.正則化
正則化是一種技術(shù),用于防止模型過度擬合。
它通過在損失函數(shù)中添加懲罰項,限制模型的復雜度。
示例:
- L1正則化:通過加上權(quán)重絕對值的和,促使一些權(quán)重變?yōu)榱?,實現(xiàn)特征選擇。
- L2正則化:通過加上權(quán)重平方和,限制權(quán)重的大小,防止過度擬合。