機器學習的7個步驟
機器學習的應用正在迅速發(fā)展,已迅速成為醫(yī)學,電子商務,銀行等不同領(lǐng)域不可或缺的一部分。今天,我們將把機器學習分解為一個過程,并了解從開始到實現(xiàn)的所有步驟。它的實際應用。
機器學習的過程將在下面列出的7個步驟中進行細分。為了說明每個步驟的重要性和功能,我們將使用一個簡單模型的示例。該模型將負責區(qū)分蘋果和橙子。機器學習能夠勝任復雜任務。但是,為了以簡單的方式解釋該過程,以一個基本的例子來解釋相關(guān)的概念。
步驟1:收集數(shù)據(jù)
為了開發(fā)我們的機器學習模型,我們的第一步將是收集可用于區(qū)分這兩種成果的相關(guān)數(shù)據(jù)??梢允褂貌煌膮?shù)將水果分類為橙色或蘋果。為簡單起見,我們僅采用模型要利用的2個功能來執(zhí)行其操作。第一個特征是水果本身的顏色,第二個特征是水果的形狀。使用這些功能,我們希望我們的模型可以準確地區(qū)分兩種水果。
需要一種機制來收集我們選擇的兩個功能的數(shù)據(jù)。例如,為了收集有關(guān)顏色的數(shù)據(jù),我們可以使用光譜儀,對于形狀數(shù)據(jù),我們可以使用水果的圖片,以便可以將它們視為2D圖形。為了收集數(shù)據(jù),我們將嘗試獲取盡可能多的不同類型的蘋果和橙子,以便為我們的功能創(chuàng)建各種數(shù)據(jù)集。為此,我們可能會嘗試在市場上尋找可能來自世界不同地區(qū)的橙子和蘋果。
收集數(shù)據(jù)的步驟是機器學習過程的基礎。選擇錯誤的功能或?qū)W⒂跀?shù)據(jù)集的有限類型條目等錯誤可能會使模型完全失效。這就是為什么當收集數(shù)據(jù)時必須考慮必要的原因的原因,因為在此階段所犯的錯誤只會隨著我們進行到后續(xù)階段而擴大。
步驟2:準備該數(shù)據(jù)
一旦我們收集了這兩個功能的數(shù)據(jù),下一步就是準備數(shù)據(jù)以供進一步使用。此階段的重點是識別并最小化我們針對這兩個功能的數(shù)據(jù)集中的任何潛在偏差。首先,我們將隨機化這兩個水果的數(shù)據(jù)順序。這是因為我們不希望訂單與模型的選擇有任何關(guān)系。此外,我們將檢查我們的數(shù)據(jù)集是否偏向某個特定水果。這又將有助于識別和糾正潛在的偏見,因為這將意味著該模型將能夠正確地識別一種水果,但可能會與另一種水果抗爭。
數(shù)據(jù)準備的另一個主要組成部分是將數(shù)據(jù)集分為兩部分。較大的部分(約80%)將用于訓練模型,而較小的部分(約20%)用于評估。這很重要,因為在培訓和評估中使用相同的數(shù)據(jù)集將無法公平評估模型在實際場景中的性能。除了拆分數(shù)據(jù)外,還需要采取其他措施來完善數(shù)據(jù)集。這可能包括刪除重復的條目,丟棄不正確的讀數(shù)等。
為模型準備充分的數(shù)據(jù)可以提高其效率。它可以幫助減少模型的盲點,從而提高預測的準確性。因此,有意義的是審議和檢查你們的數(shù)據(jù)集,以便可以對其進行微調(diào)以產(chǎn)生更好和有意義的結(jié)果。
步驟3:選擇模型
一旦完成了以數(shù)據(jù)為中心的步驟,選擇模型類型就是我們的下一個行動方案。由數(shù)據(jù)科學家開發(fā)的各種現(xiàn)有模型可以用于不同的目的。這些模型在設計時考慮了不同的目標。例如,某些模型更適合處理文本,而另一種模型可能更適合處理圖像。關(guān)于我們的模型,簡單的線性回歸模型適用于區(qū)分水果。在這種情況下,水果的類型將是我們的因變量,而水果的顏色和水果的形狀將是兩個預測變量或自變量。
在我們的示例中,模型選擇非常簡單。在更復雜的情況下,我們需要做出與預期結(jié)果相匹配的選擇??梢栽?大類中探索機器學習模型的選項。第一類是監(jiān)督學習模型。在這樣的模型中,結(jié)果是已知的,因此我們不斷改進模型本身,直到我們的輸出達到所需的精度水平。為我們的水果模型選擇的線性回歸模型是監(jiān)督學習的一個例子。如果結(jié)果未知,我們需要分類,則使用第二類,即無監(jiān)督學習。無監(jiān)督學習的示例包括K-means和Apriori算法。第三類是強化學習。它著重于學習在反復試驗的基礎上做出更好的決策。它們通常在商業(yè)環(huán)境中使用。馬爾可夫的決策過程就是一個例子。
步驟4:培訓
機器學習過程的核心是模型的訓練。大量的“學習”在此階段完成。在這里,我們使用分配給訓練的數(shù)據(jù)集的一部分來教我們的模型來區(qū)分這兩種成果。如果我們用數(shù)學術(shù)語查看模型,則輸入(即我們的2個要素)將具有系數(shù)。這些系數(shù)稱為特征權(quán)重。也將涉及一個常數(shù)或y截距。這稱為模型的偏差。確定其值的過程是反復試驗的。最初,我們?yōu)樗鼈冞x擇隨機值并提供輸入。將獲得的輸出與實際輸出進行比較,并通過嘗試不同的權(quán)重和偏差值將差異最小化。
培訓需要耐心和實驗。知道將在其中實施模型的領(lǐng)域的知識也很有用。例如,如果將機器學習模型用于識別保險公司的高風險客戶,則由于可以在迭代過程中進行更多有根據(jù)的猜測,因此有關(guān)保險行業(yè)運作方式的知識將加快培訓過程。如果該模型開始成功地發(fā)揮作用,那么培訓將證明是非常有益的。這相當于孩子學習騎自行車的時間。最初,他們可能會摔倒多次,但過了一會兒,他們會更好地掌握過程,并能夠在騎自行車時對不同情況做出更好的反應。
步驟5:評估
在訓練好模型之后,需要對其進行測試,以查看其在現(xiàn)實環(huán)境中能否正常運行。這就是為什么將用于評估而創(chuàng)建的數(shù)據(jù)集的一部分用于檢查模型的熟練程度的原因。這會將模型置于一個場景中,在該場景中遇到的情況并非其訓練的一部分。在我們的案例中,這可能意味著嘗試確定該模型中全新的蘋果或橙子的類型。但是,通過訓練,該模型應具有足夠的能力來推斷信息并確定該水果是蘋果還是橙子。
在商業(yè)應用中,評估變得非常重要。評估使數(shù)據(jù)科學家可以檢查他們是否設定了要實現(xiàn)的目標。如果結(jié)果不令人滿意,則需要重新檢查先前的步驟,以便找出并找出模型性能不佳的根本原因。如果評估未正確完成,則該模型可能無法出色地實現(xiàn)其所需的商業(yè)目的。這可能意味著設計和銷售模型的公司可能會失去與客戶的良好信譽。這也可能會損害公司的聲譽,因為在信任公司關(guān)于機器學習模型的敏銳度時,未來的客戶可能會猶豫不決。因此,評估模型對于避免上述不良影響至關(guān)重要。
步驟6:超參數(shù)調(diào)整
如果評估成功,則進入超參數(shù)調(diào)整步驟。此步驟試圖改善在評估步驟中獲得的積極結(jié)果。對于我們的示例,我們將看看是否可以使我們的模型在識別蘋果和橙子方面更加出色。我們可以采用不同的方法來改進模型。其中之一是重新訓練步驟,并使用訓練數(shù)據(jù)集的多次掃描來訓練模型。這可能會導致更高的準確性,因為訓練的持續(xù)時間越長,暴露越多,并改善了模型的質(zhì)量。解決該問題的另一種方法是優(yōu)化提供給模型的初始值。隨機初始值通常會因反復試驗逐漸完善而產(chǎn)生較差的結(jié)果。然而,如果我們可以提出更好的初始值,或者使用分布而不是值來啟動模型,那么我們的結(jié)果可能會更好。我們還可以使用其他參數(shù)來完善模型,但是該過程比邏輯過程更直觀,因此沒有確定的方法。
自然地,出現(xiàn)一個問題,當模型實現(xiàn)其目標時,為什么我們首先需要進行超參數(shù)調(diào)整?這可以通過查看基于機器學習的服務提供商的競爭性質(zhì)來回答??蛻魧で髾C器學習模型來解決各自的問題時,可以從多個選項中進行選擇。但是,它們更有可能被產(chǎn)生最準確結(jié)果的方法所吸引。這就是為什么要確保機器學習模型的商業(yè)成功,超參數(shù)調(diào)整是必不可少的步驟。
步驟7:預測
機器學習過程的最后一步是預測。在此階段,我們認為模型已準備就緒,可以用于實際應用。我們的水果模型現(xiàn)在應該能夠回答給定的水果是蘋果還是橙子的問題。該模型不受人為干擾,并根據(jù)其數(shù)據(jù)集和訓練得出自己的結(jié)論。該模型所面臨的挑戰(zhàn)仍然是在不同的相關(guān)場景下其性能是否能勝過或至少與人類判斷相匹配。
預測步驟是最終用戶在各自行業(yè)中使用機器學習模型時看到的內(nèi)容。這一步凸顯了為什么許多人認為機器學習是各個行業(yè)的未來。復雜但執(zhí)行良好的機器學習模型可以改善其各自所有者的決策過程。做出決定時,人類只能處理一定數(shù)量的數(shù)據(jù)和相關(guān)因素。另一方面,機器學習模型可以處理和鏈接大量數(shù)據(jù)。這些鏈接使模型可以獲得獨特的見解,如果采用通常的手動方法,則可能無法發(fā)現(xiàn)這些見解。結(jié)果,寶貴的人力資源從處理信息然后做出決定的負擔中解放出來。
結(jié)論
借助機器學習,我們可以確定如何區(qū)分蘋果和橘子,盡管聽起來可能并不令人印象深刻,但是對于大多數(shù)機器學習模型而言,我們采取的步驟都是相同的。隨著機器學習的發(fā)展和AI的普遍發(fā)展,該標準將來可能會改變,但是下次需要進行ML項目時,請記住這些標準:
- 收集數(shù)據(jù)
- 準備該數(shù)據(jù)
- 選擇模型
- 訓練
- 評估
- 超參數(shù)調(diào)整
- 預言

























