機器學習的工作原理
機器學習是一種數(shù)據(jù)分析技術(shù),可在數(shù)據(jù)集上構(gòu)建預測模型,以提供有用的答案,這些答案可用于制定重要決策。 它利用統(tǒng)計概念和數(shù)學方法通過python和R等編碼語言處理大數(shù)據(jù)。有多種機器學習技術(shù)。 但是,本文將介紹回歸和分類。
回歸
回歸用于預測連續(xù)的數(shù)值數(shù)據(jù)。 它是一種廣泛使用的統(tǒng)計概念,可以手動應用于具有兩個變量和少量元素的小型數(shù)據(jù)集。 當處理具有多個變量和元素負載的大型數(shù)據(jù)集時,通過將包含數(shù)據(jù)集的文件上載到編碼平臺并運行一堆代碼來完成回歸。
有多種不同的回歸技術(shù),例如線性回歸,多項式回歸,多元線性回歸和多元多項式回歸。 它們的應用根據(jù)要使用多少個自變量來預測因變量而有所不同。 以下是一些與回歸相關(guān)的有用術(shù)語:
回歸方程
回歸方程是使用自變量對因變量進行預測的方程。 可以表示為y = mx + b,y = ax ^ n + bx ^ n-1 +…+ c,y = ax + bx2 +…+ c或y = ax ^ n + bx ^ n-1 +…+ c分別表示線性回歸,多項式回歸,多元線性回歸和多元多項式回歸。

回歸系數(shù)
回歸系數(shù)是應用于線性回歸或多元線性回歸的常數(shù)值。 它可能對因變量產(chǎn)生增加或減少的影響。 讓我們舉一個例子,其中使用年齡和身高(cm)等變量來確定體重(磅)。
對于線性回歸,可以將其表示為體重= 5 *年齡+30。此等式表明,年齡每增加1年,體重就會增加5磅。
對于多元線性回歸,它可以表示為體重= 4 年齡+ 2.5 高度+30。該方程式意味著,假設年齡為零,則體重每增加1厘米將增加2.5幅度。 身高為零,體重將增加4磅,年齡會增加一年。
Y軸截距
如果將回歸系數(shù)或x設置為零,則這可以描述為因變量的值。 可以表示為y = c。 這也是回歸線切割y軸的點。
培訓模型與測試模型
數(shù)據(jù)集分為兩組:訓練數(shù)據(jù)集和測試數(shù)據(jù)集。 將數(shù)據(jù)集分成幾組后,使用訓練數(shù)據(jù)集生成回歸方程。 開發(fā)完成后,將回歸方程應用于測試數(shù)據(jù)集以創(chuàng)建預測。
可以將預測值與實際值進行比較以測試準確性。 評估預測的指標如下:
測定系數(shù)
r平方的確定系數(shù)是一種有用的機制,用于解釋回歸方程對進行預測的準確性。 通過將預測值與實際值進行比較來完成此操作。 它提供了一個值,該值表示自變量解釋了因變量的比例。 為了提高r平方得分,可以從一種回歸樣式切換到另一種回歸樣式。
相關(guān)系數(shù)
這是另一個非常有用的值,它描述了實際結(jié)果和預測結(jié)果中的值之間的關(guān)系。 范圍是-1到1。如果相關(guān)系數(shù)為負,則預測結(jié)果會隨著實際結(jié)果的減少而增加,反之亦然。 如果為正,則預測結(jié)果隨實際結(jié)果的增加而增加。 值越接近| 1 |,關(guān)系就越完美。
均方根誤差
均方誤差是每個數(shù)據(jù)點的預測值和實際值之間的總平方差的平均值。 該值是數(shù)據(jù)集平均距離回歸線的接近程度的度量。 該值的平方根稱為均方根誤差。 目的是使均方根誤差接近0,以獲得最佳擬合。

分類
分類是另一種很棒的機器學習算法,可用于預測分類數(shù)據(jù)集。 自變量可以是連續(xù)的或分類的,而因變量是分類的。 分類可以用來建立提供是(1)或否(0)答案的模型,也可以用來建立多個類別(0,1,2 ….),具體取決于用戶的議程。 像回歸一樣,它利用訓練和測試數(shù)據(jù)集。
使用我預測貸款申請狀態(tài)的前一個項目的結(jié)果,下面將解釋分類方法,例如K最近鄰居和決策樹分類器及其度量標準:
K最近鄰居
這是一種分類方法,使用最接近該特定數(shù)據(jù)點的數(shù)據(jù)點來預測該數(shù)據(jù)點應屬于的類別。 通過評估每個數(shù)據(jù)點的獨立變量和因變量,并將它們與k個最接近的變量進行比較,它使用訓練數(shù)據(jù)集創(chuàng)建了一個預測模型。 該模型用于預測測試數(shù)據(jù)集中每個數(shù)據(jù)點的類別,并測量其準確性。
通過將k設置為1來進行多次迭代,測量其精度并增加k值直至達到峰值精度。

通過將預測模型與訓練模型擬合,并使用該預測模型對測試數(shù)據(jù)集中的數(shù)據(jù)點進行分類,可以使用此k-max值預測模型進一步分析數(shù)據(jù)集。
決策樹分類器
決策樹分類器使用與K最近鄰居不同的方法。 首先查看訓練模型中的所有數(shù)據(jù)點并評估一個自變量,然后根據(jù)該變量的值為其分配是(1)或否(0)標簽。 然后,它基于先前一個或多個自變量的輸出進行其他自變量,以得出Y或N的最終標簽作為預測結(jié)果。

從決策樹分類器訓練數(shù)據(jù)集生成的預測模型可用于預測測試數(shù)據(jù)集中的數(shù)據(jù)點的類別。
混淆矩陣
混淆矩陣是用于分類的表,用于顯示正確預測了多少個值以及錯誤預測了多少個值。 錯誤有兩種類型:I型錯誤和II型錯誤。 I類錯誤被認為是誤報,即歸為正的負值。 II型錯誤是假負數(shù),即被歸類為負數(shù)的正值。

可以使用度量標準(例如精度,召回率和準確性)使用混淆矩陣來計算分類性能。
精確
精度用于查看實際記錄的正值中有多少是正值。 其公式為TP /(TP + FP)。 對于上面的混淆矩陣,精度為:119 /(119 + 54)= 0.69
召回
召回率也稱為真實陽性率。 它計算真實正值在實際正值中的比例。 其公式為TP /(TP + FN)。 回憶上面的混淆矩陣是119 /(119 + 10)= 0.92
真實負利率
真實負比率衡量真實負數(shù)在實際負數(shù)中的比例。 其公式為TN /(TN + FP)。 對于上面的混淆矩陣,它是9 /(9 + 54)= 0.15。
準確性
準確度就是所有準確記錄的值的總和除以所有記錄值的總和。 其公式為(TP + TN)/(TP + TN + FP + FN)。 上面的混淆矩陣的精度為(119 + 9)/(119 + 9 +54 + 10)= 0.67。
F-1分數(shù)
F-1分數(shù)類似于r平方分數(shù)。 它衡量自變量對自變量的解釋程度。 通過將預測值與實際值進行比較來完成此操作。 它越接近1,則預測模型越強。 可以針對不同分類方法的預測模型測量F-1分數(shù),以決定使用哪種分類方法。
結(jié)論
機器學習是一個能夠指導我們在日?;顒又凶龀鲇行Q策的領(lǐng)域。 這將在將來幫助人類和公司做出明智的決策時非常有幫助。 例如,分類可以告訴我們是否要投資某個業(yè)務,而回歸可以告訴我們?nèi)绻顿Y該業(yè)務我們可能賺多少錢。