偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

免費Python機器學習課程八:精確度,召回率

人工智能 機器學習
在本文中,您學習了如何處理偏斜的數(shù)據(jù)集。如何使用F1分數(shù)在精確度和召回率之間進行選擇。希望對您有所幫助。

如何處理機器學習中偏斜的數(shù)據(jù)集

用偏斜的數(shù)據(jù)集開發(fā)有效的機器學習算法可能很棘手。例如,數(shù)據(jù)集涉及銀行中的欺詐活動或癌癥檢測。發(fā)生的情況是,您將在數(shù)據(jù)集中看到99%的時間沒有欺詐活動或沒有癌癥。您可以很容易地作弊,并且始終可以僅預測0(如果癌癥則預測1,如果沒有癌癥則預測0),從而獲得99%的準確性。如果這樣做,我們將擁有99%的準確機器學習算法,但我們將永遠不會檢測到癌癥。如果某人患有癌癥,他/他將永遠得不到治療。在銀行中,不會采取任何針對欺詐活動的措施。因此,僅靠準確性就無法確定偏斜的數(shù)據(jù)集,就像算法是否有效運行一樣。

[[360389]]

背景

有不同的評估矩陣可以幫助處理這些類型的數(shù)據(jù)集。這些評估指標稱為精確召回評估指標。

要了精確度和召回率,您需要了解下表及其所有術(shù)語??紤]二進制分類。它將返回0或1。對于給定的訓練數(shù)據(jù),如果實際類別為1,而預測類別也為1,則稱為真實肯定。如果實際類別為0,而預測類別為1,則為假陽性。如果實際類別為1,但預測類別為0,則稱為假陰性。如果實際類別和預測類別均為0,則為真陰性。

免費Python機器學習課程八:精確度,召回率

使用所有這些,我們將計算精度和召回率。

精確

Precision會計算出我們預測為欺詐的交易(預測為1類)中有多少實際上是欺詐的??梢允褂靡韵鹿接嬎憔龋?/p>

免費Python機器學習課程八:精確度,召回率

進一步分解,該公式可以寫成:

免費Python機器學習課程八:精確度,召回率

從公式中可以看出,更高的精度是好的。因為更高的精度意味著更多的真實肯定。這意味著當我們說此交易是欺詐性的時,這是事實。

召回

回憶告訴我們,最初欺詐的所有交易中有多少被檢測為欺詐。這意味著,如果我們告知銀行適當?shù)臋?quán)力采取行動,那么在某筆交易實際上是欺詐的情況下。當我第一次閱讀這些關(guān)于精確度和召回率的定義時,我花了一些時間才能真正理解它們之間的區(qū)別。我希望你能更快地得到它。如果沒有,那就不用擔心。你不是一個人。

召回率可以通過以下公式計算:

免費Python機器學習課程八:精確度,召回率

用上面2 x 2表中定義的術(shù)語表示:

免費Python機器學習課程八:精確度,召回率 

從精確度和召回率做出決策

精確度和召回率可以更好地了解算法的實際運行方式,尤其是在數(shù)據(jù)集高度偏斜的情況下。如果我們一直預測為0并獲得99.5%的準確度,則召回率和精確度都將為0。因為沒有真正的肯定。因此,您知道分類器不是一個好的分類器。當精度和查全率都很高時,表明該算法運行良好。

假設(shè)僅在高度自信的情況下,我們要預測y = 1。因為有時候這很重要。特別是當我們處理醫(yī)療數(shù)據(jù)時。假設(shè)我們正在檢測某人是否患有心臟病或癌癥。預測假陽性會給一個人的生活帶來很多痛苦。提醒一下,通常,邏輯假設(shè)如果假設(shè)大于或等于0.5,則預測1;如果假設(shè)小于0.5,則預測0。

  • 如果假設(shè)≥0.5,則預測1
  • 如果假設(shè)<0.5,則預測0

但是,當我們?nèi)缟纤鎏幚砟承┟舾星闆r時,我們想更確定自己的結(jié)果,如果假設(shè)≥0.7,我們將預測為1,如果假設(shè)<0.7,我們將預測為0。如果您想對結(jié)果更有信心,可以看到0.9之類的值。因此,您將90%地確定某人是否患有癌癥。

現(xiàn)在,看看精度和召回率公式。真實肯定和錯誤肯定都會更低。因此,精度會更高。但另一方面,由于我們現(xiàn)在將預測更多的負面因素,因此,假陰性的可能性會更高。在這種情況下,召回率會更高。但是太多的假陰性也不好。如果某人確實患有癌癥,或者某個賬戶有欺詐行為,但是我們告訴他們他們沒有癌癥,或者該賬戶沒有欺詐行為,則可能導致災難。

為了避免誤報并提高召回率,我們需要將閾值更改為以下內(nèi)容:

  • 如果假設(shè)≥0.3,則預測1
  • 如果假設(shè)<0.3,則預測為0

與以前的情況相反,我們將具有更高的召回率和更低的精度。

那么如何確定閾值呢?這將取決于您的要求。根據(jù)數(shù)據(jù)集,您必須決定是否需要更高的精度或更高的查全率。這是精度調(diào)用曲線:

免費Python機器學習課程八:精確度,召回率

精確調(diào)用曲線可以是任何形狀。因此,我在這里顯示三種不同的形狀。如果您不能自己決定是否需要更高的精度或更高的查全率,則可以使用F1分數(shù)。

F1分數(shù)

F1分數(shù)是準確性和召回率的平均值。但是平均公式卻不同。常規(guī)平均公式在這里不起作用??匆幌缕骄剑?/p>

(精確+召回)/ 2

即使精度為0或召回率為零,平均值仍為0.5。請記住,從我們之前的討論中可以看出,精度為零是什么意思。我們總是可以預測y =1。因此,這應該是不可接受的。因為整個精確調(diào)用的想法是避免這種情況。公式F1得分是:

免費Python機器學習課程八:精確度,召回率

在這里,P是精度,R是召回率。如果精度為零或召回率為零,則F1分數(shù)將為零。因此,您將知道分類器沒有按照我們的期望工作。當精度和召回率都完美時,這意味著精度為1,召回率也為1,F(xiàn)1分數(shù)也將為1。因此,理想的F1分數(shù)是1。最好嘗試使用不同的閾值并計算精度,召回率和F1分數(shù),以找到適合您的機器學習算法的最佳閾值。

結(jié)論

在本文中,您學習了如何處理偏斜的數(shù)據(jù)集。如何使用F1分數(shù)在精確度和召回率之間進行選擇。希望對您有所幫助。

 

責任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2020-12-19 10:54:25

機器學習線性回歸算法

2020-12-20 20:31:56

Python機器學習多元線性回歸

2020-12-23 07:54:56

Python機器學習邏輯回歸算法

2020-12-29 06:45:30

Python機器學習K均值聚類

2020-12-25 10:08:53

Python機器學習神經(jīng)網(wǎng)絡(luò)算法

2020-04-24 09:35:46

機器學習技術(shù)模型

2009-08-17 22:52:41

IT運維管理Mocha ITOM工摩卡

2010-04-06 13:58:33

2021-01-01 14:59:51

Python機器學習算法

2020-12-27 21:14:06

Python機器學習算法

2020-12-22 07:09:01

Python機器學習多項式回歸

2020-12-24 06:54:45

Python機器學習多類分類邏輯回歸

2024-04-29 09:16:33

2025-06-30 08:32:00

2020-03-20 11:22:09

人工智能機器學習技術(shù)

2023-04-27 09:55:09

分類器ROC曲線混淆矩陣

2019-05-29 07:59:54

機器學習深度學習自然語言

2022-08-05 14:23:08

機器學習計算復雜度算法

2024-09-30 05:43:44

2017-04-20 12:51:28

點贊
收藏

51CTO技術(shù)棧公眾號