偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

免費Python機器學(xué)習(xí)課程八：精確度，召回率

作者：聞數(shù)起舞 2020-12-28 08:26:51

人工智能機器學(xué)習(xí)

在本文中，您學(xué)習(xí)了如何處理偏斜的數(shù)據(jù)集。如何使用F1分?jǐn)?shù)在精確度和召回率之間進(jìn)行選擇。希望對您有所幫助。

如何處理機器學(xué)習(xí)中偏斜的數(shù)據(jù)集

用偏斜的數(shù)據(jù)集開發(fā)有效的機器學(xué)習(xí)算法可能很棘手。例如，數(shù)據(jù)集涉及銀行中的欺詐活動或癌癥檢測。發(fā)生的情況是，您將在數(shù)據(jù)集中看到99%的時間沒有欺詐活動或沒有癌癥。您可以很容易地作弊，并且始終可以僅預(yù)測0(如果癌癥則預(yù)測1，如果沒有癌癥則預(yù)測0)，從而獲得99%的準(zhǔn)確性。如果這樣做，我們將擁有99%的準(zhǔn)確機器學(xué)習(xí)算法，但我們將永遠(yuǎn)不會檢測到癌癥。如果某人患有癌癥，他/他將永遠(yuǎn)得不到治療。在銀行中，不會采取任何針對欺詐活動的措施。因此，僅靠準(zhǔn)確性就無法確定偏斜的數(shù)據(jù)集，就像算法是否有效運行一樣。

背景

有不同的評估矩陣可以幫助處理這些類型的數(shù)據(jù)集。這些評估指標(biāo)稱為精確召回評估指標(biāo)。

要了精確度和召回率，您需要了解下表及其所有術(shù)語。考慮二進(jìn)制分類。它將返回0或1。對于給定的訓(xùn)練數(shù)據(jù)，如果實際類別為1，而預(yù)測類別也為1，則稱為真實肯定。如果實際類別為0，而預(yù)測類別為1，則為假陽性。如果實際類別為1，但預(yù)測類別為0，則稱為假陰性。如果實際類別和預(yù)測類別均為0，則為真陰性。

免費Python機器學(xué)習(xí)課程八：精確度，召回率

使用所有這些，我們將計算精度和召回率。

精確

Precision會計算出我們預(yù)測為欺詐的交易(預(yù)測為1類)中有多少實際上是欺詐的?？梢允褂靡韵鹿接嬎憔龋?/p>

進(jìn)一步分解，該公式可以寫成：

從公式中可以看出，更高的精度是好的。因為更高的精度意味著更多的真實肯定。這意味著當(dāng)我們說此交易是欺詐性的時，這是事實。

召回

回憶告訴我們，最初欺詐的所有交易中有多少被檢測為欺詐。這意味著，如果我們告知銀行適當(dāng)?shù)臋?quán)力采取行動，那么在某筆交易實際上是欺詐的情況下。當(dāng)我第一次閱讀這些關(guān)于精確度和召回率的定義時，我花了一些時間才能真正理解它們之間的區(qū)別。我希望你能更快地得到它。如果沒有，那就不用擔(dān)心。你不是一個人。

召回率可以通過以下公式計算：

用上面2 x 2表中定義的術(shù)語表示：

從精確度和召回率做出決策

精確度和召回率可以更好地了解算法的實際運行方式，尤其是在數(shù)據(jù)集高度偏斜的情況下。如果我們一直預(yù)測為0并獲得99.5%的準(zhǔn)確度，則召回率和精確度都將為0。因為沒有真正的肯定。因此，您知道分類器不是一個好的分類器。當(dāng)精度和查全率都很高時，表明該算法運行良好。

假設(shè)僅在高度自信的情況下，我們要預(yù)測y = 1。因為有時候這很重要。特別是當(dāng)我們處理醫(yī)療數(shù)據(jù)時。假設(shè)我們正在檢測某人是否患有心臟病或癌癥。預(yù)測假陽性會給一個人的生活帶來很多痛苦。提醒一下，通常，邏輯假設(shè)如果假設(shè)大于或等于0.5，則預(yù)測1;如果假設(shè)小于0.5，則預(yù)測0。

如果假設(shè)≥0.5，則預(yù)測1
如果假設(shè)<0.5，則預(yù)測0

但是，當(dāng)我們?nèi)缟纤鎏幚砟承┟舾星闆r時，我們想更確定自己的結(jié)果，如果假設(shè)≥0.7，我們將預(yù)測為1，如果假設(shè)<0.7，我們將預(yù)測為0。如果您想對結(jié)果更有信心，可以看到0.9之類的值。因此，您將90%地確定某人是否患有癌癥。

現(xiàn)在，看看精度和召回率公式。真實肯定和錯誤肯定都會更低。因此，精度會更高。但另一方面，由于我們現(xiàn)在將預(yù)測更多的負(fù)面因素，因此，假陰性的可能性會更高。在這種情況下，召回率會更高。但是太多的假陰性也不好。如果某人確實患有癌癥，或者某個賬戶有欺詐行為，但是我們告訴他們他們沒有癌癥，或者該賬戶沒有欺詐行為，則可能導(dǎo)致災(zāi)難。

為了避免誤報并提高召回率，我們需要將閾值更改為以下內(nèi)容：

如果假設(shè)≥0.3，則預(yù)測1
如果假設(shè)<0.3，則預(yù)測為0

與以前的情況相反，我們將具有更高的召回率和更低的精度。

那么如何確定閾值呢?這將取決于您的要求。根據(jù)數(shù)據(jù)集，您必須決定是否需要更高的精度或更高的查全率。這是精度調(diào)用曲線：

免費Python機器學(xué)習(xí)課程八：精確度，召回率

精確調(diào)用曲線可以是任何形狀。因此，我在這里顯示三種不同的形狀。如果您不能自己決定是否需要更高的精度或更高的查全率，則可以使用F1分?jǐn)?shù)。

F1分?jǐn)?shù)

F1分?jǐn)?shù)是準(zhǔn)確性和召回率的平均值。但是平均公式卻不同。常規(guī)平均公式在這里不起作用?？匆幌缕骄剑?/p>

(精確+召回)/ 2

即使精度為0或召回率為零，平均值仍為0.5。請記住，從我們之前的討論中可以看出，精度為零是什么意思。我們總是可以預(yù)測y =1。因此，這應(yīng)該是不可接受的。因為整個精確調(diào)用的想法是避免這種情況。公式F1得分是：

在這里，P是精度，R是召回率。如果精度為零或召回率為零，則F1分?jǐn)?shù)將為零。因此，您將知道分類器沒有按照我們的期望工作。當(dāng)精度和召回率都完美時，這意味著精度為1，召回率也為1，F(xiàn)1分?jǐn)?shù)也將為1。因此，理想的F1分?jǐn)?shù)是1。最好嘗試使用不同的閾值并計算精度，召回率和F1分?jǐn)?shù)，以找到適合您的機器學(xué)習(xí)算法的最佳閾值。

結(jié)論

在本文中，您學(xué)習(xí)了如何處理偏斜的數(shù)據(jù)集。如何使用F1分?jǐn)?shù)在精確度和召回率之間進(jìn)行選擇。希望對您有所幫助。

責(zé)任編輯：趙寧寧來源：今日頭條

Python 機器學(xué)習(xí)數(shù)據(jù)集

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="dg83l"></pre>

_{<pre id="dg83l"></pre>}

<tfoot id="dg83l"></tfoot>

<u id="dg83l"><label id="dg83l"></label></u>