偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)科學(xué)的下一個「超能力」:模型可解釋性

開發(fā) 開發(fā)工具 數(shù)據(jù)分析
很多人重視重視模型的預(yù)測能力,卻忽略了模型可解釋性的重要性,只知其然而不知其所以然。為什么說模型的可解釋性這么重要呢?作者就5個方面對此進(jìn)行了闡述。

在過去的 10 年間,我采訪了許多數(shù)據(jù)科學(xué)家,模型的可解釋性是我最喜歡的主題,我用它來區(qū)分***的數(shù)據(jù)科學(xué)家和一般的數(shù)據(jù)科學(xué)家。

有些人認(rèn)為機(jī)器學(xué)習(xí)模型是黑箱,能做出預(yù)測但無法理解;可是***的數(shù)據(jù)科學(xué)家可以通過任何模型洞察真實世界。給出任何模型,這些數(shù)據(jù)科學(xué)家都可以輕松地回答下面的問題:

  • 模型認(rèn)為數(shù)據(jù)中最重要的特征是什么
  • 就模型的任何單個預(yù)測結(jié)果而言,數(shù)據(jù)中的每個特征是如何影響這一預(yù)測結(jié)果的
  • 特征之間什么樣的相互作用對模型預(yù)測產(chǎn)生的影響***

這些問題的答案比大多數(shù)人認(rèn)為的要有意義。受此啟發(fā),我在 Kaggle 上開設(shè)了模型可解釋性的微課程。無論你是通過 Kaggle 還是其他的綜合性資源(比如《統(tǒng)計學(xué)習(xí)基礎(chǔ)(Elements of Statistical Learning)》)進(jìn)行學(xué)習(xí),這些技術(shù)都將徹底地改變你構(gòu)建、驗證和部署機(jī)器學(xué)習(xí)模型的方式。

[[260764]]

為什么這些洞察結(jié)果很有價值?

模型洞察結(jié)果的五個最重要應(yīng)用是:

  • 調(diào)試
  • 指導(dǎo)特征工程
  • 指導(dǎo)未來數(shù)據(jù)的收集方向
  • 指導(dǎo)人類做出決策
  • 建立信任

1. 調(diào)試

這個世界中存在很多不可靠的、雜亂無章且具有大量噪聲的數(shù)據(jù)。當(dāng)你寫下預(yù)處理代碼時,你就添加了潛在的錯誤源頭。加上目標(biāo)泄漏的可能性,在真實的數(shù)據(jù)科學(xué)項目中,在某個點出現(xiàn)錯誤是正常的,而非例外。

鑒于錯誤的頻率以及潛在的災(zāi)難性后果,調(diào)試成為了數(shù)據(jù)科學(xué)中最有價值的技能之一。理解模型正在尋找的模式有助于你確定模型何時與你對現(xiàn)實世界的了解不一致,這一般都是追蹤錯誤的***步。

2. 指導(dǎo)特征工程

特征工程一般是提高模型準(zhǔn)確率的最有效方法。特征工程通常包括轉(zhuǎn)換原始數(shù)據(jù)或之前創(chuàng)建的特征來反復(fù)創(chuàng)建新特征。

有時候你可以僅憑對基本主題的直覺來完成這個過程。但是當(dāng)原始特征有 100 多個或者你缺乏手頭項目的背景知識時,你就需要更多指導(dǎo)了。

Kaggle 競賽中有道題是關(guān)于預(yù)測貸款違約的,這就是一個極端的例子。這道題中有 100 多個原始特征。出于隱私原因,這些特征沒用常見的英文名字,而是用 f1、f2、f3 這樣的代號命名的。這就模擬了一個你不怎么了解原始數(shù)據(jù)的場景。

一名參賽者發(fā)現(xiàn)了 f527~f528 這兩個特征之間的差異,從而創(chuàng)建了強(qiáng)大的新特征。將這一差異作為特征的模型比沒有這個特征的模型要好得多。但是當(dāng)變量有數(shù)百個時,你怎么能想到創(chuàng)建這個變量呢?

你在這門課程中學(xué)到的技巧能讓你輕易分辨出 f527 和 f528 是重要特征,而且它們是有緊密關(guān)聯(lián)的。這會指導(dǎo)你考慮轉(zhuǎn)換這兩個變量,從而找到 f527-f528 的「黃金特征」。

現(xiàn)在的數(shù)據(jù)集動輒就有成百上千個原始特征,因此這個方法的重要性與日俱增。

3. 指導(dǎo)未來數(shù)據(jù)的收集方向

你無法控制在線下載的數(shù)據(jù)集。但許多使用數(shù)據(jù)科學(xué)的企業(yè)和組織都有機(jī)會擴(kuò)大他們收集數(shù)據(jù)的類型。收集新類型的數(shù)據(jù)又貴又不方便,所以他們只會收集值得費力氣的數(shù)據(jù)?;谀P偷亩床旖Y(jié)果可以讓你更好地理解當(dāng)前特征的價值,這將幫助你推斷出哪些新價值是最有用的。

4. 指導(dǎo)人類做出決策

有些決策是由模型自動做出的——當(dāng)你登錄亞馬遜時,網(wǎng)站沒有人在倉促間決定給你展示什么內(nèi)容。但是有很多重要的決定必須要由人類來做。就這些決策而言,模型的洞察能力比預(yù)測能力更有價值。

5. 建立信任

在沒有驗證基本事實的情況下,人們不會相信你的模型,也就不會根據(jù)你的模型做出重要的決策。就數(shù)據(jù)出錯的頻率而言,這是明智的預(yù)防措施。在實踐中,展示符合他們一般認(rèn)知的洞察結(jié)果有助于建立用戶對模型的信任,即便這些用戶對數(shù)據(jù)科學(xué)知之甚少也沒關(guān)系。

原文鏈接:

https://towardsdatascience.com/why-model-explainability-is-the-next-data-science-superpower-b11b6102a5e0

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2019-08-29 18:07:51

機(jī)器學(xué)習(xí)人工智能

2024-05-28 08:00:00

人工智能機(jī)器學(xué)習(xí)

2011-02-22 17:48:34

Konqueror

2023-11-12 23:01:44

PaddleOCR深度學(xué)習(xí)

2021-01-08 10:47:07

機(jī)器學(xué)習(xí)模型算法

2023-03-07 16:48:54

算法可解釋性

2023-12-22 14:31:52

2015-03-13 11:23:21

編程編程超能力編程能力

2025-01-13 08:13:18

2024-09-18 05:25:00

可解釋性人工智能AI

2024-12-16 07:30:00

2025-09-25 07:06:22

2024-11-26 00:41:23

Python編程腳本

2018-05-23 10:23:18

數(shù)據(jù)系統(tǒng)機(jī)器學(xué)習(xí)

2024-11-04 19:46:38

2024-03-14 08:28:45

2022-06-14 14:48:09

AI圖像GAN

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡(luò)

2021-08-03 21:24:13

ARVR

2025-10-11 01:12:00

Pythontqdmloguru
點贊
收藏

51CTO技術(shù)棧公眾號