偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

幾種特征選擇方法的比較,孰好孰壞?

人工智能 機(jī)器學(xué)習(xí)
在本文中,重點(diǎn)介紹特征選擇方法基于評(píng)估機(jī)器學(xué)習(xí)模型的特征重要性在各種不可解釋(黑盒)及可解釋機(jī)器學(xué)習(xí)方法上的表現(xiàn)。比較了CART、Optimal Trees、XGBoost和SHAP正確識(shí)別相關(guān)特征子集的能力。

[[403820]]

本文轉(zhuǎn)載自微信公眾號(hào)「數(shù)據(jù)STUDIO」,作者云朵君。轉(zhuǎn)載本文請(qǐng)聯(lián)系數(shù)據(jù)STUDIO公眾號(hào)。

在本文中,重點(diǎn)介紹特征選擇方法基于評(píng)估機(jī)器學(xué)習(xí)模型的特征重要性在各種不可解釋(黑盒)及可解釋機(jī)器學(xué)習(xí)方法上的表現(xiàn)。比較了CART、Optimal Trees、XGBoost和SHAP正確識(shí)別相關(guān)特征子集的能力。

無(wú)論使用原生特征重要性方法還是SHAP、 XGBoost都不能清晰地區(qū)分相關(guān)和不相關(guān)的特征。而可解釋方法(interpretable methods)能夠正確有效地識(shí)別無(wú)關(guān)特征,從而為特征選擇提供了顯著的良好的性能。

特征選擇

在物聯(lián)網(wǎng)的時(shí)代,每天都在以越來(lái)越快的速度創(chuàng)建和收集數(shù)據(jù),這導(dǎo)致與每個(gè)數(shù)據(jù)點(diǎn)相關(guān)的數(shù)據(jù)集具有成千上萬(wàn)的特征。雖然眾多機(jī)器學(xué)習(xí)和人工智方法能都擁有強(qiáng)大的預(yù)測(cè)能力,但在這種高維數(shù)據(jù)集中,模型在理解各種特征的相對(duì)質(zhì)量時(shí),也會(huì)變得很復(fù)雜。事實(shí)上,在訓(xùn)練模型時(shí)并不需要用到所有的高維數(shù)據(jù)集,而運(yùn)用其中一小部分特征來(lái)訓(xùn)練模型也可以得到大部分或所有的預(yù)測(cè)性能。

特征選擇(feature selection)從所有的特征中,選擇出意義的,對(duì)模型有幫助的特征,以避免必須將所有特征都導(dǎo)入模型中去訓(xùn)練的情況。

我們一般有四種方法可以選擇:過(guò)濾法、嵌入法、包裝法和降維法。其中包裝法和嵌入法都是依賴于依賴于算法自身的選擇,即基于評(píng)估機(jī)器學(xué)習(xí)模型的特征重要性,根據(jù)重要性分?jǐn)?shù)了解哪些特征與做出預(yù)測(cè)最相關(guān)的方法。這也是最常用的特征選擇方法之一。

特征選擇的重要性并不需要過(guò)多描述,因此由模型計(jì)算出的重要性分?jǐn)?shù)能否反映實(shí)際情況是至關(guān)重要的。錯(cuò)誤地高估不相關(guān)特征的重要性會(huì)導(dǎo)致錯(cuò)誤的發(fā)現(xiàn),而低估相關(guān)特征的重要性會(huì)導(dǎo)致我們丟棄重要的特征,從而導(dǎo)致模型性能較差。

此外,像XGBoost這樣的黑盒模型提供了更加先進(jìn)的預(yù)測(cè)性能,但人類并不容易理解其內(nèi)在原理,因需要依賴于特征重要性分?jǐn)?shù)或SHAP之類的可解釋性方法來(lái)研究他們對(duì)特征選擇的行為。

基于評(píng)估器計(jì)算特征重要性原理

前面已經(jīng)說(shuō)過(guò)最常用的特征選擇方法之一是基于評(píng)估機(jī)器學(xué)習(xí)模型的特征重要性,而評(píng)估機(jī)器學(xué)習(xí)模型試圖量化每個(gè)特征的相對(duì)重要性,以預(yù)測(cè)目標(biāo)變量。特征重要性的計(jì)算方式是通過(guò)度量模型中每個(gè)特性的使用所帶來(lái)的性能增量改進(jìn)來(lái),并在整個(gè)模型中總結(jié)這些信息。我們可以使用它來(lái)識(shí)別那些被認(rèn)為很少或不重要的特性,并將它們從模型中刪除。

不足之處:任何特征選擇的方法只有在它也是準(zhǔn)確的時(shí)候才有用。

CART樹(shù)特征選擇的優(yōu)缺點(diǎn)

基于樹(shù)的模型是機(jī)器學(xué)習(xí)中最常用的方法之一,因?yàn)樗鼈兊哪芰涂山忉屝?。CART等單樹(shù)模型是完全可解釋的,因?yàn)榭梢院苋菀椎赝ㄟ^(guò)觀察最終決策樹(shù)中的分割來(lái)遵循它們的預(yù)測(cè)邏輯。

然而,CART是使用每次形成一個(gè)分割的樹(shù)的貪婪啟發(fā)式方法進(jìn)行訓(xùn)練模型的,這種方法會(huì)產(chǎn)生許多缺點(diǎn)。

  • 首先,這可能導(dǎo)致樹(shù)遠(yuǎn)不是全局最優(yōu)的,因?yàn)樨澙穯l(fā)式中任何給定點(diǎn)上的最佳分割,這已被證明在樹(shù)的未來(lái)生長(zhǎng)環(huán)境中并不是最佳的選擇。
  • 其次,由于CART算法采用每一步都窮盡搜索所有特征來(lái)拆分選擇方法,所以傾向于選擇拆分點(diǎn)較多的特征。由于特征的選擇很可能會(huì)偏向那些具有大量唯一值的特征,而貪婪算法可能導(dǎo)致在樹(shù)根附近的被用于分割數(shù)據(jù)的特征選擇錯(cuò)誤,而這些特征往往是最重要的。

基于樹(shù)的集成學(xué)習(xí)器

基于樹(shù)的集成方法,如隨機(jī)森林和梯度增強(qiáng)(如XGBoost),通過(guò)集成大量單樹(shù)模型的預(yù)測(cè)來(lái)改進(jìn)CART的性能。這樣確實(shí)帶來(lái)了更為先進(jìn)的性能,但犧牲了模型的可解釋性,因?yàn)槿祟悗缀醪豢赡芾斫獬砂偕锨У臉?shù)模型之間的交互及其他行為。因此,通常需要依賴可變重要性方法來(lái)理解和解釋這些模型的工作機(jī)制。

這些模型在計(jì)算特征重要性時(shí),可能會(huì)存在一定的敏感性,尤其對(duì)具有很多潛在分裂點(diǎn)的特征,及特征中包含一些易形成偏倚問(wèn)題的數(shù)據(jù)。

SHAP

SHAP是一種最新的方法,它統(tǒng)一了許多早期的方法,旨在解決集成樹(shù)模型中的偏倚問(wèn)題,并使用博弈論方法來(lái)理解和解釋每個(gè)特性是如何驅(qū)動(dòng)最終預(yù)測(cè)的。SHAP因?yàn)樗聂敯粜院徒鉀Q偏差問(wèn)題,迅速被廣泛用于解釋黑箱模型和進(jìn)行特征選擇。

最優(yōu)樹(shù)

如前所述,與集成方法相比,CART的預(yù)測(cè)性能較差,但集成方法被迫犧牲單個(gè)決策樹(shù)的可解釋性來(lái)實(shí)現(xiàn)較好的預(yù)測(cè)性能,這使得從業(yè)者不得不在性能和可解釋性之間進(jìn)行選擇。

最優(yōu)樹(shù)利用混合整數(shù)優(yōu)化在單步構(gòu)造全局最優(yōu)決策樹(shù)。所得到的模型不僅保持了單個(gè)決策樹(shù)的可解釋性,又能達(dá)到黑盒模型一樣的高性能。

由于該方法考慮同時(shí)優(yōu)化樹(shù)中的所有分割,而不是貪婪地一個(gè)一個(gè)地優(yōu)化,我們可以預(yù)期分割選擇,不像CART那樣容易受到同樣的偏倚問(wèn)題的影響。

對(duì)比結(jié)果

SHAP和XGBoost一直低估關(guān)鍵特征的重要性,而將不相關(guān)的特征賦予顯著的重要性,并且在較高的噪聲下無(wú)法完全區(qū)分相關(guān)與不相關(guān)的特征。顯然這些不能被用于特征選擇或解釋,否則這將會(huì)發(fā)生嚴(yán)重的后果。

另一方面,可解釋的單樹(shù)模型在識(shí)別與預(yù)測(cè)無(wú)關(guān)的特征方面優(yōu)勢(shì)突出,在需要相對(duì)較少的訓(xùn)練數(shù)據(jù)的情況下將其重要性降至零。

相對(duì)于CART樹(shù),最優(yōu)樹(shù)注重全局優(yōu)化,因而其識(shí)別無(wú)關(guān)特征的速度更快以及對(duì)特征選擇的偏倚問(wèn)題的敏感性更低。

可解釋的單樹(shù)模型在消除無(wú)關(guān)特征方面是完全透明和有效的;在使用最優(yōu)樹(shù)時(shí),通常以很少甚至沒(méi)有性能代價(jià)就能完成消除無(wú)關(guān)特征。

參考:

Comparing interpretability and explainability for feature selection

 

Interpretable AI Cambridge, MA 02142,Jack Dunn etc.

 

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)據(jù)STUDIO
相關(guān)推薦

2016-12-01 18:52:42

開(kāi)源閉源

2009-12-14 14:12:07

Linux文件系統(tǒng)

2024-02-19 18:06:04

PythonJuliaRust

2023-06-04 13:51:08

2022-04-18 16:15:31

UbuntuArchLinux

2022-10-12 07:11:38

哈希加密系統(tǒng)

2011-03-04 09:17:40

GNOMEUnityUbuntu

2016-05-05 09:56:59

Angular 2React

2012-05-29 13:10:50

HTML5

2016-12-06 08:30:00

DevOps編程開(kāi)發(fā)

2012-05-03 11:22:46

2016-09-22 09:12:26

云存儲(chǔ)實(shí)體存儲(chǔ)

2019-03-07 16:05:59

webJettyTomcat

2015-11-09 14:38:32

2020-05-06 11:04:52

Elasticsear架構(gòu)運(yùn)維

2023-03-23 08:00:00

人工智能ChatGPTGoogle Bar

2012-08-10 10:12:24

傳統(tǒng)網(wǎng)絡(luò)云計(jì)算

2011-11-28 09:31:23

NIST云計(jì)算云服務(wù)

2019-09-09 09:15:00

2015-03-18 10:04:05

VoLTEVoWiFi基于IP傳輸語(yǔ)音
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)