幾種特征選擇方法的比較,孰好孰壞?
本文轉(zhuǎn)載自微信公眾號(hào)「數(shù)據(jù)STUDIO」,作者云朵君。轉(zhuǎn)載本文請(qǐng)聯(lián)系數(shù)據(jù)STUDIO公眾號(hào)。
在本文中,重點(diǎn)介紹特征選擇方法基于評(píng)估機(jī)器學(xué)習(xí)模型的特征重要性在各種不可解釋(黑盒)及可解釋機(jī)器學(xué)習(xí)方法上的表現(xiàn)。比較了CART、Optimal Trees、XGBoost和SHAP正確識(shí)別相關(guān)特征子集的能力。
無(wú)論使用原生特征重要性方法還是SHAP、 XGBoost都不能清晰地區(qū)分相關(guān)和不相關(guān)的特征。而可解釋方法(interpretable methods)能夠正確有效地識(shí)別無(wú)關(guān)特征,從而為特征選擇提供了顯著的良好的性能。
特征選擇
在物聯(lián)網(wǎng)的時(shí)代,每天都在以越來(lái)越快的速度創(chuàng)建和收集數(shù)據(jù),這導(dǎo)致與每個(gè)數(shù)據(jù)點(diǎn)相關(guān)的數(shù)據(jù)集具有成千上萬(wàn)的特征。雖然眾多機(jī)器學(xué)習(xí)和人工智方法能都擁有強(qiáng)大的預(yù)測(cè)能力,但在這種高維數(shù)據(jù)集中,模型在理解各種特征的相對(duì)質(zhì)量時(shí),也會(huì)變得很復(fù)雜。事實(shí)上,在訓(xùn)練模型時(shí)并不需要用到所有的高維數(shù)據(jù)集,而運(yùn)用其中一小部分特征來(lái)訓(xùn)練模型也可以得到大部分或所有的預(yù)測(cè)性能。
特征選擇(feature selection)從所有的特征中,選擇出意義的,對(duì)模型有幫助的特征,以避免必須將所有特征都導(dǎo)入模型中去訓(xùn)練的情況。
我們一般有四種方法可以選擇:過(guò)濾法、嵌入法、包裝法和降維法。其中包裝法和嵌入法都是依賴于依賴于算法自身的選擇,即基于評(píng)估機(jī)器學(xué)習(xí)模型的特征重要性,根據(jù)重要性分?jǐn)?shù)了解哪些特征與做出預(yù)測(cè)最相關(guān)的方法。這也是最常用的特征選擇方法之一。
特征選擇的重要性并不需要過(guò)多描述,因此由模型計(jì)算出的重要性分?jǐn)?shù)能否反映實(shí)際情況是至關(guān)重要的。錯(cuò)誤地高估不相關(guān)特征的重要性會(huì)導(dǎo)致錯(cuò)誤的發(fā)現(xiàn),而低估相關(guān)特征的重要性會(huì)導(dǎo)致我們丟棄重要的特征,從而導(dǎo)致模型性能較差。
此外,像XGBoost這樣的黑盒模型提供了更加先進(jìn)的預(yù)測(cè)性能,但人類并不容易理解其內(nèi)在原理,因需要依賴于特征重要性分?jǐn)?shù)或SHAP之類的可解釋性方法來(lái)研究他們對(duì)特征選擇的行為。
基于評(píng)估器計(jì)算特征重要性原理
前面已經(jīng)說(shuō)過(guò)最常用的特征選擇方法之一是基于評(píng)估機(jī)器學(xué)習(xí)模型的特征重要性,而評(píng)估機(jī)器學(xué)習(xí)模型試圖量化每個(gè)特征的相對(duì)重要性,以預(yù)測(cè)目標(biāo)變量。特征重要性的計(jì)算方式是通過(guò)度量模型中每個(gè)特性的使用所帶來(lái)的性能增量改進(jìn)來(lái),并在整個(gè)模型中總結(jié)這些信息。我們可以使用它來(lái)識(shí)別那些被認(rèn)為很少或不重要的特性,并將它們從模型中刪除。
不足之處:任何特征選擇的方法只有在它也是準(zhǔn)確的時(shí)候才有用。
CART樹(shù)特征選擇的優(yōu)缺點(diǎn)
基于樹(shù)的模型是機(jī)器學(xué)習(xí)中最常用的方法之一,因?yàn)樗鼈兊哪芰涂山忉屝?。CART等單樹(shù)模型是完全可解釋的,因?yàn)榭梢院苋菀椎赝ㄟ^(guò)觀察最終決策樹(shù)中的分割來(lái)遵循它們的預(yù)測(cè)邏輯。
然而,CART是使用每次形成一個(gè)分割的樹(shù)的貪婪啟發(fā)式方法進(jìn)行訓(xùn)練模型的,這種方法會(huì)產(chǎn)生許多缺點(diǎn)。
- 首先,這可能導(dǎo)致樹(shù)遠(yuǎn)不是全局最優(yōu)的,因?yàn)樨澙穯l(fā)式中任何給定點(diǎn)上的最佳分割,這已被證明在樹(shù)的未來(lái)生長(zhǎng)環(huán)境中并不是最佳的選擇。
- 其次,由于CART算法采用每一步都窮盡搜索所有特征來(lái)拆分選擇方法,所以傾向于選擇拆分點(diǎn)較多的特征。由于特征的選擇很可能會(huì)偏向那些具有大量唯一值的特征,而貪婪算法可能導(dǎo)致在樹(shù)根附近的被用于分割數(shù)據(jù)的特征選擇錯(cuò)誤,而這些特征往往是最重要的。
基于樹(shù)的集成學(xué)習(xí)器
基于樹(shù)的集成方法,如隨機(jī)森林和梯度增強(qiáng)(如XGBoost),通過(guò)集成大量單樹(shù)模型的預(yù)測(cè)來(lái)改進(jìn)CART的性能。這樣確實(shí)帶來(lái)了更為先進(jìn)的性能,但犧牲了模型的可解釋性,因?yàn)槿祟悗缀醪豢赡芾斫獬砂偕锨У臉?shù)模型之間的交互及其他行為。因此,通常需要依賴可變重要性方法來(lái)理解和解釋這些模型的工作機(jī)制。
這些模型在計(jì)算特征重要性時(shí),可能會(huì)存在一定的敏感性,尤其對(duì)具有很多潛在分裂點(diǎn)的特征,及特征中包含一些易形成偏倚問(wèn)題的數(shù)據(jù)。
SHAP
SHAP是一種最新的方法,它統(tǒng)一了許多早期的方法,旨在解決集成樹(shù)模型中的偏倚問(wèn)題,并使用博弈論方法來(lái)理解和解釋每個(gè)特性是如何驅(qū)動(dòng)最終預(yù)測(cè)的。SHAP因?yàn)樗聂敯粜院徒鉀Q偏差問(wèn)題,迅速被廣泛用于解釋黑箱模型和進(jìn)行特征選擇。
最優(yōu)樹(shù)
如前所述,與集成方法相比,CART的預(yù)測(cè)性能較差,但集成方法被迫犧牲單個(gè)決策樹(shù)的可解釋性來(lái)實(shí)現(xiàn)較好的預(yù)測(cè)性能,這使得從業(yè)者不得不在性能和可解釋性之間進(jìn)行選擇。
最優(yōu)樹(shù)利用混合整數(shù)優(yōu)化在單步構(gòu)造全局最優(yōu)決策樹(shù)。所得到的模型不僅保持了單個(gè)決策樹(shù)的可解釋性,又能達(dá)到黑盒模型一樣的高性能。
由于該方法考慮同時(shí)優(yōu)化樹(shù)中的所有分割,而不是貪婪地一個(gè)一個(gè)地優(yōu)化,我們可以預(yù)期分割選擇,不像CART那樣容易受到同樣的偏倚問(wèn)題的影響。
對(duì)比結(jié)果
SHAP和XGBoost一直低估關(guān)鍵特征的重要性,而將不相關(guān)的特征賦予顯著的重要性,并且在較高的噪聲下無(wú)法完全區(qū)分相關(guān)與不相關(guān)的特征。顯然這些不能被用于特征選擇或解釋,否則這將會(huì)發(fā)生嚴(yán)重的后果。
另一方面,可解釋的單樹(shù)模型在識(shí)別與預(yù)測(cè)無(wú)關(guān)的特征方面優(yōu)勢(shì)突出,在需要相對(duì)較少的訓(xùn)練數(shù)據(jù)的情況下將其重要性降至零。
相對(duì)于CART樹(shù),最優(yōu)樹(shù)注重全局優(yōu)化,因而其識(shí)別無(wú)關(guān)特征的速度更快以及對(duì)特征選擇的偏倚問(wèn)題的敏感性更低。
可解釋的單樹(shù)模型在消除無(wú)關(guān)特征方面是完全透明和有效的;在使用最優(yōu)樹(shù)時(shí),通常以很少甚至沒(méi)有性能代價(jià)就能完成消除無(wú)關(guān)特征。
參考:
Comparing interpretability and explainability for feature selection
Interpretable AI Cambridge, MA 02142,Jack Dunn etc.