偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

新聞 人工智能
RRL的提出,不僅使得可解釋規(guī)則模型能夠適用于更大的數(shù)據(jù)規(guī)模和更廣的應(yīng)用場景,還為從業(yè)人員提供了一個更好的在模型復(fù)雜度和分類效果之間權(quán)衡的方式。

  [[432462]]

現(xiàn)有的機器學習分類模型從性能和可解釋性兩個維度大致分為兩類:以深度學習和集成學習(如隨機森林、XGBoost)為代表的分類模型具有良好的分類性能,但模型復(fù)雜度高、可解釋性差,而以決策樹和邏輯回歸為代表的模型可解釋性強,但分類性能不理想。

清華大學(第一作者為王建勇教授的在讀博士生王焯)聯(lián)合華東師范大學(張偉,2016 年博士畢業(yè)于清華大學)和山東大學(劉寧,2021 年博士畢業(yè)于清華大學)提出了一種基于規(guī)則表征學習的分類模型 RRL。RRL 同時具備類似決策樹模型的高可解釋性和類似隨機森林和 XGBoost 等集成學習器的分類性能。相關(guān)論文已入選 NeurIPS2021。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型
  • 論文鏈接:https://arxiv.org/abs/2109.15103
  • 代碼鏈接:https://github.com/12wang3/rrl

為了同時獲得良好的可解釋性和分類性能,論文提出了一種新的分類模型——規(guī)則表征學習器(RRL)。RRL 能夠通過自動學習可解釋的非模糊規(guī)則進行數(shù)據(jù)表征和分類。為了高效地訓練不可導(dǎo)的 RRL 模型,論文提出了一種新的訓練方法——梯度嫁接法。借助梯度嫁接法,離散的 RRL 可以直接使用梯度下降法進行優(yōu)化。此外,論文還設(shè)計了一種改進版的邏輯激活函數(shù),既提高了 RRL 的可擴展性,又使其能夠端到端地離散化連續(xù)特征。

在九個小規(guī)模和四個大規(guī)模數(shù)據(jù)集上的實驗表明,RRL 的分類性能顯著優(yōu)于其他可解釋方法(如第二屆「AI 諾獎」得主 Cynthia Rudin 教授團隊提出的 SBRL),并能與不可解釋的復(fù)雜模型(如集成學習模型隨機森林和 XGBoost、分段線性神經(jīng)網(wǎng)絡(luò) PLNN)取得近似的分類性能。此外,RRL 能夠方便地在分類精度和模型復(fù)雜度之間進行權(quán)衡,進而滿足不同場景的需求。

研究背景與動機

盡管深度神經(jīng)網(wǎng)絡(luò)已在很多機器學習任務(wù)中取得了令人矚目的成果,其不可解釋的特性仍使其飽受詬病。即使人們可以使用代理模型(Surrogate Models),隱層探查法(Hidden Layer Investigation),以及其他事后(Post-hoc)方法對深度網(wǎng)絡(luò)進行解釋,這些方法的忠實度、一致性和具體程度都存在或多或少的問題。

反觀基于規(guī)則的模型(Rule-based Model),例如決策樹,得益于其透明的內(nèi)部結(jié)構(gòu)和良好的模型表達能力,仍在醫(yī)療、金融和政治等對模型可解釋性要求較高的領(lǐng)域發(fā)揮著重要作用。然而,傳統(tǒng)的基于規(guī)則的模型由于其離散的參數(shù)和結(jié)構(gòu)而難以優(yōu)化,尤其在大規(guī)模數(shù)據(jù)集上,這嚴重限制了規(guī)則模型的應(yīng)用范圍。而集成模型、軟規(guī)則和模糊規(guī)則等,雖然提升了分類預(yù)測能力,但犧牲了模型可解釋性。

為了在更多場景中利用規(guī)則模型的優(yōu)勢,迫切需要解決以下問題:如何在保持可解釋性的同時提高基于規(guī)則的模型的可擴展性?

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 1:傳統(tǒng)的基于規(guī)則的模型及其拓展模型

規(guī)則表征學習器

為了解決以上問題,論文提出了一種新的基于規(guī)則的模型,規(guī)則表征學習器(Rule-based Representation Learner, RRL),用于可解釋分類任務(wù)。為了獲得良好的模型透明度和表達能力,RRL 被設(shè)計為一個層級模型(如圖 2 所示),由一個二值化層,若干邏輯層,一個線性層,以及層與層之間的連邊構(gòu)成:

二值化層(Binarization Layer)

  • 用于對連續(xù)值特征進行劃分。
  • 結(jié)合邏輯層可實現(xiàn)特征端到端離散化。

邏輯層(Logical Layer)

  • 用于自動學習規(guī)則表征。
  • 每個邏輯層由一個合取層和一個析取層構(gòu)成。
  • 兩層邏輯層即可表示合取范式和析取范式。

線性層(Linear Layer)

  • 用于輸出分類結(jié)果。
  • 可以更好地擬合數(shù)據(jù)的線性部分.
  • 權(quán)重可用于衡量規(guī)則重要度。

跳連接(Skip Connection)

  • 用于自動跳過不必要的層。
魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 2:規(guī)則表征學習器舉例。虛線框中展示了一個離散邏輯層及其對應(yīng)的規(guī)則。

邏輯層

邏輯層(Logical Layer)使用邏輯規(guī)則自動學習數(shù)據(jù)表征。為了實現(xiàn)這一點,邏輯層被設(shè)計為同時具有離散版本和連續(xù)版本。二者共用參數(shù),但離散版本用于訓練、測試和解釋,而連續(xù)版本僅用于訓練。

離散邏輯層

邏輯層中的每個節(jié)點都代表了一個邏輯運算,包括合取和析取,而層與層之間邊的連接則指明了運算有哪些變量參與。離散邏輯層節(jié)點對應(yīng)的邏輯運算如下,其中

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

分別為合取層和析取層中的節(jié)點,

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

則是鄰接矩陣。圖 2 虛線框中展示了一個離散邏輯層的具體例子。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

通過學習邊的連接,邏輯層便可以靈活地表示有著合取或析取范式形式的離散分類規(guī)則。然而問題在于,雖然離散的邏輯層可解釋性好,但自身不可導(dǎo),難以訓練,這也是為什么還需要一個對應(yīng)的連續(xù)版本的邏輯層。

連續(xù)邏輯層

連續(xù)邏輯層必須是可導(dǎo)的,并且當二值化連續(xù)邏輯層的參數(shù)時,可以直接得到它相對應(yīng)的離散邏輯層。為此需要:

  • 將 0/1 鄰接矩陣替換為 [0, 1] 之間的實數(shù)權(quán)重矩陣
  • 用邏輯激活函數(shù)替換邏輯運算

傳統(tǒng)的邏輯激活函數(shù)(Payani and Fekri, 2019)如下,其中

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

分別為連續(xù)合取層和連續(xù)析取層中的節(jié)點。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

,二者通過

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

的大小來決定

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

對最終結(jié)果的影響的大小。

如果

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

=0,則

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

對最終結(jié)果沒有影響。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

雖然這兩個邏輯激活函數(shù)能夠較好地用可導(dǎo)的實數(shù)運算模擬邏輯運算,但其存在嚴重的梯度消失問題,無法處理特征數(shù)較多的情況,可擴展性較差。分析邏輯激活函數(shù)

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

以及相應(yīng)的導(dǎo)數(shù)可以發(fā)現(xiàn),使用連乘來模擬邏輯運算是導(dǎo)致梯度消失的主要原因。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

為例,其對應(yīng)導(dǎo)數(shù)如下:

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

由于

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

,則當相乘的

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

數(shù)量較多時(一般指特征數(shù)較多或節(jié)點數(shù)較多),導(dǎo)數(shù)結(jié)果都會趨向于 0,即出現(xiàn)了梯度消失的問題。

邏輯激活函數(shù)改進

傳統(tǒng)邏輯激活函數(shù)因為使用連乘模擬邏輯運算,因而在處理較多特征時會產(chǎn)生梯度消失的問題,嚴重損害了模型的可擴展性。一個直接的改進思路是使用對數(shù)函數(shù)將連乘轉(zhuǎn)化為連加。然而對數(shù)函數(shù)使得激活函數(shù)無法保持邏輯運算的特性。因而需要一個映射函數(shù)

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

,該映射函數(shù)至少需要滿足以下三個條件:

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

條件 (i) 和(ii)用于保持邏輯激活函數(shù)的范圍和趨勢,而條件 (iii) 要求

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

的高階無窮小,主要用于減緩當

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

時其趨向于 0 的速度。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

,這樣對邏輯激活函數(shù)的改進可以

總結(jié)為

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

,而改進后的邏輯激活函數(shù)為:

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

二值化層

二值化層主要用于將連續(xù)的特征值劃分為若干個單元。對于第 j 個連續(xù)值特征

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

,有 k 個隨機下界

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

和 k 個隨機上界

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

對其進行劃分,進而得到以下二值向量

,其中

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型
魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

由于邏輯層的邊的連接是可以學習的,因此通過組合一個二值化層和一個邏輯層,模型可以實現(xiàn)自動選擇適當?shù)倪吔邕M行特征離散化(二值化),即以端到端的方式對特征進行二值化。例如:

  • 當一個合取層節(jié)點連接了和,其表示區(qū)間
  • 當一個析取層節(jié)點連接了和,其表示區(qū)間

梯度嫁接法

雖然連續(xù)值版本的邏輯層能夠使得整個 RRL 可導(dǎo),但是在連續(xù)空間內(nèi)搜索一個離散值解仍是一個巨大的挑戰(zhàn)。此外,邏輯激活函數(shù)的特性導(dǎo)致 RRL 在離散點處的梯度幾乎不含有用的信息,因此像 Straight-Through Estimator (STE)這類方法無法訓練 RRL。

為了高效地對不可導(dǎo)的 RRL 進行訓練,論文提出了一種新的基于梯度的離散模型訓練方法,梯度嫁接法。在植物嫁接中(如圖 3a 所示),一種植物的枝或芽作為接穗,而另一種植物的根或莖作為砧木,嫁接到一起,則得到了一種結(jié)合了二者優(yōu)點的「新植物」。梯度嫁接法(Gradient Grafting)受植物嫁接方式的啟發(fā),將損失函數(shù)對離散模型的輸出的梯度作為接穗,連續(xù)模型的輸出對模型參數(shù)的梯度作為砧木,進而構(gòu)造出了一條完整的從損失函數(shù)到參數(shù)的反向傳播路徑(如圖 3b 所示)。令

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

為 t 時刻的參數(shù),

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

分別為離散模型和連續(xù)模型的輸出,則:

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

梯度嫁接法同時使用了參數(shù)空間中連續(xù)點和離散點處的梯度信息,并通過對兩者的拆分組合,實現(xiàn)了對離散模型的直接優(yōu)化。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 3:(a) 植物嫁接示例(Chen et al., 2019)。(b) 梯度嫁接法的簡化計算圖。實線和虛線箭頭分別表示正向和反向傳播。綠色箭頭代表嫁接的梯度,它是紅色箭頭代表的梯度的一個拷貝。嫁接后,損失函數(shù)和參數(shù)之間存在一條反向傳播路徑。

實驗

論文通過實驗來評估 RRL 并回答了如下問題:

  1. RRL 的分類性能和模型復(fù)雜度如何?
  2. 相較于其他離散模型訓練方法,梯度嫁接法收斂如何?
  3. 改進后的邏輯激活函數(shù)的可擴展性如何?

作者在 9 個小規(guī)模數(shù)據(jù)集和 4 個大規(guī)模數(shù)據(jù)集上進行了實驗。這些數(shù)據(jù)集被廣泛用于測試模型的分類效果以及可解釋性。表 1 總結(jié)了這 13 個數(shù)據(jù)集的基本信息,可以看出,這 13 個數(shù)據(jù)集充分體現(xiàn)了數(shù)據(jù)的多樣性:實例數(shù)從 178 到 102944,類別數(shù)從 2 到 26,原始特征數(shù)從 4 到 4714。此外,數(shù)據(jù)集的特征類型和稀疏程度也各有差異。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

表 1:數(shù)據(jù)集統(tǒng)計信息

分類效果

論文將 RRL 的分類效果(F1 Score)與六個可解釋模型以及五個復(fù)雜模型進行了對比,結(jié)果如表 2 所示。其中 C4.5(Quinlan, 1993), CART(Breiman, 2017),Scalable Bayesian Rule Lists(SBRL)(Yang et al., 2017),Certifiably Optimal Rule Lists(CORELS)(Angelino et al., 2017)和 Concept Rule Sets(CRS)(Wang et al., 2020)是基于規(guī)則的模型,而 Logistic Regression(LR)(Kleinbaum et al., 2002) 是一個線性模型。這六個模型被認為是可解釋的。Piecewise Linear Neural Network(PLNN)(Chu et al., 2018), Support Vector Machines(SVM)(Scholkopf and Smola, 2001),Random Forest(Breiman, 2001),LightGBM(Ke et al., 2017)和 XGBoost(Chen and Guestrin, 2016)被認為是難以解釋的復(fù)雜模型。PLNN 是一類使用分段線性激活函數(shù)的多層邏輯感知機(Multilayer Perceptron, MLP)。RF,LightGBM 和 XGBoost 均為集成模型。

可以看出,RRL 顯著優(yōu)于其他可解釋模型,只有兩個復(fù)雜模型,即 LightGBM 和 XGBoost 有著相當?shù)慕Y(jié)果。此外,RRL 在所有數(shù)據(jù)集上均取得了較好的結(jié)果,這也證明了 RRL 良好的可擴展性。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

表 2:13 個數(shù)據(jù)集上各模型的分類效果(五折交叉驗證的 F1 Score)

模型復(fù)雜度

可解釋模型追求在確保準確率可接受的前提下,盡可能降低模型復(fù)雜度。如果模型分類效果太差,那么再低的模型復(fù)雜度也沒有意義。因此,從業(yè)人員真正關(guān)心的是模型分類效果與復(fù)雜度之間的關(guān)系。

考慮到存在規(guī)則復(fù)用的情況,論文使用邊的總數(shù)而不是規(guī)則總數(shù)來衡量基于規(guī)則的模型的復(fù)雜度(可解釋性)。RRL,CART,CRS 以及 XGBoost 的模型復(fù)雜度與模型分類效果之間的關(guān)系如圖 4 所示,其中橫軸為復(fù)雜度,縱軸為分類效果??梢钥闯觯啾绕渌?guī)則模型和集成模型,RRL 能夠更加高效地利用規(guī)則,即用更低的模型復(fù)雜度獲得更好的分類效果。結(jié)果還表明,通過參數(shù)設(shè)置,RRL 可以輕松地在模型復(fù)雜度和分類性能間進行權(quán)衡。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 4:RRL 與基線模型的模型復(fù)雜度與分類效果散點圖。

消融實驗

離散模型訓練方法

通過訓練結(jié)構(gòu)相同的 RRL,作者將梯度嫁接法與 STE(Courbariaux et al., 2015, 2016),ProxQuant(Bai et al., 2018)以及 RB(Wang et al., 2020)這三類離散模型訓練方法進行了對比,訓練損失函數(shù)結(jié)果如圖 5 所示。由于 RRL 本身特殊的結(jié)構(gòu)(即在離散點處的梯度具有極少的信息),只有使用梯度嫁接法訓練的 RRL 才能夠很好的收斂。

改進的邏輯激活函數(shù)

改進前后的邏輯激活函數(shù)的結(jié)果同樣在圖 5 中展示??梢钥闯?,當處理大規(guī)模數(shù)據(jù)時,邏輯激活函數(shù)會發(fā)生梯度消失的問題,從而導(dǎo)致不收斂。而改進后的邏輯激活函數(shù)則克服了該問題。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 5:梯度嫁接和另外三種離散模型訓練方法的訓練損失,以及使用改進前后的邏輯激活函數(shù)的訓練損失。

實例展示

權(quán)重分布

圖 6 展示的是不同正則項系數(shù)所對應(yīng)的 RRL 線性層權(quán)重(規(guī)則重要度)的分布情況。當正則項系數(shù)比較小時,RRL 產(chǎn)生的規(guī)則比較復(fù)雜,數(shù)量較多。但從分布可以看出,大多數(shù)是權(quán)重絕對值較小的規(guī)則。因此,可以先去理解權(quán)重值較大的重要規(guī)則,當對模型整體和數(shù)據(jù)有了更好的認識后,再去理解權(quán)重較小的規(guī)則。而當正則項系數(shù)較大時,RRL 整體復(fù)雜度較低,則可以直接理解模型整體。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 6:不同正則項系數(shù)所對應(yīng)的線性層權(quán)重分布。

具體規(guī)則

圖 7 為 bank-marketing 數(shù)據(jù)集所學到的部分規(guī)則,這些規(guī)則被用于預(yù)測用戶是否會在電話銷售中接受銀行的貸款??梢詮倪@些規(guī)則中直觀看出哪些用戶狀態(tài)以及公司行為會對銷售結(jié)果產(chǎn)生影響,例如中年已婚的低存款用戶更可能接受貸款。銀行可以根據(jù)這些可解釋的規(guī)則來調(diào)整自己的營銷策略,以增加銷量。

雖然 RRL 并非專門設(shè)計用于圖像分類任務(wù),但得益于其較好的可擴展性,RRL 仍可以通過可視化的方式為圖像分類任務(wù)提供直觀的解釋。圖 8 是對 fashion-mnist 圖像數(shù)據(jù)集上 RRL 所學到的規(guī)則的可視化。從中可以直觀地總結(jié)出模型的決策模式,例如通過袖子長短區(qū)分 T 恤和套頭衫。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 7:RRL 在 bank-marketing 數(shù)據(jù)集上學到的部分規(guī)則。

魚和熊掌不可兼得?清華團隊提出高準確率的可解釋分類模型

圖 8:RRL 在 fashion-mnist 圖像數(shù)據(jù)集上學到的規(guī)則的可視化。

總結(jié)

論文提出了一種新的可擴展分類器,規(guī)則表征學習器(RRL)。RRL 能夠通過自動學習可解釋的非模糊規(guī)則進行數(shù)據(jù)表征和分類。得益于自身的模型結(jié)構(gòu)設(shè)計、梯度嫁接法以及改進版邏輯激活函數(shù)的使用,RRL 不僅有著較強的可擴展性,還能在模型復(fù)雜度較低的前提下獲得較好的分類效果。

RRL 的提出,不僅使得可解釋規(guī)則模型能夠適用于更大的數(shù)據(jù)規(guī)模和更廣的應(yīng)用場景,還為從業(yè)人員提供了一個更好的在模型復(fù)雜度和分類效果之間權(quán)衡的方式。在未來工作中,把 RRL 拓展到非結(jié)構(gòu)化數(shù)據(jù)上,如圖像和文本等,從而提升此類數(shù)據(jù)模型的可解釋性。 

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2020-11-13 09:32:58

JPA Mybatis數(shù)據(jù)庫

2011-11-09 17:10:19

Windows 8系統(tǒng)

2020-12-14 11:40:27

Next.js SSRReact

2013-05-23 09:37:53

云提供商云代理商SaaS

2019-01-29 10:27:27

量子計算機芯片超算

2020-04-26 15:35:49

神經(jīng)網(wǎng)絡(luò)決策樹ImageNet

2018-09-05 14:46:16

筆記本硬件配置

2010-02-05 14:32:18

Ubuntu Linu

2017-05-17 16:10:03

PC

2010-12-09 13:29:57

云計算

2009-03-23 16:13:49

網(wǎng)絡(luò)拓撲運維管理摩卡軟件

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2011-03-03 18:54:34

2025-07-01 08:53:26

2021-08-10 16:01:18

模型人工智能深度學習

2021-10-11 17:27:50

框架計算機開發(fā)

2017-09-29 11:07:00

IPS優(yōu)勢缺憾

2017-04-06 22:33:43

with磁盤數(shù)據(jù)

2014-04-28 10:06:00

C++.NET Native
點贊
收藏

51CTO技術(shù)棧公眾號