關(guān)于模型可解釋性的深入思考:從哪里來,到哪里去?
本文作者 Cody Marie Wild,不僅是一位機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)科學(xué)家(目前任職 phos 公司),在生活中還是名不折不扣的貓咪鏟屎官,她鐘愛語言和簡(jiǎn)潔優(yōu)美的系統(tǒng),與此同時(shí),Cody Marie Wild還標(biāo)榜自己是一位專業(yè)求知欲者。
最近,Cody Marie Wild 開始圍繞著一些機(jī)器學(xué)習(xí)領(lǐng)域的熱門話題開始了自己的思考:學(xué)習(xí)出一個(gè)通用智能行動(dòng)者的潛力和局限性,算法公平方面細(xì)微的以及可以被真正規(guī)范化的挑戰(zhàn),以及現(xiàn)在的熱門話題:能向人類解釋、能被人類理解對(duì)模型來說意味著什么?Cody Marie Wild 撰寫了一篇文章介紹了她的思考,這篇文章整理翻譯如下。
隨著人們的新點(diǎn)子已經(jīng)被越來越復(fù)雜的模型架構(gòu)所取代,在一層又一層的模型的重壓之下快要依稀不見,人們呼吁重視機(jī)器學(xué)習(xí)的可解釋性的呼聲也越來越高。過去的兩年內(nèi),NIPS 舉辦過關(guān)于相關(guān)話題的研討會(huì),DARPA(美國(guó)國(guó)防部高級(jí)研究計(jì)劃局)也正資助一項(xiàng)可解釋 AI 項(xiàng)目,與此同時(shí),歐洲各國(guó)的 AI 項(xiàng)目也均爭(zhēng)先響應(yīng)歐盟的新要求:紛紛表示 AI 模型所作出的任何「重大決策」無一例外都會(huì)對(duì)用戶做出解釋。
哦不!這個(gè)像素重要性的熱力度看起來像一張鬼臉
Cody Marie Wild 發(fā)現(xiàn)大家關(guān)于「模型可解釋性」的爭(zhēng)論通常分為一下三大派:
-
對(duì)模型穩(wěn)定性所產(chǎn)生的恐懼。這種思維模式最最令人擔(dān)憂,欠缺對(duì)模型制定決定的反省能力,模型最終有可能以種種方式學(xué)到某些不恰當(dāng)?shù)哪J健?/strong>這里有一個(gè)常見案例,由于醫(yī)院的策略是每次都把哮喘病人送到重癥病房,(病人危重所以需要馬上救治)所以模型反而學(xué)會(huì)了認(rèn)為哮喘病人的死亡風(fēng)險(xiǎn)比較低。當(dāng)在關(guān)鍵場(chǎng)景中得到運(yùn)用時(shí),模型還擁有能力來檢驗(yàn),其如何學(xué)習(xí)到該場(chǎng)景的「關(guān)鍵」背后的原理。很多情況下這些模型也是由經(jīng)驗(yàn)豐富的專業(yè)人員部署下去的,他們當(dāng)然也不會(huì)部署一個(gè)連他們自己都不能打包票的模型了。
-
人類期望從這些不可解釋的模型中提煉出新奇的知識(shí):通過這種方式來賦予人類對(duì)世界的新的了解,把機(jī)器學(xué)習(xí)用在應(yīng)用科學(xué)中的人多數(shù)就是這樣的思考角度。在這里,「模型可解釋性」被視為一種價(jià)值增值,因?yàn)槿绻軌驅(qū)C(jī)器的抽象翻譯成對(duì)有意義的人類概念的話,人類就可能將這些概念重組到現(xiàn)有的知識(shí)網(wǎng)絡(luò),并用它來推動(dòng)更多的研究。
-
在模型在做出與人類息息相關(guān)的決定時(shí),人類覺得自己有權(quán)知曉它背后合乎邏輯的理由:人類的這種想法有點(diǎn)稍微難以解釋,但其中確實(shí)摻雜了一些強(qiáng)烈情感。這也與針對(duì)機(jī)器偏見的爭(zhēng)論有關(guān),并且可以確定的是,許多人都認(rèn)為黑箱子中的模型正在以不當(dāng)方式利用社會(huì)信息,他們從這個(gè)角度爭(zhēng)論不休。但作者認(rèn)為,相對(duì)于模型,人類社會(huì)對(duì)于公平概念有著更廣泛的理解:例如某個(gè)人在進(jìn)行一個(gè)決定行為時(shí)(貸款或聽證會(huì))獲得信服的前提是,他給出了令人信服的理由。當(dāng)一個(gè)人將自己某項(xiàng)決定行為的理由告知你時(shí),你就可以利用這些理由,甚至依據(jù)它們和他爭(zhēng)辯。同樣地,作者也十分理解當(dāng)模型給了你一個(gè)不可調(diào)和且不透明的決定時(shí),你發(fā)覺自己被它專橫對(duì)待了,而且毫無「自衛(wèi)」之力的那種感受。如果可以的話,你肯定會(huì)阻止別人使用模型的這個(gè)邏輯。
為什么模型的復(fù)雜架構(gòu)會(huì)降低其可解釋性?
ResNet 模型為什么不具備可解釋性?這樣問有些冒老生常談的風(fēng)險(xiǎn)。模型欠缺哪些基本性質(zhì)?這與系統(tǒng)本身具有完全確定性有關(guān),因?yàn)槟P鸵坏┍挥?xùn)練完畢,你就可以據(jù)此寫出模型中每個(gè)量與其他的量相關(guān)聯(lián)的方程。作者認(rèn)為模型欠缺可解釋性的根本原因和模型本身的缺陷關(guān)系不大,反而更多和人類的認(rèn)知缺陷相關(guān)。當(dāng)人類「思考時(shí),大腦會(huì)將每個(gè)與之相關(guān)的有意義概念作為其中的單元來組成想法,而且大腦通常需要將那些概念抽象化、概括化,有時(shí)候還要壓縮,以便讓它們便于處理。當(dāng)交給人類一篇敘述性散文和把它交給三個(gè)充滿權(quán)重的模型矩陣時(shí),會(huì)得到截然不同的兩種解釋水平,因?yàn)槿祟愂遣豢赡芤淮涡缘貙⒛P途仃嚢娜啃畔⒂涗浽谌四X里的,那不現(xiàn)實(shí)也不可能。這促使作者認(rèn)識(shí)到了「模型可解釋性」中的一個(gè)關(guān)鍵概念:對(duì)于一項(xiàng)復(fù)雜模型的可解釋性表示,通常被大體看做是其本身的一種壓縮表示。
該概念,是真正可解釋性的必要概念,它為一直以來為深度學(xué)習(xí)模型的晦澀難懂所困的大家打開了一扇窗??梢源_定,難以理解的一部分原因是由于模型本身架構(gòu)復(fù)雜。但作者還想說明,這個(gè)問題也有一部分原因是因?yàn)樯疃葘W(xué)習(xí)歷來就能夠高效處理非常原始的輸入數(shù)據(jù)。作為對(duì)比,當(dāng)一個(gè)人需要把經(jīng)濟(jì)普查數(shù)據(jù)作為輸入特征時(shí),由于計(jì)算特征的因果關(guān)系鏈?zhǔn)茄刂祟愓J(rèn)為有意義有價(jià)值的方向走的,這樣定義下來的特征也都代表了一個(gè)人類認(rèn)為有意義的概念。對(duì)于非常原始的輸入數(shù)據(jù),比如像素值,你就會(huì)遇到這個(gè)問題:每一個(gè)單獨(dú)的輸入值都不和任何概念產(chǎn)生聯(lián)系。不論模型使用的更高層的抽象到了什么程度,這都完全是模型自己學(xué)到的抽象,而非人類向系統(tǒng)輸入的概念。無論何時(shí)有人執(zhí)行神經(jīng)元或者圖層可視化操作,你都會(huì)看到模型為了有意義而進(jìn)行的摸索,我們不可避免地會(huì)去嘗試為模型附加人類的概念,例如該模型用來識(shí)人眼,另一個(gè)模型則用來識(shí)別建筑物等等,即便在某種程度上我們知道期待機(jī)器的抽象能夠熟練地植入人類的思想這件事會(huì)有誤導(dǎo)性。
模型的可解釋性有哪幾種
作者在閱讀 LIME、Shapley Values、 Neuron Visualization 等意圖提出模型可解釋性問題的論文時(shí),發(fā)現(xiàn)它們可以被分成以下幾類:
特征歸屬 VS 內(nèi)部邏輯:作者眼中最有意義的分法是把各種可解釋性的方法分為兩類:一類嘗試把歸因值分配給特征,另一類嘗試闡明模型真正的內(nèi)部工作邏輯。沙普利值(Shapley Values)和 LIME 兩種方法就可以分在第一類里。它們的主要目標(biāo)是將模型的行為映射回原來的那組輸入特征(或者人為創(chuàng)建可選的輸入特征),在模型的復(fù)雜的決策過程中,影響越大的特征會(huì)被分配越大的權(quán)重。相比之下,層模板可視化這樣的方法就屬于后一類了:它試圖理解模型在獲得最終答案的過程中,創(chuàng)建的那個(gè)起到媒介作用的抽象。盡管某種意義上這兩類方法都在闡述「模型可解釋性」,但在作者看來,廣泛采用某種清楚的名字來命名這些「模型可解釋性」的不同子目標(biāo)是有價(jià)值的。
模擬獲取知識(shí) VS 內(nèi)省獲取知識(shí):第二種不那么明確的分法就和給定的可解釋性方法的目標(biāo)無關(guān),而是取決于達(dá)到目標(biāo)用的是什么樣的技巧?;谀M的知識(shí)意味著,我們通過生成某種形式的模擬數(shù)據(jù)來獲得對(duì)自己模型的理解,捕捉模型如何表現(xiàn)這些數(shù)據(jù)點(diǎn),并將其用于理解。這種分法和前一種分法有著的不同取向,LIME(它模擬局部數(shù)據(jù)樣本,并使用局部?jī)?nèi)核)和 Neuron Visualization(它以數(shù)值方法優(yōu)化像素,把內(nèi)部狀態(tài)變成高激活值)在這種分法里就同樣分在了「模擬方法」的一側(cè)。相比之下,內(nèi)省獲取知識(shí)來源于運(yùn)用模型的固定方向,并使用它們來獲得知識(shí),而不必進(jìn)行前者的模擬。這第二類模型的例子比如,線型模型的基本特征重要性(其中的線性項(xiàng)和常數(shù)項(xiàng)意味著你可以分析性地計(jì)算出特征重要性),以及隨機(jī)森林組合模型中的 Gini 縮減特征重要性,因?yàn)閮烧叨际怯?xùn)練完畢的模型的屬性。但總的來說,盡管如此,作者還是認(rèn)為后一類方法不適用于更復(fù)雜的模型,因而針對(duì)「模型可解釋性」的大多數(shù)較新發(fā)布的論文均屬于前一類。
關(guān)于構(gòu)建一個(gè)人類不能完全理解的系統(tǒng)這一想法(它可能也無法得到完全控制),基本上相當(dāng)于人類親手孕育了一個(gè)狂妄之獸,諸如這類的指責(zé)經(jīng)常發(fā)難最近的復(fù)雜模型師們。然而,人類希望完全理解模型的渴望會(huì)偶爾受挫,就像當(dāng)年強(qiáng)烈反對(duì)機(jī)械化或自動(dòng)化的英國(guó)手工業(yè)工人(勒德分子),但作者相信,還是有一些具有說服力的理由表明這是一個(gè)可能會(huì)有豐厚回報(bào)的研究領(lǐng)域,在模型應(yīng)用的信任和模型內(nèi)部表征的脆弱性測(cè)試方面最為明顯。另外,作者還在整篇文章中間接表達(dá)了一項(xiàng)訴求,就是我們不該將對(duì)模型可解釋性立下的一系列期望目標(biāo)和根本動(dòng)機(jī)像大雜燴那樣一鍋端,這只會(huì)使得我們?cè)谠搯栴}上的論述陷于更加混亂不清的境況。