偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

難以捉摸?機(jī)器學(xué)習(xí)模型的可解釋性初探

開發(fā) 開發(fā)工具
在機(jī)器學(xué)習(xí)中,可解釋性的概念既重要又難以捉摸。我們能相信模型嗎?它在部署過(guò)程中會(huì)起作用嗎?

[[374622]]

引子:在機(jī)器學(xué)習(xí)中,可解釋性的概念既重要又難以捉摸。我們能相信模型嗎?它在部署過(guò)程中會(huì)起作用嗎?關(guān)于這個(gè)世界,模型還能告訴我們什么?模型不僅應(yīng)該是好的,而且應(yīng)該是可以解釋的,然而,可解釋性似乎沒(méi)有具體的說(shuō)明和定義。本文編譯自 Zachary C. Lipton 的一篇文章https://queue.acm.org/detail.cfm?id=3241340,希望對(duì)模型的可解釋性能夠有所認(rèn)知。

有監(jiān)督的機(jī)器學(xué)習(xí)模型往往具有顯著的預(yù)測(cè)能力,很多學(xué)術(shù)文獻(xiàn)為解釋性提供了多樣的、有時(shí)是稍有矛盾的描述,并提供了很多的技術(shù)來(lái)呈現(xiàn)可解釋的模型??山忉屝缘亩x并不明確,但是,人們還是都宣稱他們的模型是可解釋,盡管沒(méi)有進(jìn)一步的論據(jù)。問(wèn)題在于,我們目前還不清楚這些關(guān)于模型可解釋性技術(shù)的共同特性到底是什么。

本文試圖定義可解釋性。通過(guò)了解以前文章中對(duì)可解釋性的描述,發(fā)現(xiàn)這些描述是多樣的,有時(shí)候甚至存在著部分的矛盾。然后,探討了模型的性質(zhì)和技術(shù)思想,以明確可解釋性,進(jìn)而確定對(duì)人類的透明度和事后解釋是有競(jìng)爭(zhēng)的概念。在整個(gè)過(guò)程中,討論了關(guān)于可解釋性不同概念的可行性和可取性。從而可以看到,“線性模型是可解釋的,而深層神經(jīng)網(wǎng)絡(luò)模型不是”這一論斷可能是有問(wèn)題的。

關(guān)于解釋

在現(xiàn)實(shí)中,如果我們申請(qǐng)貸款,一個(gè)銀行的工作人員可能決定了成敗與否。如果去醫(yī)院就醫(yī),一個(gè)醫(yī)生會(huì)試圖對(duì)我們的病患分類,并建議治療。對(duì)于這樣的結(jié)果性決策,我們可能會(huì)要求銀行的工作人員或者醫(yī)生作出解釋。在社會(huì)背景下,做出決定的原因往往很重要。例如,在司法中,故意殺人與過(guò)失殺人是不同的犯罪。然而,今天的預(yù)測(cè)模型基本上不具備推理能力。

在過(guò)去的20年里,機(jī)器學(xué)習(xí)的快速發(fā)展導(dǎo)致了自動(dòng)決策過(guò)程的部署。在實(shí)際應(yīng)用中,大多數(shù)基于最大似然法的決策過(guò)程是這樣的: 對(duì)最大似然算法進(jìn)行訓(xùn)練,以獲取一些輸入并預(yù)測(cè)相應(yīng)的輸出。例如,給定一組描述金融交易的屬性,機(jī)器學(xué)習(xí)算法可以預(yù)測(cè)長(zhǎng)期投資回報(bào)。給定 CT 掃描的圖像,算法可以給出圖像中可能存在癌腫瘤的概率。機(jī)器學(xué)習(xí)算法吸收了大量成對(duì)的輸入輸出,并輸出一個(gè)模型,該模型可以預(yù)測(cè)之前未見(jiàn)的輸入所對(duì)應(yīng)的輸出。形式上,這種問(wèn)題稱為監(jiān)督式學(xué)習(xí)。然后,為了完全自動(dòng)化決策,我們將模型的輸出輸入到一些決策規(guī)則中。例如,垃圾郵件過(guò)濾器以編程方式丟棄電子郵件,因?yàn)槟切┼]件被預(yù)測(cè)為垃圾郵件的置信度超過(guò)了某個(gè)閾值。

因此,基于機(jī)器學(xué)習(xí)的系統(tǒng)不知道為什么給定的輸入應(yīng)該接收某個(gè)標(biāo)簽,只知道某些輸入與該標(biāo)簽相關(guān)。例如,對(duì)于一個(gè)給定的數(shù)據(jù)集,籃球是其中唯一的橙色物體,圖像分類器通過(guò)學(xué)習(xí)后可能會(huì)所有橙色物體分類為籃球。這個(gè)模型即使在圖像糟糕的情況下也能達(dá)到很高的精確度,盡管它沒(méi)有抓住真正起作用的區(qū)別。

隨著機(jī)器學(xué)習(xí)滲透到諸如醫(yī)學(xué)、刑事司法系統(tǒng)和金融市場(chǎng)等關(guān)鍵領(lǐng)域,人們無(wú)法理解這些模型似乎是個(gè)問(wèn)題。有些人建議將模型的可解釋性作為一種補(bǔ)救辦法,但在文獻(xiàn)中,很少有作者明確闡述可解釋性意味著什么,或者提出的模型究竟如何有用。

盡管缺乏定義,但越來(lái)越多的文獻(xiàn)提出了據(jù)稱是可解釋的算法。至此,可以得出兩種結(jié)論: (1)可解釋性的定義是普遍一致的,只是沒(méi)有人費(fèi)心把它寫下來(lái); 或者(2)可解釋性的定義并不明確,關(guān)于模型可解釋性的看法可能并不科學(xué)。遺憾的是,現(xiàn)實(shí)屬于后者。研究模型可解釋性的文獻(xiàn)所提出的目標(biāo)和方法是多樣的,這表明可解釋性不是一個(gè)單一的概念。

本文關(guān)注的是監(jiān)督式學(xué)習(xí),而不是如強(qiáng)化等其他的機(jī)器學(xué)習(xí)范式,主要是監(jiān)督式學(xué)習(xí)在現(xiàn)實(shí)世界中的應(yīng)用地位,以及對(duì)所謂“線性模型是可解釋的而深層神經(jīng)網(wǎng)絡(luò)是不可解釋的”這一說(shuō)法的興趣。

有人認(rèn)為,可解釋的模型是可取的,因?yàn)樗赡苡兄诮沂居^測(cè)數(shù)據(jù)的因果結(jié)構(gòu)。有時(shí)候,可解釋性的目標(biāo)可能僅僅是從模型中獲得更多有用的信息。許多人都提出可解釋性是產(chǎn)生信任的一種手段。這導(dǎo)致了一個(gè)同樣令人煩惱的認(rèn)識(shí)論問(wèn)題: 什么是信任?這是否意味著一個(gè)可信任的模型會(huì)有很好的表現(xiàn)?或者可解釋性僅僅意味著對(duì)模型的低層次機(jī)械理解?信任是主觀定義的嗎?

雖然可解釋性的目標(biāo)是多種多樣的,但通常指的是標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)公式,例如,訓(xùn)練數(shù)據(jù)完全代表的一組數(shù)據(jù)的最大準(zhǔn)確度與它們要解決的復(fù)雜現(xiàn)實(shí)任務(wù)并不能不完全匹配??紤]有縱向數(shù)據(jù)的醫(yī)學(xué)研究而言,真正的目標(biāo)可能是發(fā)現(xiàn)潛在的因果關(guān)系,用于指導(dǎo)干預(yù),就像吸煙與癌癥那樣。然而,大多數(shù)監(jiān)督式學(xué)習(xí)模型的優(yōu)化目標(biāo)是簡(jiǎn)單地減少錯(cuò)誤。這種不匹配的另一個(gè)例子是,可用的訓(xùn)練數(shù)據(jù)不能完全代表可能的部署環(huán)境,真實(shí)的環(huán)境往往具有不斷變化的動(dòng)態(tài)。想象一下為一個(gè)在線商店訓(xùn)練一個(gè)產(chǎn)品推薦系統(tǒng),在這個(gè)系統(tǒng)中新產(chǎn)品會(huì)定期推出,顧客的偏好會(huì)隨著時(shí)間的推移而改變。在更極端的情況下,來(lái)自基于機(jī)器學(xué)習(xí)系統(tǒng)的操作可能會(huì)改變環(huán)境,使未來(lái)的預(yù)測(cè)失效。

一些論文將可解釋性等同于易懂性或可理解性(即可以掌握模型是如何工作的)。在這些論文中,可理解的模型有時(shí)被稱為透明模型,而不可理解的模型被稱為黑盒子。但是什么是透明度呢?看看算法身: 它會(huì)收斂嗎?它是否產(chǎn)生了一個(gè)唯一的解決方案?或者可以看看它的參數(shù): 知道每一個(gè)代表什么嗎?再或者,可以考慮模型的復(fù)雜性: 它是否足夠簡(jiǎn)單,可以由人們一次性進(jìn)行完全部的檢查?

事后解釋可能解釋了預(yù)測(cè),卻沒(méi)有闡明模型工作的機(jī)制,例如,人們的口頭解釋或用于分析深層神經(jīng)網(wǎng)絡(luò)的顯著圖。因此,盡管人腦具有黑盒子性質(zhì),但人類的決策可能承認(rèn)事后可解釋性,這揭示了兩種流行的可解釋性概念之間的矛盾。

為什么需要可解釋性?

當(dāng)監(jiān)督式學(xué)習(xí)的正式目標(biāo)(測(cè)試集的預(yù)測(cè)性能)與生產(chǎn)環(huán)境中的實(shí)際結(jié)果之間出現(xiàn)不匹配時(shí),對(duì)可解釋性的需求就會(huì)出現(xiàn)。

通常,評(píng)估指標(biāo)只需要預(yù)測(cè)結(jié)果和真實(shí)的數(shù)據(jù)。當(dāng)涉眾另外要求可解釋性時(shí),可能要推斷出目標(biāo)的存在,而這些目標(biāo)卻不能以這種方式捕獲。大多數(shù)常用的監(jiān)督式學(xué)習(xí)評(píng)估指標(biāo)只需要預(yù)測(cè),再加上基本事實(shí),就能得出一個(gè)分?jǐn)?shù)。因此,有時(shí)僅僅根據(jù)預(yù)測(cè)和計(jì)算的指標(biāo)不足以描述模型的特征。

通常,現(xiàn)實(shí)世界的目標(biāo)很難用簡(jiǎn)單的數(shù)學(xué)函數(shù)進(jìn)行編碼。否則,它們可能只是被納入到目標(biāo)函數(shù)中,問(wèn)題就被認(rèn)為已經(jīng)解決了。例如,雇傭決策的算法應(yīng)該同時(shí)優(yōu)化生產(chǎn)力、道德和合法性。但是,如何寫一個(gè)衡量道德或法律的函數(shù)呢?當(dāng)希望對(duì)訓(xùn)練和生產(chǎn)環(huán)境之間的動(dòng)態(tài)變化具有魯棒性時(shí),也可能會(huì)出現(xiàn)這個(gè)問(wèn)題。

信任

一些人認(rèn)為解釋性是信任的先決條件。什么是信任呢?僅僅是因?yàn)橄嘈乓粋€(gè)模型會(huì)有好的表現(xiàn)嗎?如果是這樣的話,一個(gè)足夠精確的模型應(yīng)該被證明是值得信賴的,而可解釋性也沒(méi)有任何意義。信任也可以從主觀上定義。例如,一個(gè)人可能會(huì)對(duì)一個(gè)理解透徹的模型感到更自在,即使這種理解沒(méi)有任何明顯的目的。另外,當(dāng)訓(xùn)練和生產(chǎn)目標(biāo)不一致時(shí),信任可能表示相信模型將在實(shí)際目標(biāo)和場(chǎng)景方面表現(xiàn)良好。

例如,考慮到越來(lái)越多地使用機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)犯罪率,以便分配警官。這個(gè)模型可以做出準(zhǔn)確的預(yù)測(cè),但是不能考慮訓(xùn)練數(shù)據(jù)中的種族偏見(jiàn),也不能考慮模型自身的影響,即過(guò)度監(jiān)管某些社區(qū)。

在另一種意義上,如果最終用戶愿意放棄對(duì)ML模型的控制,那么他們可能會(huì)被認(rèn)為信任這個(gè)機(jī)器學(xué)習(xí)模型。通過(guò)這個(gè)透鏡,人們可能不僅關(guān)心一個(gè)模型的正確頻率,而且還關(guān)心它對(duì)哪些例子是正確的。如果模型傾向于只在人類也會(huì)犯錯(cuò)誤的輸入上犯錯(cuò)誤,因此當(dāng)人類是準(zhǔn)確的時(shí)候通常也是準(zhǔn)確的,那么人們可能會(huì)相信這個(gè)模型,因?yàn)闆](méi)有任何放棄控制的預(yù)期成本。然而,如果一個(gè)模型傾向于在人類精確分類的輸入上犯錯(cuò)誤,那么維持人類對(duì)算法的監(jiān)督可能總是有好處的。

因果關(guān)系

盡管監(jiān)督式學(xué)習(xí)模型只是為了建立聯(lián)系而進(jìn)行優(yōu)化,人們?nèi)匀唤?jīng)常使用它們來(lái)推斷自然世界的屬性。例如,一個(gè)簡(jiǎn)單的回歸模型可能會(huì)用來(lái)揭示吸煙與肺癌之間的密切聯(lián)系。

通過(guò)監(jiān)督式學(xué)習(xí)算法學(xué)習(xí)到的關(guān)聯(lián)關(guān)系并不能保證反映的是因果關(guān)系。對(duì)于這兩個(gè)相關(guān)的變量,總是有一些未被觀察到的其他因素。然而,人們可能希望通過(guò)解釋監(jiān)督式的學(xué)習(xí)模型,可以生成可以檢驗(yàn)的假設(shè)。例如,某些人強(qiáng)調(diào)回歸樹和貝葉斯神經(jīng)網(wǎng)絡(luò),認(rèn)為這些模型是可解釋的,因此能夠更好地提供生理信號(hào)和情感狀態(tài)之間因果關(guān)系的線索。從觀測(cè)數(shù)據(jù)推斷因果關(guān)系的任務(wù)得到了廣泛的研究。然而,因果推斷方法往往依賴于強(qiáng)有力的假設(shè),特別是在大型且復(fù)雜的數(shù)據(jù)集上,并沒(méi)有被從業(yè)人員廣泛的使用。

可傳遞性

通常,訓(xùn)練和測(cè)試數(shù)據(jù)是通過(guò)從相同的分布中隨機(jī)分割樣本示例來(lái)選擇的。然后根據(jù)模型在訓(xùn)練和測(cè)試數(shù)據(jù)上的表現(xiàn)差距來(lái)判斷模型的泛化誤差。然而,人類能夠表現(xiàn)出更豐富的概括能力,將學(xué)到的技能轉(zhuǎn)移到不熟悉的環(huán)境中。機(jī)器學(xué)習(xí)算法也已經(jīng)在這些情況下得到了應(yīng)用,比如當(dāng)環(huán)境是非平穩(wěn)的時(shí)候。模型還可能部署在其可能改變環(huán)境、使其未來(lái)預(yù)測(cè)失效的環(huán)境中。

更糟糕的是,在一些情況下,比如為了安全而進(jìn)行的機(jī)器學(xué)習(xí),環(huán)境可能會(huì)變得非常不利,例如CNN的敏感性。CNN 對(duì)那些不知不覺(jué)受到干擾的圖像進(jìn)行了錯(cuò)誤的分類。當(dāng)然,這在傳統(tǒng)意義上并不合適。該模型在訓(xùn)練數(shù)據(jù)上取得了較好的結(jié)果,并且用于對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類時(shí)能夠進(jìn)行得很好。關(guān)鍵的區(qū)別在于,這些圖像被改變了,雖然對(duì)人類觀察者來(lái)說(shuō)很微妙,但在模型訓(xùn)練中從未遇到過(guò)。然而,這些是人類不會(huì)犯的錯(cuò)誤。如今,監(jiān)督式學(xué)習(xí)模型經(jīng)常受到這種對(duì)抗性的挑戰(zhàn)。

另一個(gè)例子是用于生成信用評(píng)級(jí)的模型——得分越高意味著個(gè)人償還貸款的概率越高。有人使用 Logit模型模型來(lái)訓(xùn)練信用模型,并把可解釋性作為選擇模型的動(dòng)機(jī)。特征包括賬戶平均年齡、債務(wù)比率、逾期付款的數(shù)量以及信譽(yù)良好賬戶的數(shù)量。這其中的幾個(gè)因素可以被請(qǐng)求信貸的人隨意操縱。例如,一個(gè)人可以簡(jiǎn)單地請(qǐng)求增加定期信貸額度,同時(shí)保持消費(fèi)模式不變,就可以改變債務(wù)比率。事實(shí)上,銀行一般都承認(rèn)信用評(píng)級(jí)是可以被操縱的,甚至還提出了改善信用評(píng)級(jí)的建議。這些提高評(píng)級(jí)的策略可能會(huì)從根本上改變一個(gè)人償還債務(wù)的能力。個(gè)人的信息狀態(tài)和評(píng)級(jí)系統(tǒng)的博弈可能會(huì)使其預(yù)測(cè)能力失效。

信息量

有時(shí)候,將決策理論應(yīng)用于監(jiān)督模型的輸出,以便于在現(xiàn)實(shí)世界中采取行動(dòng)。然而,在另一種常見(jiàn)的使用范式中,監(jiān)督模型被用來(lái)向人類決策者提供信息。雖然機(jī)器學(xué)習(xí)的目標(biāo)可能是減少錯(cuò)誤,但現(xiàn)實(shí)世界的目的是提供有用的信息。模型傳遞信息最明顯的方式是通過(guò)其輸出,但也可能通過(guò)某些程序向人類決策者傳遞額外的信息。

即使不闡明模型的內(nèi)部工作原理,一個(gè)模型也可能被證明是有用的。例如,診斷模型可以通過(guò)指出相似的案例來(lái)支持診斷決策,從而為人類決策者提供直覺(jué)。在某些情況下,當(dāng)真正的任務(wù)更接近于監(jiān)督式學(xué)習(xí)的時(shí)候,會(huì)訓(xùn)練一個(gè)非監(jiān)督式的學(xué)習(xí)模型。真正的目標(biāo)可能是探索數(shù)據(jù)的底層結(jié)構(gòu),而目標(biāo)的標(biāo)注只起到弱監(jiān)督的作用。

公平合理的決策

目前,政客、記者和研究人員都表示擔(dān)心,必須通過(guò)解釋來(lái)評(píng)估算法自動(dòng)生成的決定是否符合道德標(biāo)準(zhǔn)。怎么能確定預(yù)測(cè)中沒(méi)有基于種族的歧視呢?傳統(tǒng)的評(píng)估指標(biāo),如準(zhǔn)確性或 AUC (曲線下面積),很少保證基于ML的決策行為是可接受的。因此,對(duì)公平的要求往往導(dǎo)致對(duì)可解釋模型的要求。

可解釋性的透明度概念

為了賦予可解釋性,我們需要探討模型所涉及的技術(shù)和模型屬性。它們大致可分為兩類。第一個(gè)與透明度有關(guān)(例如,模型是如何工作的?),第二種是事后的解釋(例如,模型還能告訴我什么?)

非正式地說(shuō),透明度是不透明或“黑盒子”的反義詞,它意味著對(duì)模型工作機(jī)制的某種理解。這里在整個(gè)模型級(jí)別(可模擬性)、單個(gè)組件級(jí)別(如參數(shù)級(jí)別,可分解性)和訓(xùn)練算法級(jí)別(算法透明性)上考慮透明性。

可模擬性

從嚴(yán)格的意義來(lái)講,如果一個(gè)人能夠同時(shí)考量整個(gè)模型,那么這個(gè)模型可以被稱為透明模型。這個(gè)定義表明,可解釋的模型是一個(gè)簡(jiǎn)單的模型。例如,為了充分了解一個(gè)模型,人們應(yīng)該能夠?qū)⑤斎霐?shù)據(jù)與模型的參數(shù)一起考量,在合理的時(shí)間步長(zhǎng)內(nèi)完成生成預(yù)測(cè)所需的每一次計(jì)算。這符合通常的說(shuō)法,即稀疏線性模型,表明可解釋性模型是一種“可以很容易地用視覺(jué)或文本組件呈現(xiàn)給用戶”的模型。

為了應(yīng)用單一預(yù)測(cè),模型大小和計(jì)算之間的權(quán)衡因模型而異。例如,在某些模型(如決策樹)中,與執(zhí)行推理所需的時(shí)間(從根到葉的傳遞長(zhǎng)度)相比,模型的大小(節(jié)點(diǎn)總數(shù))可能會(huì)變得相當(dāng)大。這表明,可模擬性可能包含兩個(gè)子類型: 一個(gè)基于模型的大小,另一個(gè)基于執(zhí)行推理所需的計(jì)算。

在確定可模擬性的概念時(shí),用“合理”表示的量是主觀的。然而,很明顯,由于人類認(rèn)知能力有限,這種模糊性可能會(huì)跨越幾個(gè)數(shù)量級(jí)。在這種情況下,無(wú)論是線性模型、基于規(guī)則的系統(tǒng),還是決策樹,本質(zhì)上都是不可解釋的。高維的模型、笨重的規(guī)則列表和深度的決策樹都可以被認(rèn)為不如相對(duì)緊湊的神經(jīng)網(wǎng)絡(luò)透明。

可分解性

關(guān)于透明度的第二個(gè)概念可能是,模型的每個(gè)部分都是什么?輸入,參數(shù),計(jì)算需要有一個(gè)直觀的解釋。例如,決策樹中的每個(gè)節(jié)點(diǎn)可能對(duì)應(yīng)于一個(gè)簡(jiǎn)單的文本描述。類似地,線性模型的參數(shù)可以描述為表示每個(gè)特征和標(biāo)簽之間關(guān)聯(lián)的強(qiáng)度。

請(qǐng)注意,這種可解釋性的概念要求輸入本身是可以單獨(dú)解釋的,會(huì)使一些具有高度工程化或匿名特征的模型無(wú)效。雖然這種觀點(diǎn)很流行,但不應(yīng)盲目地接受。線性模型的權(quán)重看起來(lái)似乎很直觀,但是在特征選擇和預(yù)處理方面可能是脆弱的。例如,與流感風(fēng)險(xiǎn)和疫苗接種之間的聯(lián)系相應(yīng)的系數(shù)可能是正的或負(fù)的,這取決于特征集合是否包括老年、嬰兒或免疫缺陷的指標(biāo)。

算法透明度

最后一個(gè)關(guān)于透明度的概念是機(jī)器學(xué)習(xí)算法的本身。在線性模型的情況下,可以理解誤差曲面的形狀。即使是對(duì)于以前沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)集,我們也可以證明訓(xùn)練將收斂到一個(gè)唯一的解決方案。這可能會(huì)提供一些信心,即模型將在需要對(duì)以前看不到的數(shù)據(jù)進(jìn)行重新訓(xùn)練的在線設(shè)置中運(yùn)行。另一方面,現(xiàn)代的深度學(xué)習(xí)方法缺乏這種算法的透明度。雖然神經(jīng)網(wǎng)絡(luò)的啟發(fā)式優(yōu)化程序顯然是強(qiáng)大的,但我們不知道它們是如何工作的,目前也不能保證它們能夠先驗(yàn)地工作在新的問(wèn)題上。

事后解釋

事后解釋性是從學(xué)習(xí)模型中提取信息的一種獨(dú)特方法。雖然事后解釋通常不能精確地闡明一個(gè)模型是如何工作的,但是它們可能為機(jī)器學(xué)習(xí)的實(shí)踐者和最終用戶提供有用的信息。一些常見(jiàn)的事后解釋方法包括自然語(yǔ)言解釋、學(xué)習(xí)表征或模型的可視化,以及通過(guò)例子解釋(例如,這個(gè)腫瘤被歸類為惡性腫瘤,因?yàn)樵谀P椭兴雌饋?lái)與其他的惡性腫瘤很相似)。

在某種程度上,我們可能認(rèn)為人類是可以解釋的,這是一種適用的可解釋性。就我們所知,人類做決定的過(guò)程和解釋決定的過(guò)程可能是截然不同的。這種可解釋性概念的一個(gè)優(yōu)點(diǎn)是,不透明的模型可以在事后解釋,而不犧牲預(yù)測(cè)的效果。

文字解釋

人類經(jīng)??陬^上為自己的決定辯護(hù)。類似地,一個(gè)模型可能被訓(xùn)練來(lái)產(chǎn)生預(yù)測(cè),另一個(gè)單獨(dú)的模型,如遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,來(lái)產(chǎn)生解釋。這樣的系統(tǒng)一般是,其中一個(gè)模型(強(qiáng)化學(xué)習(xí))選擇行動(dòng),以優(yōu)化累積收益;另一個(gè)模型將模型的狀態(tài)表示映射到對(duì)策略的口頭解釋上。這些解釋被訓(xùn)練來(lái)最大限度地從人類那里得到先前觀察到的真實(shí)性解釋的可能性,并且可能不會(huì)忠實(shí)地描述代理人的決定。這種方法與最近的神經(jīng)圖像字幕研究存在一定的聯(lián)系。在這種神經(jīng)圖像字幕研究中,區(qū)分性的 CNN (圖像分類訓(xùn)練)所學(xué)習(xí)的表征被第二個(gè)模型所吸收,從而生成字幕。這些字幕可以被看作是伴隨分類的解釋。

在推薦系統(tǒng)的研究中,使用文本來(lái)解釋潛在因素的模型決策。方法包括同時(shí)訓(xùn)練評(píng)級(jí)預(yù)測(cè)的潛在因素模型和產(chǎn)品評(píng)論的主題模型。在訓(xùn)練期間,在減少評(píng)分預(yù)測(cè)的平方差和增加評(píng)論文本的可能性之間交替。這些模型之所以連接在一起,是因?yàn)樗鼈兪褂靡?guī)范化的潛在因子作為主題分布。也就是說(shuō),潛在因素被正則化,因此它們也能很好地解釋評(píng)論文本中的話題分布。然后,通過(guò)檢查主題中與其潛在因子的匹配成分相對(duì)應(yīng)的頂部詞匯來(lái)解釋用戶項(xiàng)的兼容性。注意,通過(guò)顯示頂部詞匯來(lái)解釋主題模型的做法本身就是一種特殊的解釋技術(shù),已經(jīng)引起了進(jìn)一步的關(guān)注。此外,在這里只討論了解釋的形式因素(包含自然語(yǔ)言) ,但是并沒(méi)有討論正確性的確切含義。到目前為止,很多文獻(xiàn)已經(jīng)回避了正確性的問(wèn)題,有時(shí)通過(guò)擁抱對(duì)問(wèn)題的主觀觀點(diǎn),詢問(wèn)人們他們更喜歡什么來(lái)回避這個(gè)問(wèn)題。

可視化

事后解釋的另一種常見(jiàn)方法是可視化,以希望定性地確定一個(gè)模型學(xué)到了什么。一種流行的方法是利用 t-SNE (t 分布隨機(jī)鄰域嵌入)對(duì)高維分布表示進(jìn)行可視化,這是一種使鄰近數(shù)據(jù)點(diǎn)可能緊密地出現(xiàn)在一起的二維可視化技術(shù)。

在計(jì)算機(jī)視覺(jué)領(lǐng)域,通過(guò)改變圖像分類網(wǎng)絡(luò)的輸入梯度下降法來(lái)增強(qiáng)從隱藏層中選擇的特定節(jié)點(diǎn)的激活,從而解釋圖像分類網(wǎng)絡(luò)學(xué)到了什么,檢查受到干擾的輸入可以提供模型所學(xué)到的線索。類似的方法已經(jīng)開始被探索,以研究在神經(jīng)網(wǎng)絡(luò)的不同層次上保留了哪些信息。例如,通過(guò)一個(gè)有區(qū)別的 CNN 傳遞一個(gè)圖像來(lái)生成一個(gè)表示。然后,原始圖像可以恢復(fù)高保真度,即使從合理的高級(jí)別表示(例如6層的 AlexNet)通過(guò)執(zhí)行梯度下降法的隨機(jī)初始化像素。和前面的文本解釋一樣,關(guān)于可視化的討論主要集中在形式因素和興趣點(diǎn)上,但是我們?nèi)匀蝗狈?yán)格的正確性標(biāo)準(zhǔn)。

局部解釋

雖然簡(jiǎn)潔地描述神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的完整映射可能是很困難的,但是一些文獻(xiàn)集中于解釋神經(jīng)網(wǎng)絡(luò)依賴于局部的哪些因素。深層神經(jīng)網(wǎng)絡(luò)的一個(gè)流行的方法是計(jì)算顯著性映射。通常,它們采用與給定輸入向量相對(duì)應(yīng)的正確分類的輸出梯度。對(duì)于圖像,這個(gè)漸變可以作為蒙板,突出顯示輸入?yún)^(qū)域,如果改變,將最大程度地影響輸出。需要注意的是,這些關(guān)于模型關(guān)注點(diǎn)的解釋可能會(huì)產(chǎn)生誤導(dǎo)。顯著性圖只是一個(gè)局部解釋。一旦移動(dòng)了一個(gè)像素,可能會(huì)得到一個(gè)非常不同的顯著性圖像。這與線性模型相反,線性模型模擬了輸入和輸出之間的全局關(guān)系。

通過(guò)學(xué)習(xí)一個(gè)單獨(dú)的稀疏線性模型來(lái)解釋第一個(gè)模型的決策,從而解釋在特定點(diǎn)附近的局部區(qū)域中任何模型的決策。奇怪的是,盡管該方法對(duì)顯著性映射的興趣點(diǎn)在于它能夠?yàn)椴豢晌⒌哪P吞峁┝私忉?,但是它更常用于需要解釋的模型?shí)際上是可微的情況。在這種情況下,除了對(duì)梯度進(jìn)行噪聲估計(jì)外,還能提供什么信息尚不清楚。是否比普通的漸變信息更多,可能在很大程度上取決于如何選擇超像素。此外,如果沒(méi)有一個(gè)嚴(yán)格定義的目標(biāo),誰(shuí)能說(shuō)哪些超參數(shù)是正確的呢?

例證式的可解釋性

一個(gè)解釋模型所確定的特別機(jī)制可能是報(bào)告哪些其他的例子與模型最相似,訓(xùn)練一個(gè)深層的神經(jīng)網(wǎng)絡(luò)或潛變量模型,不僅可以預(yù)測(cè)一個(gè)有區(qū)別的任務(wù),而且還可以學(xué)習(xí)表示。然后,對(duì)于任何示例,除了生成預(yù)測(cè)之外,還可以使用隱藏層的激活來(lái)根據(jù)模型所學(xué)空間的鄰近程度識(shí)別 k近鄰。這種例證式的解釋在人類如何通過(guò)類比來(lái)證明行為的合理性方面有先例。例如,醫(yī)生經(jīng)常引用個(gè)案研究來(lái)支持計(jì)劃的治療方案。

在神經(jīng)網(wǎng)絡(luò)文獻(xiàn)中,有人使用這種方法來(lái)檢驗(yàn)word2vec 模型訓(xùn)練后的學(xué)習(xí)表征。在訓(xùn)練模型進(jìn)行skip-gram預(yù)測(cè)的同時(shí),為了檢驗(yàn)?zāi)P蛯W(xué)習(xí)到的關(guān)系,模型根據(jù)潛在空間中計(jì)算的距離,列舉了詞的最近鄰。

主要結(jié)論

可解釋性的概念顯得既重要又難以捉摸。前面分析了解釋性的動(dòng)機(jī)和學(xué)者們賦予它的一些嘗試?,F(xiàn)在讓我們考慮一下這個(gè)分析的含義,并提供幾個(gè)要點(diǎn)。

  • 嚴(yán)格來(lái)說(shuō),線性模型并不比深層神經(jīng)網(wǎng)絡(luò)更具可解釋性。盡管這一說(shuō)法流行已久,其價(jià)值取決于可解釋性中的哪一個(gè)概念正在使用。關(guān)于算法透明度,這一說(shuō)法似乎沒(méi)有爭(zhēng)議,但對(duì)于高維或大量的工程特征,線性模型分別失去了可模擬性或可分解性。

在線性模型和深度模型之間進(jìn)行選擇時(shí),我們必須經(jīng)常在算法透明性和可分解性之間進(jìn)行權(quán)衡。這是因?yàn)樯顚由窠?jīng)網(wǎng)絡(luò)傾向于對(duì)原始或輕微處理的特征進(jìn)行操作。因此,如果沒(méi)有其他事情,這些特征直觀上是有意義的,而事后推理是合理的。然而,為了獲得可比的性能,線性模型通常必須在大量手工設(shè)計(jì)的特征上運(yùn)行。在這種情況下,線性模型只能以可分解性為代價(jià)來(lái)逼近遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的性能。

  • 對(duì)于某些類型的事后解釋,深層神經(jīng)網(wǎng)絡(luò)顯示出明顯的優(yōu)勢(shì)??紤]到可解釋性的要求,線性模型似乎在研究自然世界方面有更好的記錄,但是似乎沒(méi)有理論上的原因說(shuō)明為什么必須如此??梢韵胂?,在類似的情況下,事后解釋可能證明是有用的。
  • 關(guān)于可解釋性的說(shuō)法必須加以限定。可解釋性并不是一個(gè)單一的概念。為了有意義,任何關(guān)于可解釋性的斷言都應(yīng)該先確定一個(gè)特定的定義。如果模型滿足了某種形式的透明性,則可以直接顯示這一點(diǎn)。對(duì)于事后的可解釋性,應(yīng)確定一個(gè)明確的目標(biāo),并證明所提供的解釋形式實(shí)現(xiàn)了這一目標(biāo)。

在某些情況下,透明度可能與通用人工智能的目標(biāo)相悖。一些反對(duì)黑盒算法的論點(diǎn)似乎排除了任何能夠在復(fù)雜任務(wù)上匹配或超越人類能力的模型。一個(gè)具體的例子是,通過(guò)提高透明度與醫(yī)生建立信任的短期目標(biāo)可能與改善保健的長(zhǎng)期目標(biāo)相沖突。在放棄預(yù)測(cè)能力時(shí)要小心,因?yàn)橥该鞫鹊囊笫呛侠淼?,而不是?jiǎn)單地向反對(duì)新方法的機(jī)制讓步。

事后解釋可能會(huì)產(chǎn)生誤導(dǎo),謹(jǐn)防盲目地?fù)肀囟ǖ目山忉屝愿拍?,尤其是在通過(guò)優(yōu)化以安撫主觀需求的時(shí)候。在這種情況下,優(yōu)化算法可能會(huì)提出似是而非的解釋。一些記者和社會(huì)學(xué)家已經(jīng)證明,由于諸如領(lǐng)導(dǎo)力或原創(chuàng)力等美德而作出的決定往往掩蓋了種族或性別的歧視。

關(guān)于模型可解釋性的未來(lái)

首先,對(duì)于某些問(wèn)題,現(xiàn)實(shí)生活和機(jī)器學(xué)習(xí)目標(biāo)之間的差異可以通過(guò)開發(fā)更豐富的損失函數(shù)和性能指標(biāo)來(lái)緩解。這一方向的典型例子包括了稀疏導(dǎo)致的正則化和代價(jià)敏感的研究。其次,這種分析可以擴(kuò)展到其他的機(jī)器學(xué)習(xí)范例,比如強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)可以直接建模模型和環(huán)境之間的交互,從而實(shí)現(xiàn)可解釋性研究的部分(但不是全部)目標(biāo)。然而,這種能力可能會(huì)以允許模型在現(xiàn)實(shí)世界中進(jìn)行實(shí)驗(yàn)為代價(jià),從而產(chǎn)生真正的后果。

值得注意的是,強(qiáng)化學(xué)習(xí)能夠?qū)W習(xí)自己行為和現(xiàn)實(shí)世界的影響之間的因果關(guān)系。然而,像監(jiān)督式學(xué)習(xí)一樣,強(qiáng)化學(xué)習(xí)依賴于一個(gè)定義良好的度量目標(biāo)。對(duì)于像公平這樣的問(wèn)題,我們盡力用語(yǔ)言表達(dá)可解釋性的精確定義,機(jī)器學(xué)習(xí)范式的轉(zhuǎn)變不太可能消除可解釋性面臨的問(wèn)題。

 

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專欄
相關(guān)推薦

2019-08-29 18:07:51

機(jī)器學(xué)習(xí)人工智能

2010-01-22 17:21:32

C++語(yǔ)言

2024-05-28 08:00:00

人工智能機(jī)器學(xué)習(xí)

2023-03-07 16:48:54

算法可解釋性

2025-01-13 08:13:18

2024-09-18 05:25:00

可解釋性人工智能AI

2024-11-04 14:33:04

機(jī)器學(xué)習(xí)SHAP黑盒模型

2025-07-15 10:29:17

2025-01-23 08:23:12

2018-05-23 10:23:18

數(shù)據(jù)系統(tǒng)機(jī)器學(xué)習(xí)

2019-03-28 09:26:26

數(shù)據(jù)科學(xué)模型機(jī)器學(xué)習(xí)

2022-06-14 14:48:09

AI圖像GAN

2020-08-19 09:20:00

機(jī)器學(xué)習(xí)人工智能Python

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡(luò)

2025-07-08 08:38:09

推理錨點(diǎn)LLM大模型

2021-12-30 20:20:46

機(jī)器學(xué)習(xí)銷售語(yǔ)言

2019-10-22 10:12:45

機(jī)器學(xué)習(xí)模型人工智能

2020-08-25 10:30:59

TensorFlow數(shù)據(jù)機(jī)器學(xué)習(xí)

2025-03-10 08:34:39

2021-01-25 21:41:59

人工智能深度學(xué)習(xí)自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)