OpenAI的可解釋性挑戰(zhàn)與解釋性人工智能(XAI)在醫(yī)療診斷中的關(guān)鍵作用 精華
在上周于瑞士日內(nèi)瓦舉行的國(guó)際電信聯(lián)盟 AI for Good 全球峰會(huì)上,OpenAI 首席執(zhí)行官 Sam Altman 在被問(wèn)及該公司的大型語(yǔ)言模型 (LLM) 的實(shí)際運(yùn)作方式時(shí)感到很困惑。Sam Altman 承認(rèn) OpenAI 實(shí)際上并不了解其 AI 的工作原理,“我們當(dāng)然還沒(méi)有解決可解釋性問(wèn)題?!監(jiān)penAI已籌集數(shù)百億美元用于開(kāi)發(fā)改變世界的人工智能技術(shù)。但有一個(gè)明顯的問(wèn)題:它仍然難以理解其技術(shù)實(shí)際上是如何運(yùn)作的。
《觀察家報(bào)》援引他的話說(shuō):“我們當(dāng)然還沒(méi)有解決可解釋性問(wèn)題”,這實(shí)際上是說(shuō),該公司尚未弄清楚如何追溯其人工智能模型經(jīng)常出現(xiàn)的奇怪和不準(zhǔn)確的輸出,以及它為得出這些答案而做出的決定。Altman 的回答并不令人滿意,這也凸顯了新興人工智能領(lǐng)域的一個(gè)真正問(wèn)題。長(zhǎng)期以來(lái),研究人員一直在努力解釋幕后自由“思考”的過(guò)程,人工智能聊天機(jī)器人幾乎可以神奇地、毫不費(fèi)力地對(duì)任何向它們提出的問(wèn)題做出反應(yīng)。
人工智能的可解釋性對(duì)于其發(fā)展和應(yīng)用至關(guān)重要。如果人工智能系統(tǒng)的決策無(wú)法被合理解釋?zhuān)妼㈦y以信任和接受這些技術(shù)??山忉屝杂兄谧屓藗兝斫饽P偷倪\(yùn)作方式,從而建立對(duì)其的信任。在將人工智能模型投入實(shí)際應(yīng)用時(shí),組織需要建立信心,而可解釋性正是幫助實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵因素??山忉屝杂兄诮M織采用負(fù)責(zé)任的人工智能開(kāi)發(fā)方法。通過(guò)理解模型的決策過(guò)程,開(kāi)發(fā)人員可以確保系統(tǒng)按預(yù)期運(yùn)行,并滿足監(jiān)管標(biāo)準(zhǔn)。如果要允許受決策影響的人質(zhì)疑或更改結(jié)果,可解釋性也十分重要。
隨著醫(yī)療領(lǐng)域中人工智能應(yīng)用的不斷增加,解釋性成為了一個(gè)關(guān)鍵問(wèn)題。醫(yī)生、研究人員和患者需要理解AI系統(tǒng)的決策過(guò)程,以便更好地信任和接受這些技術(shù)。所以有必要探討醫(yī)療AI的解釋需求,為醫(yī)學(xué)界和技術(shù)界提供指導(dǎo)。近日由劍橋大學(xué)精神病學(xué)系和計(jì)算機(jī)科學(xué)與技術(shù)系的研究人員組成的研究團(tuán)隊(duì)發(fā)表的論文《The Explanation Necessity for Healthcare AI》對(duì)醫(yī)療人工智能的解釋需求進(jìn)行了深入分析。通過(guò)考慮專(zhuān)家觀察的變異性、評(píng)估協(xié)議的穩(wěn)健性和應(yīng)用的表示維度,他們提出了四個(gè)不同的解釋需求類(lèi)別:自解釋?xiě)?yīng)用、半解釋?xiě)?yīng)用、不可解釋的應(yīng)用和新模式發(fā)現(xiàn)應(yīng)用。這些分類(lèi)有助于確定不同AI應(yīng)用的解釋需求,從而確保AI系統(tǒng)既準(zhǔn)確又可靠。研究團(tuán)隊(duì)的專(zhuān)業(yè)知識(shí)可能涵蓋醫(yī)療應(yīng)用和計(jì)算機(jī)科學(xué),使他們非常適合探索醫(yī)療 AI 的解釋必要性,這篇論文對(duì)從事醫(yī)療人工智能研究和開(kāi)發(fā)的團(tuán)隊(duì)非常重要。
解釋必要性
研究團(tuán)隊(duì)提出了一個(gè)新的分類(lèi)系統(tǒng),用于指導(dǎo)醫(yī)療人工智能應(yīng)用中所需解釋的級(jí)別。這個(gè)系統(tǒng)包括四個(gè)不同的解釋必要性類(lèi)別:患者或樣本(局部)級(jí)別、隊(duì)列或數(shù)據(jù)集(全局)級(jí)別,或兩者都需要。文章還介紹了一個(gè)數(shù)學(xué)公式,用于區(qū)分這些類(lèi)別,并為研究人員提供了一個(gè)實(shí)用框架,以確定醫(yī)療AI應(yīng)用中所需解釋的必要性和深度??紤]到的三個(gè)關(guān)鍵因素是:評(píng)估協(xié)議的穩(wěn)健性、專(zhuān)家觀察的變異性和應(yīng)用的表示維度。
解釋性人工智能(XAI)在醫(yī)療實(shí)踐中的使用至關(guān)重要,因?yàn)樗诩膊≡\斷和患者護(hù)理中發(fā)揮著重要作用。XAI在建立算法信任、理解風(fēng)險(xiǎn)、識(shí)別治療目標(biāo)、洞察疾病進(jìn)展、治療反應(yīng)、支持決策制定以及實(shí)現(xiàn)閉環(huán)控制方面起著關(guān)鍵作用。因此,一個(gè)健全的AI框架解釋可以有助于設(shè)計(jì)安全參數(shù),以供監(jiān)管機(jī)構(gòu)考慮潛在治療方法。
盡管許多研究提出了增強(qiáng)AI系統(tǒng)可解釋性的方法,但關(guān)于何時(shí)以及在何種程度上需要解釋性的具體指導(dǎo)仍然存在空白。特別是文獻(xiàn)中缺乏實(shí)用的指導(dǎo),以區(qū)分解釋必要性是針對(duì)個(gè)別患者或樣本的預(yù)測(cè)(局部級(jí)別),還是需要解碼整個(gè)模型以預(yù)測(cè)整個(gè)隊(duì)列或數(shù)據(jù)集(全局級(jí)別)。
論文還討論XAI的兩種方法論途徑:事后和透明。事后方法在預(yù)測(cè)后與AI技術(shù)一起使用,以解釋?zhuān)ǚ駝t不可解釋或“黑箱”)AI預(yù)測(cè),并揭示復(fù)雜數(shù)據(jù)集中的非線性映射。透明方法則關(guān)注具有模擬性、可分解性和透明性(“白盒”)等固有屬性的AI模型。
盡管AI模型如深度學(xué)習(xí)網(wǎng)絡(luò)通常能夠?qū)崿F(xiàn)高精度和高效率,但XAI面臨的“維度詛咒”挑戰(zhàn)強(qiáng)調(diào)了簡(jiǎn)化模型和變量選擇技術(shù)的必要性,即使這可能犧牲了精度和效率。盡管存在權(quán)衡,XAI可以促進(jìn)對(duì)算法的信任,幫助理解風(fēng)險(xiǎn)和副作用,幫助識(shí)別治療目標(biāo),提供對(duì)疾病進(jìn)展及其對(duì)治療的反應(yīng)的洞察,支持決策制定,實(shí)現(xiàn)閉環(huán)控制,并有助于為受監(jiān)管的治療方法設(shè)計(jì)安全參數(shù)。
論文強(qiáng)調(diào)AI研究社區(qū)需要一個(gè)框架,概述何時(shí)以及如何使用局部和全局解釋性技術(shù)。這將指明XAI在醫(yī)學(xué)和其他領(lǐng)域的適當(dāng)應(yīng)用,確保AI工具不僅提供準(zhǔn)確的結(jié)果,而且也是透明和值得信賴(lài)的。
分類(lèi)系統(tǒng)
研究團(tuán)隊(duì)提出了一個(gè)分類(lèi)系統(tǒng),用于確定解釋的需求,并指示何時(shí)使用局部和全局解釋。這個(gè)分類(lèi)基于評(píng)估協(xié)議的穩(wěn)健性、專(zhuān)家意見(jiàn)的變異程度以及特定任務(wù)的表示維度。這些類(lèi)別包括:
1.自解釋?xiě)?yīng)用:適用于不需要解釋AI內(nèi)部機(jī)制的任務(wù),因?yàn)閷?zhuān)家意見(jiàn)的變異性非常低,評(píng)估協(xié)議非常穩(wěn)健,AI應(yīng)用的表示維度較低,并且可以直接理解AI的預(yù)測(cè)。在這些情況下不需要解釋。
2.半解釋?xiě)?yīng)用:具有穩(wěn)健的評(píng)估協(xié)議,專(zhuān)家意見(jiàn)變異性較低,AI應(yīng)用的表示維度為低到中等。這類(lèi)別要求在AI學(xué)習(xí)過(guò)程中提供解釋?zhuān)源_保有效的訓(xùn)練。需要局部解釋。
3.不可解釋的AI應(yīng)用:特點(diǎn)是缺乏穩(wěn)健的評(píng)估協(xié)議,專(zhuān)家意見(jiàn)變異性較高,AI應(yīng)用的表示維度為中到高。在這些情況下,需要局部和全局解釋。
4.新模式發(fā)現(xiàn)的AI應(yīng)用:特點(diǎn)是缺乏穩(wěn)健的評(píng)估協(xié)議,專(zhuān)家意見(jiàn)變異性顯著,AI應(yīng)用的表示維度較高,并且對(duì)AI預(yù)測(cè)背后的機(jī)制和功能存在重大差距。在這些情況下,需要局部和全局解釋?zhuān)约斑M(jìn)一步的評(píng)估來(lái)驗(yàn)證通過(guò)這些解釋捕獲的新模式。
對(duì)于分類(lèi)解釋必要性的參數(shù),他們使用了三個(gè)關(guān)鍵參數(shù):
- 專(zhuān)家觀察的變異性(具有相同經(jīng)驗(yàn)水平的觀察者的觀察變異性)。
- 評(píng)估協(xié)議的穩(wěn)健性(具有不同經(jīng)驗(yàn)水平的觀察者的觀察變異性)。
- AI應(yīng)用的表示維度。
在評(píng)估專(zhuān)家觀察的變異性時(shí),他們采用了《報(bào)告可靠性和一致性研究的指南》(GRRAS)的術(shù)語(yǔ)。我們主要關(guān)注“一致性”,它表示分?jǐn)?shù)或觀察結(jié)果的相似程度,以及“觀察者間(或觀察者間)一致性”,它表示在相似評(píng)估條件下,兩個(gè)或多個(gè)觀察者是否達(dá)到相同的結(jié)果。在醫(yī)學(xué)應(yīng)用中,觀察者間變異性(具有相同經(jīng)驗(yàn)水平的觀察者)的κ值在0.00到0.20之間被分類(lèi)為“輕微”,而在0.21到0.40之間被視為“一般”。一般來(lái)說(shuō),0.60、0.70或0.80的值是可靠性系數(shù)標(biāo)簽的最低標(biāo)準(zhǔn),但對(duì)于關(guān)鍵個(gè)體決策,建議使用更高的值,如0.90或0.95。
圖1專(zhuān)家觀察的可變性和評(píng)估協(xié)議對(duì)解釋必要性和閾值區(qū)域分類(lèi)的穩(wěn)健性。
第二個(gè)關(guān)鍵參數(shù)是評(píng)估協(xié)議的穩(wěn)健性。他們建議測(cè)量不同經(jīng)驗(yàn)水平的觀察者之間的變異性(經(jīng)驗(yàn)不足、經(jīng)驗(yàn)豐富、專(zhuān)家)。穩(wěn)健的評(píng)估協(xié)議定義為響應(yīng)的變異性較低,表明存在清晰、明確定義的可解釋協(xié)議,可以適應(yīng)不同的經(jīng)驗(yàn)水平。
解釋的框架
研究團(tuán)隊(duì)提出了一個(gè)解釋的框架,基于三個(gè)關(guān)鍵參數(shù):專(zhuān)家觀察的變異性、評(píng)估協(xié)議的穩(wěn)健性和AI應(yīng)用的表示維度。這個(gè)框架將AI應(yīng)用分為四個(gè)不同的類(lèi)別。
1.自解釋?xiě)?yīng)用:這些應(yīng)用涵蓋了協(xié)議已經(jīng)建立(觀察者具有不同經(jīng)驗(yàn)水平)且專(zhuān)家變異性較低(觀察者具有相同經(jīng)驗(yàn)水平)的任務(wù)。在這些應(yīng)用中,不需要解釋AI網(wǎng)絡(luò)的隱藏參數(shù)。因此這類(lèi)應(yīng)用在文獻(xiàn)中被稱(chēng)為“白盒應(yīng)用”。
2.半解釋?xiě)?yīng)用:這些應(yīng)用也有穩(wěn)健的評(píng)估協(xié)議(觀察者具有不同經(jīng)驗(yàn)水平),但專(zhuān)家變異性在低到中等之間(觀察者具有相同經(jīng)驗(yàn)水平)。在這些應(yīng)用中,需要部分解釋以確認(rèn)AI的訓(xùn)練過(guò)程的準(zhǔn)確性。需要局部解釋。
3.不可解釋的AI應(yīng)用:這些應(yīng)用的評(píng)估協(xié)議沒(méi)有建立(觀察者具有不同經(jīng)驗(yàn)水平),而專(zhuān)家變異性在中到高之間(觀察者具有相同經(jīng)驗(yàn)水平)。在這些應(yīng)用中,需要局部和全局解釋。
4.新模式發(fā)現(xiàn)的AI應(yīng)用:這些應(yīng)用的評(píng)估協(xié)議非常不穩(wěn)定(觀察者具有不同經(jīng)驗(yàn)水平),而專(zhuān)家變異性很高(觀察者具有相同經(jīng)驗(yàn)水平)。在這些應(yīng)用中,需要局部和全局解釋?zhuān)约斑M(jìn)一步的評(píng)估來(lái)驗(yàn)證通過(guò)這些解釋捕獲的新模式。
此外他們還指出,在涉及高風(fēng)險(xiǎn)和關(guān)鍵個(gè)體決策的研究中,需要根據(jù)實(shí)際情況調(diào)整閾值。在這些理想情況下,“觀察者間一致性”值應(yīng)該超過(guò)標(biāo)準(zhǔn)閾值0.70、0.80,甚至0.95,作為可靠性系數(shù)的最低標(biāo)準(zhǔn)。這有助于在決策過(guò)程中保持更高的可靠性和穩(wěn)健性,從而維護(hù)安全性并減少潛在風(fēng)險(xiǎn)。
解釋必要性的評(píng)估需要考慮專(zhuān)家觀察的變異性、評(píng)估協(xié)議的穩(wěn)健性和AI應(yīng)用的表示維度。這些因素共同決定了解釋的需求級(jí)別,從而確保AI系統(tǒng)既準(zhǔn)確又可靠。
在醫(yī)療應(yīng)用中,解釋性對(duì)于人工智能(AI)的可接受實(shí)施通常至關(guān)重要。特別是在醫(yī)療領(lǐng)域,決策直接影響患者,并且對(duì)AI系統(tǒng)的信任至關(guān)重要。這種信任通常建立在AI提供的解釋和解讀上。盡管AI可解釋性取得了顯著進(jìn)展,但在醫(yī)學(xué)背景下,什么時(shí)候以及在何種程度上需要解釋仍然需要明確的指導(dǎo)。他們提出了一個(gè)新穎的解釋必要性分類(lèi)系統(tǒng),指導(dǎo)所需解釋的級(jí)別:患者或樣本(局部)級(jí)別、隊(duì)列或數(shù)據(jù)集(全局)級(jí)別,或兩者兼而有之。
這個(gè)分類(lèi)系統(tǒng)考慮了三個(gè)關(guān)鍵因素:
1.評(píng)估協(xié)議的穩(wěn)健性:這是指評(píng)估AI模型性能的協(xié)議是否可靠。如果協(xié)議穩(wěn)健,那么解釋的需求可能較低。
2.專(zhuān)家觀察的變異性:不同專(zhuān)家對(duì)AI輸出的觀察是否存在較大的變異。如果變異性較低,那么解釋的需求可能較低。
3.應(yīng)用的表示維度:這是指AI應(yīng)用的輸入和輸出之間的相關(guān)性。如果相關(guān)性不足,解釋的需求可能較高。
圖2:人工智能應(yīng)用的代表性維度和解釋的必要性。
具體而言,他們將AI應(yīng)用的解釋需求分為以下幾類(lèi):
白盒應(yīng)用:這些應(yīng)用具有清晰的評(píng)估協(xié)議和強(qiáng)烈的輸入-輸出相關(guān)性,因此不需要解釋模型的隱藏參數(shù)。這類(lèi)應(yīng)用被稱(chēng)為“白盒應(yīng)用”。
灰盒應(yīng)用:這些應(yīng)用具有一定的評(píng)估協(xié)議,但專(zhuān)家觀察的變異性較大,且AI應(yīng)用的表示維度適中。因此,需要對(duì)特定樣本進(jìn)行局部解釋。這類(lèi)應(yīng)用被稱(chēng)為“灰盒應(yīng)用”。
黑盒應(yīng)用:這些應(yīng)用沒(méi)有明確的評(píng)估協(xié)議,專(zhuān)家觀察的變異性較高,且AI應(yīng)用的表示維度較高。因此,需要使用整個(gè)數(shù)據(jù)集進(jìn)行全局解釋。這類(lèi)應(yīng)用被稱(chēng)為“黑盒應(yīng)用”。
新模式發(fā)現(xiàn)應(yīng)用:這些應(yīng)用通過(guò)將全局解釋與基于超級(jí)數(shù)據(jù)集的統(tǒng)計(jì)模型對(duì)齊,計(jì)算初始AI任務(wù)的潛在顯著標(biāo)記。這類(lèi)應(yīng)用用于非明確的評(píng)估協(xié)議、高專(zhuān)家觀察變異性和高表示維度的情況。
研究團(tuán)隊(duì)提出的數(shù)學(xué)框架可以幫助研究人員確定醫(yī)學(xué)AI應(yīng)用中解釋的必要性和深度。
圖3:深度學(xué)習(xí)應(yīng)用程序可解釋性需求的數(shù)學(xué)公式
應(yīng)用案例
自解釋型應(yīng)用:某些醫(yī)學(xué)應(yīng)用不需要深入理解AI內(nèi)部機(jī)制,因?yàn)樵u(píng)估協(xié)議變異性低(0.00-0.10)且專(zhuān)家觀察之間變異性小(0.00-0.05)。例如,從腹部計(jì)算機(jī)斷層掃描(CT)中分割人體器官和同一患者的多模態(tài)圖像配準(zhǔn) 。
半解釋型應(yīng)用:某些應(yīng)用需要更大的評(píng)估協(xié)議變異性,需要局部解釋以確保適當(dāng)?shù)挠?xùn)練。例如具有已建立疾病評(píng)估協(xié)議的分類(lèi)任務(wù)。隨著人口老齡化,神經(jīng)退行性疾病的早期診斷變得越來(lái)越重要。阿爾茨海默病是一種常見(jiàn)的神經(jīng)退行性疾病,對(duì)患者的生活質(zhì)量和家庭造成嚴(yán)重影響。利用腦部MRI掃描圖像進(jìn)行阿爾茨海默病的分類(lèi)診斷。MRI掃描可以顯示腦部結(jié)構(gòu)和異常變化,例如腦萎縮等。解釋需求:由于阿爾茨海默病的早期癥狀不明顯,需要對(duì)AI模型的決策過(guò)程進(jìn)行局部解釋?zhuān)则?yàn)證特定患者的診斷結(jié)果的準(zhǔn)確性。
非解釋型應(yīng)用:卵巢癌的早期診斷,即使使用多模態(tài)成像(MRI、超聲和計(jì)算機(jī)斷層掃描),也難以在早期階段檢測(cè)。卵巢癌是女性中常見(jiàn)的惡性腫瘤之一,但早期診斷非常困難。利用多模態(tài)醫(yī)學(xué)圖像(例如MRI、CT、超聲等)進(jìn)行卵巢癌的早期診斷。由于卵巢癌的癥狀不明顯,需要利用多模態(tài)圖像來(lái)提高診斷準(zhǔn)確性。解釋需求:由于評(píng)估協(xié)議不穩(wěn)定,專(zhuān)家意見(jiàn)變異性很高,需要對(duì)AI模型的決策過(guò)程進(jìn)行全局解釋?zhuān)则?yàn)證新的診斷模式。
新模式發(fā)現(xiàn)應(yīng)用:神經(jīng)退行性疾病的早期診斷,這些疾病在經(jīng)驗(yàn)豐富的專(zhuān)業(yè)人員中仍存在知識(shí)空白。早期階段的神經(jīng)退行性疾病(如阿爾茨海默?。┑脑\斷對(duì)患者的治療和管理至關(guān)重要。利用多模態(tài)醫(yī)學(xué)圖像(例如MRI、PET等)進(jìn)行早期階段的神經(jīng)退行性疾病的診斷。這類(lèi)應(yīng)用需要對(duì)全局和局部的決策進(jìn)行解釋?zhuān)则?yàn)證新的診斷模式。解釋需求:評(píng)估協(xié)議不穩(wěn)定,專(zhuān)家意見(jiàn)變異性很高,需要對(duì)局部和全局的決策進(jìn)行解釋?zhuān)则?yàn)證新的診斷模式。
框架應(yīng)用領(lǐng)域
在他們提出的框架中,任何人都可以確定應(yīng)用程序的解釋必要性。在醫(yī)學(xué)成像應(yīng)用中,一些應(yīng)用程序由于評(píng)估協(xié)議的變異性低(0.00-0.10),專(zhuān)家觀察的變異性低(0.00-0.05),應(yīng)用的二維表示,以及AI預(yù)測(cè)的直接性,因此對(duì)AI內(nèi)部機(jī)制的理解需求最小。例如,從腹部計(jì)算機(jī)斷層掃描(CT)中的人體器官分割和同一人的多模態(tài)圖像注冊(cè)。這些類(lèi)型的應(yīng)用程序可能會(huì)從XAI方法中受益,以?xún)?yōu)化目的而不是增強(qiáng)信任。因此可以可靠地評(píng)估AI模型的性能,而無(wú)需額外的解釋。
其他應(yīng)用程序涉及更大的評(píng)估協(xié)議變異性,需要局部解釋以確保適當(dāng)?shù)挠?xùn)練,例如具有既定疾病評(píng)估協(xié)議(0.05-0.15)和二維表示的分類(lèi)任務(wù)。隨著全球人口老齡化,神經(jīng)退行性疾病可能會(huì)越來(lái)越普遍?;贛RI掃描的大腦的二元AI分類(lèi),用于診斷阿爾茨海默病或健康老化,是一項(xiàng)低專(zhuān)家間觀察變異性(0.05-0.15)的任務(wù),因?yàn)楫?dāng)存在時(shí),腦萎縮清晰可見(jiàn),并且不需要多模態(tài)數(shù)據(jù)集即可高性能(低表示維度)。根據(jù)提出的框架,這種應(yīng)用程序是自解釋的或半解釋的。檢測(cè)診斷前多年的早期階段要困難得多。
即使在經(jīng)驗(yàn)豐富的專(zhuān)業(yè)人士中,知識(shí)差距也可能持續(xù)存在,AI有潛力提供見(jiàn)解并穩(wěn)定協(xié)議的有效性和關(guān)鍵方面(0.25-0.40)。這對(duì)于尚未牢固建立疾病評(píng)估協(xié)議的分類(lèi)任務(wù)(新模式發(fā)現(xiàn))尤其如此。卵巢癌是女性中最常見(jiàn)的癌癥之一,預(yù)后不確定(0.20-0.40),即使使用多模態(tài)成像(MRI、超聲和計(jì)算機(jī)斷層掃描)也難以在早期階段檢測(cè)到。這種AI應(yīng)用被歸類(lèi)為不可解釋的,甚至是新模式發(fā)現(xiàn)的應(yīng)用。
膿毒癥是感染引起的危及生命的急性免疫反應(yīng),會(huì)導(dǎo)致器官損傷。在治療有效的早期階段進(jìn)行診斷是復(fù)雜的。在醫(yī)療保健獲取有限的地方,預(yù)后特別差。除了臨床和實(shí)驗(yàn)室評(píng)估外,胸部X光片和全身計(jì)算機(jī)斷層掃描在診斷和疾病管理中有幫助。因此,在這個(gè)醫(yī)學(xué)主題的大多數(shù)AI應(yīng)用中,專(zhuān)家間的觀察變異性很高(0.25-0.40),評(píng)估協(xié)議的穩(wěn)健性低(0.30-0.40),應(yīng)用的表示維度需要是多模態(tài)的。這些應(yīng)用程序是新模式發(fā)現(xiàn)的應(yīng)用程序。
圖4:解釋必要性的建議框架。該框架由兩個(gè)主要流程組成:一個(gè)用于評(píng)估觀察者之間的可變性,另一個(gè)用于表示維度。最初,用戶計(jì)算具有“相同經(jīng)驗(yàn)水平”和“不同經(jīng)驗(yàn)水平”的觀察者的觀察者間變異性的平均值。然后應(yīng)用閾值(圖1)來(lái)識(shí)別表1中的兩個(gè)“初始解釋必要性分類(lèi)”。以及表2。如果這些類(lèi)別不同(“不同”),裁決專(zhuān)家會(huì)確定最適合該案件的類(lèi)別。第二個(gè)流程側(cè)重于應(yīng)用程序的表示維度,如圖2所示。最后對(duì)結(jié)果進(jìn)行“類(lèi)別決定”陳述。如果它們一致(“我”),則確定最終的XAI需求類(lèi)別(“解釋必要性級(jí)別”)。否則裁決專(zhuān)家會(huì)為申請(qǐng)確定最合適的類(lèi)別。
他們提出的框架可以應(yīng)用于自然或汽車(chē)等各種計(jì)算機(jī)視覺(jué)領(lǐng)域。為了概括,我們提供了這些領(lǐng)域應(yīng)用的例子。然而在每個(gè)領(lǐng)域中,準(zhǔn)確確定協(xié)議和閾值是必要的。在自然計(jì)算機(jī)視覺(jué)應(yīng)用中,如圖像中的動(dòng)物分類(lèi)和氣候回歸,通常需要局部解釋?zhuān)ò虢忉專(zhuān)_@種需求是因?yàn)閷?zhuān)家知識(shí)的變異性最?。?.05-0.10),評(píng)估協(xié)議的穩(wěn)健性是直接的,應(yīng)用的維度表示通常是二維的。相比之下,汽車(chē)計(jì)算機(jī)視覺(jué)通常不需要解釋。這是因?yàn)檫@些任務(wù)相對(duì)簡(jiǎn)單,具有清晰的評(píng)估指標(biāo),最少的專(zhuān)家參與,以及主要是二到三維表示的應(yīng)用(自解釋?zhuān)?/p>
展望
解釋性連同準(zhǔn)確性和一致性,是AI系統(tǒng)獲得科學(xué)家和醫(yī)療專(zhuān)業(yè)人員信任的重要方面,即使他們并不完全理解算法是如何工作的。雖然XAI的使用通常很重要,但在臨床環(huán)境中它變得至關(guān)重要,因?yàn)橐蕾?lài)AI驅(qū)動(dòng)工具做出的決策可能直接影響患者的健康。雖然許多研究專(zhuān)注于增強(qiáng)AI系統(tǒng)的可解釋性,我們強(qiáng)調(diào)缺乏用戶指導(dǎo)的建議,即何時(shí)使用解釋性技術(shù)以及在何種程度上(全局、局部或兩者)。
在這個(gè)角度,他們通過(guò)將AI解釋的必要性分為四個(gè)不同的組別來(lái)解決文獻(xiàn)中的這一重要差距:自解釋?xiě)?yīng)用、半解釋?xiě)?yīng)用、不可解釋?xiě)?yīng)用和新模式發(fā)現(xiàn)。這些分類(lèi)是根據(jù)專(zhuān)家觀察的變異性、評(píng)估協(xié)議的穩(wěn)定性和應(yīng)用的表示維度來(lái)確定的。
通過(guò)訪問(wèn)不同經(jīng)驗(yàn)水平的專(zhuān)家觀察的平均變異性,并將其與同一水平的專(zhuān)家觀察的平均變異性進(jìn)行比較,他們可以建立一個(gè)初始分類(lèi)。如果臨床應(yīng)用被識(shí)別為高風(fēng)險(xiǎn),調(diào)整提出的閾值以與應(yīng)用的風(fēng)險(xiǎn)水平一致變得至關(guān)重要。例如,與最初提出的不到0.60的不接受率相比,應(yīng)用可能需要更高的閾值,如0.80、0.90甚至0.95。
他們還考慮了AI應(yīng)用的維度表示,根據(jù)他們的建議修訂解釋必要性類(lèi)別。與提出的框架一致,他們提出了這些類(lèi)別的數(shù)學(xué)表述,以涵蓋廣泛的解釋要求。這種數(shù)學(xué)表述和建議的框架可以用來(lái)提供AI應(yīng)用所需的基本解釋。
他們已經(jīng)開(kāi)發(fā)一個(gè)全面的框架,研究人員可以輕松地為他們的AI應(yīng)用定制。他們的框架有助于確定他們特定醫(yī)療應(yīng)用的最合適的解釋必要性。這使他們能夠提供必要的解釋?zhuān)С痔峁┩该?、安全和可信?lài)的AI框架,同時(shí)也加強(qiáng)了受監(jiān)管治療的安全參數(shù)。
我們?cè)倩仡^看OpenAI公司,奧特曼最近解散了公司整個(gè)所謂的“超級(jí)協(xié)調(diào)”團(tuán)隊(duì),該團(tuán)隊(duì)致力于尋找“引導(dǎo)和控制比我們更聰明的人工智能系統(tǒng)”的方法——只是為了任命自己為替代“安全委員會(huì)”的領(lǐng)導(dǎo)人。盡管不知道公司的核心產(chǎn)品實(shí)際上是如何運(yùn)作的,但奧特曼最大的經(jīng)濟(jì)利益還是向投資者保證公司致力于安全保障。這是一件令人擔(dān)心的大事。
參考資料:
1.https://futurism.com/sam-altman-admits-openai-understand-ai
2. https://arxiv.org/abs/2406.00216
本文轉(zhuǎn)載自??大噬元獸???,作者: FlerkenS ??大噬元獸??
