重新審視AI,神經(jīng)網(wǎng)絡(luò)中概念符號(hào)涌現(xiàn)的發(fā)現(xiàn)與證明
本文圍繞近期的兩項(xiàng)工作,討論神經(jīng)網(wǎng)絡(luò)中符號(hào)概念的涌現(xiàn)現(xiàn)象,即『深度神經(jīng)網(wǎng)絡(luò)的表征是否是符號(hào)化的』的問(wèn)題。如果我們繞開(kāi) “應(yīng)用技術(shù)提升” 的視角,從 “科學(xué)發(fā)展” 的角度來(lái)重新審視 AI,證明 AI 模型中的符號(hào)涌現(xiàn)現(xiàn)象無(wú)疑是具有重大意義的。
1. 首先,目前大部分的可解釋性研究都在試圖將神經(jīng)網(wǎng)絡(luò)解釋為一個(gè) “清晰的”、“語(yǔ)義化的”、或 “邏輯化的” 模型。但是,如果無(wú)法證明神經(jīng)網(wǎng)絡(luò)的符號(hào)涌現(xiàn),如果神經(jīng)網(wǎng)絡(luò)內(nèi)在表征成分真的有大量的混亂成分,那么大部分的可解釋性研究就失去了其基本事實(shí)依據(jù)。
2. 其次,如果無(wú)法證明神經(jīng)網(wǎng)絡(luò)的符號(hào)涌現(xiàn),深度學(xué)習(xí)的發(fā)展將會(huì)大概率困在 “結(jié)構(gòu)”、“損失函數(shù)”、“數(shù)據(jù)” 等外圍因素的層面,而無(wú)法直接高層的認(rèn)知層面去實(shí)現(xiàn)知識(shí)層面的交互式學(xué)習(xí)。往這個(gè)方向發(fā)展需要更干凈清晰的理論支撐。
因此,本文主要從以下三個(gè)方面介紹。
1. 如何去定義神經(jīng)網(wǎng)絡(luò)所建模的符號(hào)化概念,從而可靠地發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的符號(hào)涌現(xiàn)現(xiàn)象。
2. 為什么所量化的符號(hào)化概念可以認(rèn)為是可信的概念(稀疏性、對(duì)神經(jīng)網(wǎng)絡(luò)表征的 universal matching、遷移性、分類(lèi)性、對(duì)歷史解釋性指標(biāo)的解釋?zhuān)?/span>
3. 如何證明符號(hào)化概念的涌現(xiàn) —— 即理論證明當(dāng) AI 模型在某些情況下(一個(gè)并不苛刻的條件),AI 模型的表征邏輯可以解構(gòu)為極少數(shù)的可遷移的符號(hào)化概念的分類(lèi)效用(這部分會(huì)在 4 月底公開(kāi)討論)。
論文地址:https://arxiv.org/pdf/2111.06206.pdf
論文地址:https://arxiv.org/pdf/2302.13080.pdf
該研究作者包括上海交通大學(xué)碩士二年級(jí)學(xué)生李明杰、上海交通大學(xué)博士三年級(jí)學(xué)生任潔,李明杰和任潔都師從張拳石老師。他們所在的實(shí)驗(yàn)室團(tuán)隊(duì)常年做神經(jīng)網(wǎng)絡(luò)可解釋性的研究。對(duì)于可解釋性領(lǐng)域,研究者可以從不同角度來(lái)分析,有解釋表征的,有解釋性能的,有相對(duì)可靠合理的,也有不合理的。但是,深入討論下去,對(duì)神經(jīng)網(wǎng)絡(luò)的解釋有兩個(gè)根本的愿景,即「能否清晰且嚴(yán)謹(jǐn)?shù)乇硎境錾窠?jīng)網(wǎng)絡(luò)所建模的概念」和「能否準(zhǔn)確解釋出決定神經(jīng)網(wǎng)絡(luò)性能的因素」。
在「解釋神經(jīng)網(wǎng)絡(luò)所建模的概念」這一方向上,所有研究者都必須面對(duì)的一個(gè)核心問(wèn)題 ——“神經(jīng)網(wǎng)絡(luò)的表征到底是不是符號(hào)化概念化的”。如果這個(gè)問(wèn)題回答不清楚,那么后續(xù)的研究很難進(jìn)行 —— 如果神經(jīng)網(wǎng)絡(luò)的表征本身都是混亂的,然后研究者強(qiáng)行用一堆 “符號(hào)化的概念” 或 “因果邏輯” 去解釋?zhuān)@樣一來(lái)方向就錯(cuò)了?對(duì)神經(jīng)網(wǎng)絡(luò)符號(hào)化表征的假設(shè),是進(jìn)行深入研究該領(lǐng)域的基礎(chǔ),但是對(duì)此問(wèn)題的論證往往讓人無(wú)從下手。
大部分研究者對(duì)神經(jīng)網(wǎng)絡(luò)的第一直覺(jué)是 “它不可能是符號(hào)化的吧?” 神經(jīng)網(wǎng)絡(luò)畢竟不是圖模型。在一篇由 Cynthia 等人撰寫(xiě)的論文中《Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead》 [3],,讓人們誤以為對(duì)神經(jīng)網(wǎng)絡(luò)的事后解釋(post-hoc explanation)天然地是不可靠的。
那么,神經(jīng)網(wǎng)絡(luò)內(nèi)在表征真的是非?;靵y的?而不是清晰的、稀疏的、符號(hào)化的嗎?圍繞這個(gè)問(wèn)題,我們定義了博弈交互 [4,5],證明了神經(jīng)網(wǎng)絡(luò)表征瓶頸 [6],研究了神經(jīng)網(wǎng)絡(luò)對(duì)視覺(jué)概念表征的特點(diǎn) [7,8],從而證明了交互概念與神經(jīng)網(wǎng)絡(luò)泛化和魯棒性的關(guān)系 [9,10,11,12],進(jìn)而完善了沙普利值 [13],但是實(shí)驗(yàn)室前期僅僅圍繞 “符號(hào)化表征” 核心的周邊進(jìn)行探索,始終無(wú)法直接探索神經(jīng)網(wǎng)絡(luò)表征是否是符號(hào)化的。
這里我們先說(shuō)結(jié)論 —— 在大部分情況下,神經(jīng)網(wǎng)絡(luò)的表征是清晰的、稀疏的、符號(hào)化的。這個(gè)結(jié)論背后有大量的理論證明,以及大量的實(shí)驗(yàn)論證。在理論方面,我們目前的研究證明了一些可以支撐 “符號(hào)化” 的特性,但是目前證明還不足以對(duì) “符號(hào)化表征” 給出嚴(yán)謹(jǐn)明確的解答。未來(lái)幾個(gè)月,我們會(huì)有更加嚴(yán)謹(jǐn)、全面的證明。
如何定義神經(jīng)網(wǎng)絡(luò)所建模的概念
在分析神經(jīng)網(wǎng)絡(luò)之前,我們需要明確 “如何定義網(wǎng)絡(luò)所建模的概念”。實(shí)際上,對(duì)于這一問(wèn)題,之前已經(jīng)有了相關(guān)研究 [14,15],并且實(shí)驗(yàn)結(jié)果也比較優(yōu)異 —— 但是,我們認(rèn)為,“概念” 的定義在理論上應(yīng)有 “嚴(yán)謹(jǐn)性” 的數(shù)學(xué)保證。
因此,我們?cè)谡撐?[1] 中定義了 I(S) 這一指標(biāo),用來(lái)量化概念 S 對(duì)于網(wǎng)絡(luò)輸出的效用,這里 S 指的是組成這一概念的所有輸入變量的集合。例如,給定一個(gè)神經(jīng)網(wǎng)絡(luò)和一個(gè)輸入句子 x=“I think he is a green hand.”,每個(gè)單詞可以看成網(wǎng)絡(luò)的其中一個(gè)輸入變量,句中的三個(gè)詞 “a”,“green”,“hand” 可以構(gòu)成一個(gè)潛在的概念 S={a,green,hand}。每個(gè)概念 S 表示了 S 中輸入變量之間的 “與” 關(guān)系:當(dāng)且僅當(dāng) S 中的輸入變量全部出現(xiàn)時(shí),這一概念才被觸發(fā),從而為網(wǎng)絡(luò)輸出貢獻(xiàn) I (S) 的效用。而當(dāng) S 中任意變量被遮擋時(shí),I (S) 這部分效用就從原本的網(wǎng)絡(luò)輸出中移除了。例如,對(duì)于 S={a,green,hand} 這一概念,如果把輸入句子中的 “hand” 一詞遮擋,那么這一概念就不被觸發(fā),網(wǎng)絡(luò)輸出中也不會(huì)包含這一概念的效用 I (S)。
我們證明了神經(jīng)網(wǎng)絡(luò)輸出總可以被拆分為所有觸發(fā)概念效用之和。即在理論上,對(duì)于一個(gè)包含 n 個(gè)輸入單元的樣本,最多有
種不同的遮擋方式,我們總可以用『少量概念』的效用來(lái)『精確擬合』神經(jīng)網(wǎng)絡(luò)『所有
種』不同遮擋樣本上的輸出值,從而證明了 I (S) 的『嚴(yán)謹(jǐn)性』。下圖給了一個(gè)簡(jiǎn)單的例子。
進(jìn)一步,我們?cè)谡撐?[1] 中證明了 I (S) 滿(mǎn)足博弈論中 7 條性質(zhì),進(jìn)一步說(shuō)明了這一指標(biāo)的可靠性。
除此以外,我們還證明了博弈交互概念 I (S) 能夠解釋博弈論中大量經(jīng)典指標(biāo)的基本機(jī)理,比如 Shapley value [16]、Shapley interaction index [17],以及 Shapley-Taylor interaction index [18]。具體地,我們可以將這三種指標(biāo)表示為交互概念的不同線(xiàn)性和的形式。
實(shí)際上,課題組的前期工作已經(jīng)基于博弈交互概念指標(biāo)來(lái)定義 Shapley value 的最優(yōu)基準(zhǔn)值 [13],并探索視覺(jué)神經(jīng)網(wǎng)絡(luò)所建模的『原型視覺(jué)概念』及其『美觀(guān)度』[8]。
神經(jīng)網(wǎng)絡(luò)是否建模了清晰、符號(hào)化的概念表征
有了這一指標(biāo),我們進(jìn)一步探索上面提到的核心問(wèn)題:神經(jīng)網(wǎng)絡(luò)是否真的能從訓(xùn)練任務(wù)中總結(jié)出清晰的、符號(hào)化的、概念化的表征?所定義的交互概念真的能表示一些有意義的 “知識(shí)”,還是僅僅是一個(gè)純粹從數(shù)學(xué)上湊出來(lái)的沒(méi)有明確意義的 tricky metrics?為此,我們從以下四個(gè)方面回答這一問(wèn)題 —— 符號(hào)化概念化的表征應(yīng)當(dāng)滿(mǎn)足稀疏性、樣本間遷移性、網(wǎng)絡(luò)間遷移性,以及分類(lèi)性。
要求一(概念稀疏性):神經(jīng)網(wǎng)絡(luò)所建模的概念應(yīng)當(dāng)是稀疏的
不同于連結(jié)主義,符號(hào)主義的一個(gè)特性在于人們希望用少量的、稀疏的概念來(lái)表示網(wǎng)絡(luò)學(xué)到的知識(shí),而不是用大量、稠密的概念。實(shí)驗(yàn)中我們發(fā)現(xiàn),在大量潛在概念中,僅有非常少量的顯著概念。即大部分交互概念的交互效用 I (S) 趨近于 0,故可以忽略,僅有極少量的交互概念有較顯著的交互效用 I (S),這樣神經(jīng)網(wǎng)絡(luò)的輸出僅僅決定于少量概念的交互效用。換句話(huà)說(shuō),神經(jīng)網(wǎng)絡(luò)對(duì)于每個(gè)樣本的推斷可以被簡(jiǎn)潔地解釋為少量顯著概念的效用。
要求二(樣本間遷移性):神經(jīng)網(wǎng)絡(luò)所建模的概念在不同樣本間應(yīng)當(dāng)具有遷移性
在單個(gè)樣本上滿(mǎn)足稀疏性是遠(yuǎn)遠(yuǎn)不夠的,更重要的是,這些稀疏的概念表達(dá)應(yīng)當(dāng)能夠在不同樣本之間互相遷移。如果同一個(gè)交互概念可以在不同樣本中表征,如果不同樣本總提取出類(lèi)似的交互概念,那么這個(gè)交互概念更可能代表一種有意義的普適的知識(shí)。反之,如果大部分交互概念僅僅在一兩個(gè)特定樣本上有表征,那么這樣所定義的交互更傾向于一個(gè)僅有數(shù)學(xué)定義但沒(méi)有物理意義的 tricky metric。在實(shí)驗(yàn)中,我們發(fā)現(xiàn),往往存在一個(gè)較小的概念字典,它能夠解釋神經(jīng)網(wǎng)絡(luò)為同類(lèi)別樣本所建模的大部分概念。
我們也可視化了一些概念,并且發(fā)現(xiàn),相同的概念通常對(duì)不同的樣本產(chǎn)生類(lèi)似的效果,這也驗(yàn)證了概念在不同樣本之間的遷移性。
要求三(網(wǎng)絡(luò)間遷移性):不同神經(jīng)網(wǎng)絡(luò)所建模的概念之間應(yīng)當(dāng)具有遷移性
類(lèi)似地,這些概念應(yīng)當(dāng)能夠被不同的神經(jīng)網(wǎng)絡(luò)穩(wěn)定地學(xué)到,無(wú)論是不同初始化的網(wǎng)絡(luò),還是不同架構(gòu)的網(wǎng)絡(luò)。雖然神經(jīng)網(wǎng)絡(luò)可以設(shè)計(jì)為全然不同的架構(gòu),建模不同維數(shù)的特征,但是如果不同的神經(jīng)網(wǎng)絡(luò)面對(duì)同一個(gè)具體任務(wù)可以實(shí)現(xiàn)『殊途同歸』,即如果不同神經(jīng)網(wǎng)絡(luò)都可以穩(wěn)定地學(xué)習(xí)到類(lèi)似的一組交互概念,那么我們可以認(rèn)為這組交互概念是面向這個(gè)任務(wù)的根本的表征。比如,如果不同的人臉檢測(cè)網(wǎng)絡(luò)都不約而同地建模了眼睛、鼻子、嘴之間的交互,那么我們可以認(rèn)為這樣的交互是更 “本質(zhì)的”“可靠的”。在實(shí)驗(yàn)中,我們發(fā)現(xiàn),越顯著的概念越容易被不同的網(wǎng)絡(luò)同時(shí)學(xué)到,相對(duì)比例的顯著交互是被不同神經(jīng)網(wǎng)絡(luò)所共同建模的。
要求四(概念分類(lèi)性):神經(jīng)網(wǎng)絡(luò)所建模的概念應(yīng)當(dāng)具有分類(lèi)性
最后,對(duì)于分類(lèi)任務(wù)而言,如果一個(gè)概念具有較高的分類(lèi)性,那么它應(yīng)當(dāng)為大多數(shù)樣本上的分類(lèi)起到一致的正向作用(或是一致的負(fù)向作用)。較高的分類(lèi)性可以驗(yàn)證這個(gè)概念可以獨(dú)立地承擔(dān)分類(lèi)任務(wù),從而更大可能的是一個(gè)可靠的概念,而不是不成熟的中間特征。我們同樣設(shè)計(jì)了實(shí)驗(yàn)來(lái)驗(yàn)證這一性質(zhì),發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)建模的概念往往具有較高的分類(lèi)性。
綜上所述,上面的四個(gè)方面表明,在大部分情況下,神經(jīng)網(wǎng)絡(luò)的表征是清晰的、稀疏的、符號(hào)化的。當(dāng)然,神經(jīng)網(wǎng)絡(luò)也并不是每時(shí)每刻都能夠建模這種清晰、符號(hào)化的概念,在少數(shù)極端情況下,神經(jīng)網(wǎng)絡(luò)學(xué)不到稀疏、可遷移的概念,具體請(qǐng)看我們的論文 [2]。
此外,我們還利用此交互來(lái)解釋了大模型[22]。
神經(jīng)網(wǎng)絡(luò)的符號(hào)化表征在神經(jīng)網(wǎng)絡(luò)可解釋性中的意義
1. 從可解釋性領(lǐng)域發(fā)展的角度來(lái)看,最直接的意義就是為 “概念層面解釋神經(jīng)網(wǎng)絡(luò)” 找到了一定的依據(jù)。如果神經(jīng)網(wǎng)絡(luò)本身的表征都不是符號(hào)化的,那么從符號(hào)化概念層面對(duì)神經(jīng)網(wǎng)絡(luò)的解釋就只能是隔靴搔癢,解釋的結(jié)果一定是似是而非的,并不能實(shí)質(zhì)性的推導(dǎo)深度學(xué)習(xí)進(jìn)一步的發(fā)展。
2. 從 2021 年開(kāi)始,我們逐步構(gòu)建了一個(gè)基于博弈交互的理論體系。發(fā)現(xiàn)基于博弈交互,我們可以統(tǒng)一解釋兩個(gè)核心問(wèn)題 “怎樣量化神經(jīng)網(wǎng)絡(luò)所建模的知識(shí)” 和 “怎樣解釋神經(jīng)網(wǎng)絡(luò)的表征能力”。在 “怎樣量化神經(jīng)網(wǎng)絡(luò)所建模的知識(shí)” 方向上,除了本文提到的兩個(gè)工作之外,課題組的前期工作已經(jīng)基于博弈交互概念指標(biāo),來(lái)定義 Shapley value 的最優(yōu)基準(zhǔn)值 [13],并探索視覺(jué)神經(jīng)網(wǎng)絡(luò)所建模的『原型視覺(jué)概念』及其『美觀(guān)度』[7,8]。
3. 在 “怎樣解釋神經(jīng)網(wǎng)絡(luò)的表征能力” 方向上,課題組證明了神經(jīng)網(wǎng)絡(luò)對(duì)不同交互的表征瓶頸 [6],研究了神經(jīng)網(wǎng)絡(luò)如何通過(guò)其所建模的交互概念來(lái)確定其泛化性 [12,19],研究神經(jīng)網(wǎng)絡(luò)所建模的交互概念與其對(duì)抗魯棒性和對(duì)抗遷移性的關(guān)系 [9,10,11,20],證明了貝葉斯神經(jīng)網(wǎng)絡(luò)更難以建模復(fù)雜交互概念 [21]。
更多閱讀請(qǐng)參考:
?https://zhuanlan.zhihu.com/p/264871522/?