KAN干翻MLP,開(kāi)創(chuàng)神經(jīng)網(wǎng)絡(luò)新范式!一個(gè)數(shù)十年前數(shù)學(xué)定理,竟被MIT華人學(xué)者復(fù)活了
KAN的橫空出世,徹底改變了神經(jīng)網(wǎng)絡(luò)研究范式!
神經(jīng)網(wǎng)絡(luò)是目前AI領(lǐng)域最強(qiáng)大的工具。當(dāng)我們將其擴(kuò)展到更大的數(shù)據(jù)集時(shí),沒(méi)有什么能夠與之競(jìng)爭(zhēng)。
圓周理論物理研究所研究員Sebastian Wetzel,對(duì)神經(jīng)網(wǎng)絡(luò)給予了高度的評(píng)價(jià)。
然而,萬(wàn)事萬(wàn)物并非「絕對(duì)存在」,神經(jīng)網(wǎng)絡(luò)一直有一個(gè)劣勢(shì)。
其中一個(gè)基本組件——多層感知器(MLP),盡管立了大功,但這些建立在MLP之上的神經(jīng)網(wǎng)絡(luò),卻成為了「黑盒」。
因?yàn)?,人們根本無(wú)法解釋,其中運(yùn)作的原理。
為此,AI界的研究人員們一直在想,是否存在不同類型的神經(jīng)網(wǎng)絡(luò),能夠以更透明的方式,同樣輸出可靠的結(jié)果?
是的,的確存在。
2024年4月,MIT、加州理工等機(jī)構(gòu)研究人員聯(lián)手提出,新一代神經(jīng)網(wǎng)絡(luò)架構(gòu)——Kolmogorov-Arnold network(KAN)。
它的出現(xiàn),解決了以上的「黑盒」問(wèn)題。
論文地址:https://arxiv.org/pdf/2404.19756
比起MLP,KAN架構(gòu)更加透明,而且?guī)缀蹩梢酝瓿善胀ㄉ窠?jīng)網(wǎng)絡(luò),在處理某類問(wèn)題時(shí)的所有工作。
值得一提的是,它的誕生源于上個(gè)世紀(jì)中期一個(gè)數(shù)學(xué)思想。
數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold
這個(gè)已經(jīng)埋了30多年的數(shù)學(xué)原理,如今在DL時(shí)代被這位華人科學(xué)家和團(tuán)隊(duì)重新發(fā)現(xiàn),再次發(fā)光發(fā)亮。
雖然,這項(xiàng)創(chuàng)新僅僅誕生了5個(gè)月的時(shí)間,但KAN已經(jīng)在研究和編碼社區(qū),掀起了巨浪。
約翰霍普金斯大學(xué)計(jì)算機(jī)教授Alan Yuille贊揚(yáng)道,KAN更易于解釋,可以從數(shù)據(jù)中提取科學(xué)規(guī)則,因此在科學(xué)領(lǐng)域中有著極大的應(yīng)用」。
讓不可能,成為可能
典型的神經(jīng)網(wǎng)絡(luò)工作原理是這樣的:
一層層人工神經(jīng)元/節(jié)點(diǎn),通過(guò)人工突觸/邊,進(jìn)行連接。信息經(jīng)過(guò)每一層,經(jīng)過(guò)處理后再傳輸?shù)较乱粚?,直到最終將其輸出。
對(duì)邊進(jìn)行加權(quán),權(quán)重較大的邊,比其他邊有更大的影響。
在所謂的訓(xùn)練期間,這些權(quán)重會(huì)不斷調(diào)整,最終使得神經(jīng)網(wǎng)絡(luò)輸出越來(lái)越接近正確答案。
神經(jīng)網(wǎng)絡(luò)的一個(gè)常見(jiàn)的目標(biāo)是,找到一種數(shù)學(xué)函數(shù)、曲線,以便最好地連接某些數(shù)據(jù)點(diǎn)。
它們?cè)浇咏@個(gè)函數(shù),預(yù)測(cè)的結(jié)果就越準(zhǔn)確。
假設(shè)神經(jīng)網(wǎng)絡(luò)模擬了物理過(guò)程,理想情況下,輸出函數(shù)將代表描述該物理過(guò)程的方程,相當(dāng)于物理定律。
對(duì)于MLP來(lái)說(shuō),會(huì)有一個(gè)數(shù)學(xué)定理,告訴你神經(jīng)網(wǎng)絡(luò)能多接近最佳可能函數(shù)。
這個(gè)定理表明,MLP無(wú)法完美地表示這個(gè)函數(shù)。
不過(guò),在恰當(dāng)?shù)那闆r下,KAN卻可以做到。
KAN以一種不同于MLP的方式,進(jìn)行函數(shù)擬合,將神經(jīng)網(wǎng)絡(luò)輸出的點(diǎn)連接起來(lái)。
它不依賴于帶有數(shù)值權(quán)重的邊,而是使用函數(shù)。
同時(shí),KAN的邊函數(shù)是非線性和可學(xué)習(xí)的,這使得它們比MLP更靈活、敏感。
然而,在過(guò)去的35年里,KAN被認(rèn)為在實(shí)際應(yīng)用中,切不可行。
1989年,由MIT物理學(xué)家轉(zhuǎn)計(jì)算機(jī)神經(jīng)科學(xué)家Tomaso Poggio,共同撰寫(xiě)的一篇論文中明確指出:
KAN核心的數(shù)學(xué)思想,在學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的背景下是無(wú)關(guān)緊要的。
Poggio的一個(gè)擔(dān)憂,可以追溯到KAN核心的數(shù)學(xué)概念。
論文地址:http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf
1957年,數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold在各自但相互補(bǔ)充的論文中證明——如果你有一個(gè)使用多個(gè)變量的單一數(shù)學(xué)函數(shù),你可以把它轉(zhuǎn)換成多個(gè)函數(shù)的組合,每個(gè)函數(shù)都有一個(gè)變量。
然而,這里有個(gè)一個(gè)重要的問(wèn)題。
這個(gè)定理產(chǎn)生的單個(gè)變量函數(shù),可能是「不平滑的」,意味著它們可能產(chǎn)生尖銳的邊緣,就像V字的頂點(diǎn)。
這對(duì)于任何試圖使用這個(gè)定理,重建多變量函數(shù)的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),都是一個(gè)問(wèn)題所在。
因?yàn)檫@些更簡(jiǎn)單的單變量部分,需要是平滑的,這樣它們才能在訓(xùn)練過(guò)程中,學(xué)會(huì)正確地調(diào)增匹配目標(biāo)值。
因此,KAN的前景一直以來(lái)黯淡無(wú)光。
MIT華人科學(xué)家,重新發(fā)現(xiàn)KAN
直到去年1月,MIT物理學(xué)研究生Ziming Liu,決定重新探討這個(gè)話題。
他和導(dǎo)師Max Tegmark,一直致力于讓神經(jīng)網(wǎng)絡(luò)在科學(xué)應(yīng)用中,更加容易被人理解,能夠讓人們窺探到黑匣子的內(nèi)部。
然而,這件事一直遲遲未取得進(jìn)展。
可以說(shuō),在這種「走投無(wú)路」的情況下,Liu決定在KAN上孤勇一試。
導(dǎo)師卻在這時(shí),潑了一盆冷水,因?yàn)樗麑?duì)Poggio論文觀點(diǎn)太過(guò)熟悉,并堅(jiān)持認(rèn)為這一努力會(huì)是一個(gè)死胡同。
不過(guò),Ziming Liu卻沒(méi)有被嚇到,他不想在沒(méi)有先試一下的情況下,放棄這個(gè)想法。
隨后,Tegmark也慢慢改變了自己的想法。
他們突然認(rèn)識(shí)到,即使由該定理產(chǎn)生的單值函數(shù),是不平滑的,但神經(jīng)網(wǎng)絡(luò)仍可以用平滑的函數(shù)逼近數(shù)值。
Liu似乎有一種直覺(jué),認(rèn)定了KAN便是那個(gè)拯救者。
因?yàn)樽訮oggio發(fā)表論文,已經(jīng)過(guò)了35年,當(dāng)下的軟件和硬件取得了巨大的進(jìn)步。
在2024年,就計(jì)算來(lái)講,讓許多事情成為可能。
大約肝了一周左右的時(shí)間,Liu深入研究了這一想法。在此期間,他開(kāi)發(fā)了一些原型KAN系統(tǒng),所有系統(tǒng)都有兩層。
因?yàn)镵olmogorov-Arnold定理本質(zhì)上為這種結(jié)構(gòu)提供了藍(lán)圖。這一定理,明確地將多變量函數(shù)分解為,不同的內(nèi)部函數(shù)和外部函數(shù)集。
這樣的排列,使其本身就具備內(nèi)層和外層神經(jīng)元的兩層架構(gòu)。
但令Liu沮喪的是,所設(shè)計(jì)的原型KAN并沒(méi)有在科學(xué)相關(guān)任務(wù)上,表現(xiàn)地更好。
導(dǎo)師Tegmark隨后提出了一個(gè)關(guān)鍵的建議:為什么不嘗試兩層以上的KAN架構(gòu),或許能夠處理更加復(fù)雜的任務(wù)?
一語(yǔ)點(diǎn)醒夢(mèng)中人。
這個(gè)開(kāi)創(chuàng)性的想法,便成為他們突破的關(guān)鍵點(diǎn)。
這個(gè)羽翼未豐的原型架構(gòu),為他們帶來(lái)了希望。很快,他們便聯(lián)系了MIT、加州理工、東北大學(xué)的同事,希望團(tuán)隊(duì)能有數(shù)學(xué)家,并計(jì)劃讓KAN分析的領(lǐng)域的專家。
實(shí)踐證明,在4月份論文中,小組團(tuán)證明了三層KAN,確實(shí)是可行的。
他們給出了一個(gè)示例,三層KAN可以準(zhǔn)確地表示一個(gè)函數(shù),而兩層KAN卻不能。
不過(guò),研究團(tuán)隊(duì)并沒(méi)有止步于此。自那以后,他們?cè)诙噙_(dá)六層的KAN上進(jìn)行了實(shí)驗(yàn),每一層,神經(jīng)網(wǎng)絡(luò)都能與更復(fù)雜的輸出函數(shù),實(shí)現(xiàn)對(duì)準(zhǔn)。
論文合著作者之一 Yixuan Wang表示,「我們發(fā)現(xiàn),本質(zhì)上,可以隨心所欲堆疊任意多的層」。
發(fā)現(xiàn)數(shù)學(xué)定理碾壓DeepMind
更令人震驚的是,研究者在兩個(gè)現(xiàn)實(shí)的世界問(wèn)題中,對(duì)KAN完成了驗(yàn)證。
第一個(gè),是數(shù)學(xué)一個(gè)分支中的「紐結(jié)理論」。
2021年,DeepMind團(tuán)隊(duì)曾宣布,他們已經(jīng)搭建了一個(gè)MLP,再獲得足夠紐結(jié)的其他屬性后,可以預(yù)測(cè)出給定紐結(jié)的特定拓?fù)鋵傩浴?/span>
三年后,全新的KAN再次實(shí)現(xiàn)了這一壯舉。
而且,它更進(jìn)一步地呈現(xiàn)了,預(yù)測(cè)的屬性如何與其他屬性相關(guān)聯(lián)。
論文一作Liu說(shuō),「這是MLP根本做不到的」。
第二個(gè)問(wèn)題是,設(shè)計(jì)凝聚態(tài)物理中的一種現(xiàn)象,稱為Anderson局域化。
其目的是,預(yù)測(cè)特定相變將發(fā)生的邊界,然后確定描述該過(guò)程的數(shù)學(xué)公式。同樣,也只有KAN做到了在這一點(diǎn)。
Tegmark表示,「但與其他形式的神經(jīng)網(wǎng)絡(luò)相比,KAN的最大優(yōu)勢(shì)在于其可解釋性,這也是KAN近期發(fā)展的主要?jiǎng)恿Α埂?/span>
在以上的兩個(gè)例子中,KAN不僅給出了答案,還提供了解釋。
他還問(wèn)道,可解釋性意味著什么?
「如果你給我一些數(shù)據(jù),我會(huì)給你一個(gè)可以寫(xiě)在T恤上的公式」。
終極方程式?
KAN這篇論文的出世,在整個(gè)AI圈引起了轟動(dòng)。
AI大佬們紛紛給予了高度的評(píng)價(jià),有人甚至直呼,機(jī)器學(xué)習(xí)的新紀(jì)元開(kāi)始了!
目前,這篇論文在短短三個(gè)月的時(shí)間里,被引次數(shù)近100次。
很快,其他研究人員親自入局,開(kāi)始研究自己的KAN。
6月,清華大學(xué)等團(tuán)隊(duì)的研究人員發(fā)表了一篇論文稱,他們的 Kolmogorov-Arnold-informed neural network(KINN),在求解偏微方程(PDE)方面,明顯優(yōu)于MLP。
對(duì)于研究人員來(lái)說(shuō),這可不是一件小事,因?yàn)镻ED在科學(xué)中的應(yīng)用無(wú)處不在。
論文地址:https://arxiv.org/pdf/2406.11045
緊接著,7月,來(lái)自新加坡國(guó)立大學(xué)的研究人員們,對(duì)KAN和MLP架構(gòu)做了一個(gè)全面的分析。
他們得出結(jié)論,在可解釋性的相關(guān)任務(wù)中,KAN的表現(xiàn)優(yōu)于MLP,同時(shí),他們還發(fā)現(xiàn)MLP在計(jì)算機(jī)視覺(jué)和音頻處理方面做的更好。
而且,這兩個(gè)網(wǎng)絡(luò)架構(gòu)在NLP,以及其他ML任務(wù)上,性能大致相當(dāng)。
這一結(jié)果在人意料之中,因?yàn)镵AN團(tuán)隊(duì)的重點(diǎn)一直是——科學(xué)相關(guān)的任務(wù),而且,在這些任務(wù)中,可解釋性是首要的。
論文地址:https://arxiv.org/pdf/2407.16674
與此同時(shí),為了讓KAN更加實(shí)用、更容易使用。
8月,KAN原班人馬團(tuán)隊(duì)再次迭代了架構(gòu),發(fā)表了一篇名為「KAN 2.0」新論文。
論文地址:https://arxiv.org/pdf/2408.10205
他們將其描述為,它更像是一本用戶手冊(cè),而非一篇傳統(tǒng)的論文。
論文合著者認(rèn)為,KAN不僅僅是一種達(dá)到目的的手段,更是一種全新的科學(xué)研究方法。
長(zhǎng)期以來(lái),「應(yīng)用驅(qū)動(dòng)的科學(xué)」在機(jī)器學(xué)習(xí)領(lǐng)域占據(jù)主導(dǎo)地位,KAN的誕生促進(jìn)了所謂的「好奇心驅(qū)動(dòng)的科學(xué)」的發(fā)展。
比如,在觀察天體運(yùn)動(dòng)時(shí),應(yīng)用驅(qū)動(dòng)型研究人員,專注于預(yù)測(cè)它們的未來(lái)狀態(tài),而好奇心驅(qū)動(dòng)型研究人員,則希望揭示運(yùn)行背后的物理原理。
Liu希望,通過(guò)KAN,研究人員可以從中獲得更多,而不僅僅是在其他令人生畏的計(jì)算問(wèn)題上尋求幫助。
相反,他們可能會(huì)把重點(diǎn)放在,僅僅是為了理解,而獲得理解之上。