單個(gè)神經(jīng)元也能實(shí)現(xiàn)DNN功能,圖像分類準(zhǔn)確率達(dá)98%
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
人工神經(jīng)網(wǎng)絡(luò)的盡頭是一個(gè)神經(jīng)元?

——沒(méi)準(zhǔn)兒還真有可能。
當(dāng)前,最先進(jìn)的AI系統(tǒng)通過(guò)創(chuàng)建多層神經(jīng)網(wǎng)絡(luò)來(lái)模仿人類大腦,旨在將盡可能多的神經(jīng)元塞進(jìn)盡可能小的空間。

可惜,這樣的設(shè)計(jì)需要消耗大量的電力等資源,而產(chǎn)生的輸出結(jié)果與強(qiáng)大且“節(jié)能”的人腦比起來(lái)相形見(jiàn)絀。
最近,柏林工業(yè)大學(xué)的研究小組提供了一個(gè)新思路:把任意大小的深度神經(jīng)網(wǎng)絡(luò)折疊成單神經(jīng)元,這個(gè)神經(jīng)元具有多個(gè)延時(shí)反饋回路。

關(guān)于研究成果的論文發(fā)布于Nature子刊。
這個(gè)“單個(gè)神經(jīng)元的AI大腦”概念的提出,無(wú)疑給神經(jīng)網(wǎng)絡(luò)的發(fā)展指明了一個(gè)新方向。
下面就來(lái)看看這是一項(xiàng)怎樣的研究吧!
具體方法
研究團(tuán)隊(duì)設(shè)計(jì)了一種多層前饋深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的完全時(shí)間折疊的方法(Fit-DNN)。
Fit-DNN的誕生主要受到“folded- in-time”概念的啟發(fā),即:使用單一的延遲環(huán)路配置和輸入數(shù)據(jù)的時(shí)間復(fù)用來(lái)模擬環(huán)形拓?fù)浣Y(jié)構(gòu)。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)由多層神經(jīng)元組成,以前饋結(jié)構(gòu)耦合。
如果用一個(gè)神經(jīng)元來(lái)實(shí)現(xiàn)傳統(tǒng)DNN的功能,需要保留各層的邏輯順序,同時(shí)找到一種方法來(lái)順序化層內(nèi)的操作。
這只能通過(guò)在時(shí)間上分割以前同時(shí)進(jìn)行的過(guò)程來(lái)實(shí)現(xiàn):?jiǎn)蝹€(gè)神經(jīng)元在正確的時(shí)間接受正確的輸入,依次模擬每一層的各個(gè)神經(jīng)元。
傳統(tǒng)的相鄰層之間的連接,轉(zhuǎn)變成單個(gè)神經(jīng)元在不同時(shí)間的連接,即:層間連接變成了延遲連接。
在不同時(shí)間對(duì)同一神經(jīng)元進(jìn)行不同的加權(quán),權(quán)重由反向傳播算法確定。
這類似于單個(gè)客人通過(guò)快速切換座位并說(shuō)出每個(gè)部分,來(lái)模擬大型餐桌上的對(duì)話。

Fit-DNN的核心由一個(gè)具有多個(gè)延遲和調(diào)制反饋的單一神經(jīng)元組成,上圖展示了其結(jié)構(gòu):
標(biāo)著字母f的黑色圓代表神經(jīng)元,它在t時(shí)的信號(hào)為x(t);這個(gè)信號(hào)是數(shù)據(jù)J(t)、偏移量b(t)和反饋信號(hào)之和。
可調(diào)節(jié)的元素用方塊表示:數(shù)據(jù)信號(hào)由輸入向量u產(chǎn)生,藍(lán)色方塊中的矩陣包含輸入權(quán)重。偏置系數(shù)產(chǎn)生灰色方塊中的偏置信號(hào)。每個(gè)反饋環(huán)路實(shí)現(xiàn)一個(gè)延遲和一個(gè)時(shí)間調(diào)制,來(lái)產(chǎn)生反饋信號(hào)。
最后,使用輸出權(quán)重矩陣從信號(hào)x(t)中獲得輸出。
注意,為了獲得數(shù)據(jù)信號(hào)J(t)和輸出,需要進(jìn)行適當(dāng)?shù)念A(yù)處理或操作后處理。
與傳統(tǒng)多層層經(jīng)網(wǎng)絡(luò)的等效性
單神經(jīng)元的Fit-DNN在功能上真的可以等同于多層神經(jīng)網(wǎng)絡(luò)嗎?
如下圖所示,F(xiàn)it-DNN可以將具有多個(gè)延遲環(huán)的單個(gè)神經(jīng)元的動(dòng)態(tài)性轉(zhuǎn)化為DNN。

圖a展示了信號(hào)x(t)的時(shí)間演化可以分為長(zhǎng)度為T(mén)的時(shí)間間隔,每個(gè)間隔模擬一個(gè)隱藏層;實(shí)線上的黑點(diǎn)表示節(jié)點(diǎn),θ代表節(jié)點(diǎn)分離值。
圖b表示原始的時(shí)間軌跡被切割成長(zhǎng)度為T(mén)的區(qū)間,在各區(qū)間內(nèi),節(jié)點(diǎn)根據(jù)其網(wǎng)絡(luò)位置被標(biāo)記。
圖c由圖b的旋轉(zhuǎn)所得,在此基礎(chǔ)上增加了一個(gè)輸入和一個(gè)輸出層。
這些連接是由節(jié)點(diǎn)之間的動(dòng)態(tài)依賴關(guān)系決定的,這些依賴關(guān)系可以根據(jù)θ的值精確計(jì)算。
當(dāng)節(jié)點(diǎn)分離值θ較大時(shí),網(wǎng)絡(luò)節(jié)點(diǎn)之間將形成熟悉的多層DNN形狀。
不過(guò),當(dāng)節(jié)點(diǎn)分離值θ較小時(shí),每個(gè)節(jié)點(diǎn)的狀態(tài)都依賴于前一個(gè)節(jié)點(diǎn),而不是完全獨(dú)立。這些額外的 “慣性 “連接在圖c中用黑色箭頭表示。
雖然研究者們用D = 2N - 1延遲環(huán)路恢復(fù)了一個(gè)全連接的DNN,但模擬測(cè)試表明,這并不完全符合要求。
實(shí)際上,用更少的延遲環(huán)路就可以獲得足夠的性能。在這種情況下,F(xiàn)it-DNN將實(shí)現(xiàn)一種特殊類型的稀疏DNNs。
可見(jiàn),在一定條件下,F(xiàn)it-DNN可以完全恢復(fù)一個(gè)沒(méi)有卷積層的標(biāo)準(zhǔn)DNN,此時(shí),它的性能與多層DNN相同。
單神經(jīng)元的Fit-DNN將前饋多層神經(jīng)網(wǎng)絡(luò)的拓?fù)鋸?fù)雜性,通過(guò)延遲環(huán)結(jié)構(gòu)折疊到時(shí)域。
這個(gè)延遲系統(tǒng)本身就擁有一個(gè)無(wú)限大的相空間,因此,只要有一個(gè)帶反饋的神經(jīng)元就足以折疊整個(gè)網(wǎng)絡(luò)。
Fit-DNN的計(jì)算機(jī)視覺(jué)功能測(cè)試
研究人員使用Fit-DNN進(jìn)行圖像降噪,即:從噪聲版本中重建原始圖像。
他們把強(qiáng)度為1的高斯噪聲加入Fashion-MNIST數(shù)據(jù)集的圖像中,并將高斯噪聲視為值在0(白色)和1(黑色)之間的向量。
然后截?cái)嚅撝?和1處剪切所得的向量條目,以獲得有噪聲的灰度圖像。

如上圖所示,a行包含來(lái)自Fashion-MNIST數(shù)據(jù)集的原始圖像;b行為帶有額外高斯噪聲的相同圖像,這些噪聲圖像作為訓(xùn)練系統(tǒng)的輸入數(shù)據(jù)。c行表示獲得的原始圖像的重建結(jié)果。
可見(jiàn),F(xiàn)it-DNN的圖像恢復(fù)效果不錯(cuò)。
不過(guò)Fit-DNN真正的問(wèn)題是,時(shí)間循環(huán)的單個(gè)神經(jīng)元是否能產(chǎn)生與數(shù)十億個(gè)神經(jīng)元相同的輸出。
為了證明Fit-DNN和時(shí)間狀態(tài)下的計(jì)算能力,研究人員選了五個(gè)圖像分類任務(wù):MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100,以及SVHN。

實(shí)驗(yàn)對(duì)比了隱藏層的節(jié)點(diǎn)數(shù)不同時(shí)(N=50,100,200,400),F(xiàn)it-DNN在上述任務(wù)中的表現(xiàn)。
結(jié)果表示,對(duì)于相對(duì)簡(jiǎn)單的MNIST和Fashion-MNIST任務(wù),單個(gè)神經(jīng)元取得了很高的準(zhǔn)確率。
但對(duì)于更具挑戰(zhàn)性的CIFAR-10、CIFAR-100和SVHN任務(wù),單個(gè)神經(jīng)元的準(zhǔn)確率較低。
值得注意的是,這里的Fit-DNN只使用了權(quán)重矩陣可用對(duì)角線的一半。如果增加節(jié)點(diǎn)的個(gè)數(shù)N,將有效地提高性能。
研究團(tuán)隊(duì)

感興趣的讀者可以戳下面的鏈接繼續(xù)深入了解。
Ingo Fischer是論文的共同作者之一。他取得了菲利普斯·馬爾堡大學(xué)獲得半導(dǎo)體物理領(lǐng)域博士學(xué)位,后在歐洲多國(guó)的大學(xué)中擔(dān)任工程和物理學(xué)的博士后研究員、助理教授和全職教授。
經(jīng)典的多層神經(jīng)網(wǎng)絡(luò),如火爆全球的GPT-3,目前已有750億個(gè)參數(shù),比其前身GPT-2的參數(shù)量要多100倍。
據(jù)估計(jì),僅僅訓(xùn)練一次GPT-3就需要相當(dāng)于丹麥126個(gè)家庭一年使用的電力,或者約等于開(kāi)車(chē)往返一次月球的耗能。
柏林團(tuán)隊(duì)的研究人員認(rèn)為,F(xiàn)it-DNN可以對(duì)抗訓(xùn)練強(qiáng)大神經(jīng)網(wǎng)絡(luò)所需能源成本的上升。
科學(xué)家們相信,隨著技術(shù)的發(fā)展,該系統(tǒng)可以擴(kuò)展到從懸浮在時(shí)間中的神經(jīng)元?jiǎng)?chuàng)建 “無(wú)限數(shù)量的 “神經(jīng)元連接。
感興趣的讀者可以戳下面的鏈接繼續(xù)深入了解。
論文鏈接:
https://www.nature.com/articles/s41467-021-25427-4.pdf































