具有生物啟發(fā)訓(xùn)練方法的物理深度學(xué)習(xí):物理硬件的無梯度方法
對人工智能不斷增長的需求推動了對基于物理設(shè)備的非常規(guī)計算的研究。雖然此類計算設(shè)備模仿了大腦啟發(fā)的模擬信息處理,但學(xué)習(xí)過程仍然依賴于為數(shù)字處理優(yōu)化的方法,例如反向傳播,這不適合物理實現(xiàn)。
在這里,來自日本 NTT 設(shè)備技術(shù)實驗室(NTT Device Technology Labs)和東京大學(xué)的研究團(tuán)隊通過擴展一種稱為直接反饋對齊(DFA)的受生物學(xué)啟發(fā)的訓(xùn)練算法來展示物理深度學(xué)習(xí)。與原始算法不同,所提出的方法基于具有替代非線性激活的隨機投影。因此,可以在不了解物理系統(tǒng)及其梯度的情況下訓(xùn)練物理神經(jīng)網(wǎng)絡(luò)。此外,可以在可擴展的物理硬件上模擬此訓(xùn)練的計算。
研究人員使用稱為深儲層計算機的光電遞歸神經(jīng)網(wǎng)絡(luò)演示了概念驗證。證實了在基準(zhǔn)測試中具有競爭性能的加速計算的潛力。研究結(jié)果為神經(jīng)形態(tài)計算的訓(xùn)練和加速提供了實用的解決方案。
該研究以「Physical deep learning with biologically inspired training method: gradient-free approach for physical hardware」為題,于 2022 年 12 月 26 日發(fā)布在《Nature Communications》上。
物理深度學(xué)習(xí)
基于人工神經(jīng)網(wǎng)絡(luò) (ANN) 的機器學(xué)習(xí)在圖像處理、語音識別、游戲等方面的破紀(jì)錄表現(xiàn)成功展示了其卓越的能力。盡管這些算法類似于人腦的工作方式,但它們基本上是使用傳統(tǒng)的馮諾依曼計算硬件在軟件層面上實現(xiàn)的。然而,這種基于數(shù)字計算的人工神經(jīng)網(wǎng)絡(luò)面臨著能耗和處理速度方面的問題。這些問題促使使用替代物理平臺實現(xiàn)人工神經(jīng)網(wǎng)絡(luò)。
有趣的是,即使是被動物理動力學(xué)也可以用作隨機連接的 ANN 中的計算資源。該框架被稱為物理儲層計算機(RC)或極限學(xué)習(xí)機(ELM),其易于實現(xiàn)極大地擴展了可實現(xiàn)材料的選擇及其應(yīng)用范圍。這種物理實現(xiàn)的神經(jīng)網(wǎng)絡(luò) (PNN) 能夠?qū)⑻囟ㄈ蝿?wù)的計算負(fù)載外包給物理系統(tǒng)。
構(gòu)建更深層次的物理網(wǎng)絡(luò)是進(jìn)一步提高性能的一個有前途的方向,因為它們可以以指數(shù)方式擴展網(wǎng)絡(luò)表達(dá)能力。這激發(fā)了使用各種物理平臺的深度 PNN 的提議。他們的訓(xùn)練基本上依賴于一種稱為反向傳播(BP)的方法,該方法在基于軟件的 ANN 中取得了巨大成功。但是,BP 在以下方面不適用于 PNN。首先,BP 操作的物理實現(xiàn)仍然復(fù)雜且不可擴展。其次,BP 需要對整個物理系統(tǒng)有準(zhǔn)確的了解。此外,當(dāng)我們將 BP 應(yīng)用于 RC 時,這些要求破壞了物理 RC 的獨特特性,即我們需要準(zhǔn)確地了解和模擬黑盒物理隨機網(wǎng)絡(luò)。
與 PNN 中的 BP 一樣,BP 在生物神經(jīng)網(wǎng)絡(luò)中的操作難度也被腦科學(xué)界指出;BP 在大腦中的合理性一直受到質(zhì)疑。這些考慮促使開發(fā)了生物學(xué)上合理的訓(xùn)練算法。
近期一個有前途的方向是直接反饋對齊 (DFA)。在該算法中,采用最終輸出層誤差信號的固定隨機線性變換來代替反向誤差信號。因此,這種方法不需要誤差信號的逐層傳播或權(quán)重的知識。此外,據(jù)報道,DFA 可擴展到現(xiàn)代大型網(wǎng)絡(luò)模型。這種以生物學(xué)為動機的訓(xùn)練的成功表明,有一種比 BP 更合適的方法來訓(xùn)練 PNN。然而,DFA 仍然需要非線性函數(shù) f(x) 的導(dǎo)數(shù) f'(a) 進(jìn)行訓(xùn)練,這阻礙了 DFA 方法在物理系統(tǒng)中的應(yīng)用。因此,DFA 的更大幅度擴展對于 PNN 應(yīng)用很重要。
DFA 及其對物理深度學(xué)習(xí)的增強
在此,研究人員通過增強 DFA 算法來演示物理深度學(xué)習(xí)。在增強 DFA 中,用任意非線性 g(a) 替換標(biāo)準(zhǔn) DFA 中物理非線性激活 f'(a) 的微分,并表明性能對 g(a) 的選擇具有穩(wěn)健性。由于這種增強,不再需要準(zhǔn)確地模擬 f'(a)。由于所提出的方法基于具有任意非線性激活的并行隨機投影,可以按照與物理 ELM 或 RC 概念相同的方式在物理系統(tǒng)上執(zhí)行訓(xùn)練計算。這使得推理和訓(xùn)練的物理加速成為可能。
圖:PNN 的概念及其通過 BP 和增強 DFA 進(jìn)行的訓(xùn)練。(來源:論文)
為了演示概念驗證,研究人員構(gòu)建了一個 FPGA 輔助的光電深度物理 RC 作為工作臺。盡管 benchtop 簡單易用,僅需軟件級更新即可應(yīng)用于各種物理平臺,但實現(xiàn)了可與大型復(fù)雜的最先進(jìn)系統(tǒng)相媲美的性能。
圖:具有增強 DFA 訓(xùn)練的光電深度 RC 系統(tǒng)。(來源:論文)
此外,還比較了整個處理時間,包括數(shù)字處理的時間,發(fā)現(xiàn)了訓(xùn)練過程物理加速的可能性。
圖:光電深 RC 系統(tǒng)的性能。(來源:論文)
RC 工作臺的處理時間預(yù)算細(xì)分如下:FPGA 處理(數(shù)據(jù)傳輸、內(nèi)存分配和 DAC/ADC)約為 92%;約 8% 的數(shù)字處理用于預(yù)處理/后處理。因此,在當(dāng)前階段,處理時間主要由 FPGA 和 CPU 上的數(shù)字計算決定。這是因為光電工作臺僅使用一條非線性延遲線實現(xiàn)了一個儲層;這些限制可以通過在未來使用完全并行和全光計算硬件來放寬??梢钥闯?,CPU 和 GPU 上的計算針對節(jié)點數(shù)顯示了 O(N^2) 趨勢,而 benchtop 顯示了 O(N),這是由于數(shù)據(jù)傳輸瓶頸造成的。
對于 BP 和增強 DFA 算法,CPU 之外的物理加速度分別在 N ~5,000 和 ~12,000 處被觀察到。然而,就計算速度而言,由于 GPU 的內(nèi)存限制,尚未直接觀察到針對 GPU 的有效性。通過推斷 GPU 趨勢,可以在 N ~80,000 時觀察到超過 GPU 的物理加速。據(jù)我們所知,這是對整個訓(xùn)練過程的首次比較,也是首次使用 PNN 進(jìn)行體能訓(xùn)練加速演示。
為了研究所提方法對其他系統(tǒng)的適用性,使用廣泛研究的光子神經(jīng)網(wǎng)絡(luò)進(jìn)行了數(shù)值模擬。此外,實驗證明的基于延遲的 RC 被證明非常適合各種物理系統(tǒng)。關(guān)于物理系統(tǒng)的可擴展性,構(gòu)建深度網(wǎng)絡(luò)的主要問題是其固有噪聲。通過數(shù)值模擬研究了噪聲的影響。發(fā)現(xiàn)該系統(tǒng)對噪聲具有穩(wěn)健性。
所提出方法的可擴展性和局限性
在這里,考慮了基于 DFA 的方法對更現(xiàn)代模型的可擴展性。實際深度學(xué)習(xí)最常用的模型之一是深度連接的卷積神經(jīng)網(wǎng)絡(luò) (CNN)。然而,據(jù)報道,DFA 算法很難應(yīng)用于標(biāo)準(zhǔn) CNN。因此,所提出的方法可能難以以簡單的方式應(yīng)用于卷積 PNN。
考慮到模擬硬件實現(xiàn),對 SNN 的適用性也是一個重要主題。已經(jīng)報道了基于 DFA 的訓(xùn)練對 SNN 的適用性,這意味著該研究所提出的增強 DFA 可以使訓(xùn)練更容易。
雖然基于 DFA 的算法有可能擴展到比簡單的 MLP 或 RC 更實用的模型,但將基于 DFA 的訓(xùn)練應(yīng)用于此類網(wǎng)絡(luò)的有效性仍然未知。在這里,作為這項研究的額外工作,研究了基于 DFA 的訓(xùn)練(DFA 本身和增強的 DFA)對上述模型(MLP-Mixer、Vision transformer (ViT)、ResNet 和 SNN)的可擴展性。研究發(fā)現(xiàn)基于 DFA 的訓(xùn)練即使對于探索的實用模型也是有效的。雖然基于 DFA 的訓(xùn)練可達(dá)到的準(zhǔn)確度基本上低于 BP 訓(xùn)練,但對模型和/或算法進(jìn)行一些調(diào)整可以提高性能。值得注意的是,對于所有探索的實驗設(shè)置,DFA 和增強 DFA 的準(zhǔn)確性都具有可比性,這表明 DFA 本身的進(jìn)一步改進(jìn)將直接有助于改進(jìn)增強 DFA。結(jié)果表明,該方法可擴展到未來對 PNN 的實用模型的實現(xiàn),而不僅僅是簡單的 MLP 或 RC 模型。
表 1:增強 DFA 對實際網(wǎng)絡(luò)模型的適用性。(來源:論文)
物理硬件中的 BP 與 DFA
一般來說,BP 在物理硬件上實現(xiàn)起來非常困難,因為它需要計算圖中的所有信息。因此,物理硬件的訓(xùn)練一直是通過計算模擬來完成的,這會產(chǎn)生大量的計算成本。此外,模型與實際系統(tǒng)之間的差異導(dǎo)致精度下降。相反,增強的 DFA 不需要關(guān)于物理系統(tǒng)的準(zhǔn)確先驗知識。因此,在深度 PNN 中,基于 DFA 的方法在準(zhǔn)確性方面比基于 BP 的方法更有效。此外,可以使用物理硬件加速計算。
此外,DFA 訓(xùn)練不需要逐層計算的順序誤差傳播,這意味著每一層的訓(xùn)練可以并行執(zhí)行。因此,更優(yōu)化和并行的 DFA 實現(xiàn)可能會帶來更顯著的加速。這些獨特的特征表明基于 DFA 的方法的有效性,特別是對于基于物理硬件的神經(jīng)網(wǎng)絡(luò)。另一方面,增強 DFA 訓(xùn)練的模型的準(zhǔn)確性仍然不如 BP 訓(xùn)練的模型。進(jìn)一步提高基于 DFA 的訓(xùn)練的準(zhǔn)確性仍然是未來的工作。
進(jìn)一步的物理加速
物理實現(xiàn)證實了具有大節(jié)點(large-node)數(shù)的 RC 循環(huán)處理的加速。但是,它的優(yōu)勢仍然有限,需要進(jìn)一步改進(jìn)。當(dāng)前原型的處理時間表示為 FPGA 的數(shù)據(jù)傳輸和內(nèi)存分配。因此,將所有過程集成到 FPGA 中將大大提高性能,但會犧牲實驗靈活性。此外,將來,機載光學(xué)方法將大大降低傳輸成本。大規(guī)模光集成和片上集成將進(jìn)一步提升光計算本身的性能。