用生物腦機制啟發(fā)持續(xù)學習,讓智能系統(tǒng)適者生存,清華朱軍等團隊研究登Nature子刊封面
在開放、高動態(tài)和演化環(huán)境中的學習能力是生物智能的核心要素之一,也是人類以及大多數(shù)動物在「適者生存」的自然選擇過程中形成的重要優(yōu)勢。目前傳統(tǒng)機器學習范式是在靜態(tài)和封閉的數(shù)據(jù)集上學習到一個模型,并假設其應用環(huán)境和之前訓練數(shù)據(jù)的屬性相同,因而無法適應動態(tài)開放環(huán)境的挑戰(zhàn)。
針對該問題,持續(xù)學習模擬生物智能的學習過程和學習能力,發(fā)展新型的機器學習理論和方法,通過持續(xù)學習的過程,以期提升智能體對開放、高動態(tài)環(huán)境的適應能力。但是,目前主流的機器學習模型通過調(diào)整網(wǎng)絡參數(shù)進行學習,當學習任務的數(shù)據(jù)分布發(fā)生變化時,先前學到的網(wǎng)絡參數(shù)可能被覆蓋,從而導致對先前知識的災難性遺忘(catastrophic forgetting)。
作為人工智能尤其是深度學習發(fā)展的重要瓶頸,持續(xù)學習近年來在人工智能領域受到廣泛關注。大多數(shù)持續(xù)學習方法都專注于提高對所學知識的記憶穩(wěn)定性以克服災難性遺忘,例如在學習新任務時固定執(zhí)行舊任務的網(wǎng)絡參數(shù)。然而這些方法通常只能在特定場景中發(fā)揮作用,難以像生物智能那樣對現(xiàn)實世界的復雜環(huán)境和任務具有普遍的適應能力。
因此,能否借鑒生物腦的持續(xù)學習機理,發(fā)展新型的持續(xù)學習方法一直是人工智能領域普遍關注的問題。
針對該問題,近期清華大學計算機系朱軍教授 TSAIL 課題組聯(lián)合生命學院鐘毅教授課題組在自然機器智能(Nature Machine Intelligence)期刊上發(fā)表了題為「融入神經(jīng)啟發(fā)適應性的人工智能方法」(Incorporating neuro-inspired adaptability for continual learning in artificial intelligence)的研究論文,并被選作12月的封面文章。
該研究利用貝葉斯方法深入分析并建模了生物學習記憶系統(tǒng)的適應性機制,顯著提升了深度神經(jīng)網(wǎng)絡的持續(xù)學習能力,為智能系統(tǒng)在動態(tài)開放環(huán)境的自適應發(fā)展提供了跨學科的深刻見解。
論文鏈接:https://www.nature.com/articles/s42256-023-00747
引言
隨著大規(guī)模標注數(shù)據(jù)的出現(xiàn)和硬件設備計算能力的增強,以深度學習為核心的人工智能在計算機視覺、自然語言處理、自動駕駛、智能機器人等領域取得了一系列突破性進展。然而,深度學習高度依賴于靜態(tài)的數(shù)據(jù)分布,難以對動態(tài)變化的數(shù)據(jù)分布進行持續(xù)學習。
從理論層面來看,持續(xù)學習的優(yōu)化目標可以被進一步細化為記憶穩(wěn)定性、學習可塑性、泛化兼容性等核心要素。為了適應不斷變化的環(huán)境和任務,智能系統(tǒng)需要在記憶舊知識和學習新知識之間取得適當?shù)钠胶猓⒕邆涑浞值姆夯芰σ匀菁{數(shù)據(jù)分布之間的差異。
圖 1. 生物智能啟發(fā)的持續(xù)學習方法示意圖 (來源:NMI 原文)
作為天然的模板,人類以及大多數(shù)動物天生就是以一種持續(xù)不斷的方式進行學習的。即使是果蠅等簡單的生命體,也進化出了多種適應性機制,以實現(xiàn)有效的持續(xù)學習。在果蠅的學習記憶系統(tǒng)中,動態(tài)變化的感覺信息可以在多個并行的持續(xù)學習模塊中被有選擇地保護和遺忘,為人工智能提供了重要的啟示。
圖 2. 記憶的選擇性保護與遺忘機制 (來源:NMI 原文)
研究概覽
在方法層面,研究人員提出了一種生物啟發(fā)的記憶調(diào)控方法,對所學知識進行有選擇地保護和遺忘。在學習新任務時,該方法通過優(yōu)化參數(shù)分布中的舊任務信息來促進記憶穩(wěn)定性,并引入一定程度的遺忘率以促進學習可塑性。研究人員進一步推導出一種突觸擴張-再歸一化的優(yōu)化算法,使神經(jīng)網(wǎng)絡能夠在新舊任務的最優(yōu)解之間做出明確的權衡,并依此分析了遺忘率在降低持續(xù)學習的泛化誤差方面的作用,從功能目標和實現(xiàn)機制兩個層面與生物智能相呼應。
圖 3. 動態(tài)調(diào)節(jié)的并行多模塊結(jié)構 (來源:NMI 原文)
同時,研究人員構建了一種類似果蠅學習記憶系統(tǒng)的并行多模塊結(jié)構,對應于多個持續(xù)學習專家。通過在每個模塊中實施所提出的記憶調(diào)控機制,對記憶進行有選擇地保護和遺忘,從而使各個模塊都能分化出適當?shù)娜蝿諏iL,充分適應不同任務的數(shù)據(jù)分布差異。研究人員還深入探討了神經(jīng)網(wǎng)絡的隨機性因素與學習規(guī)則和遺忘率的相互作用,證明神經(jīng)系統(tǒng)的適應性機制并非孤立運作,而是高度協(xié)同的。
圖 4. 多種持續(xù)學習基準的實驗結(jié)果 (來源:NMI 原文)
在多種持續(xù)學習基準中,包括視覺任務和強化任務等,所提出的適應性機制能夠顯著提高深度神經(jīng)網(wǎng)絡的持續(xù)學習能力。此外,論文還從遺忘的生物學意義和實現(xiàn)機制等角度,深入探討了智能系統(tǒng)在持續(xù)學習方面的聯(lián)系,作為一種新的范式推動人工智能和生物智能的協(xié)同發(fā)展。
圖 5. 持續(xù)學習的全面綜述 (來源:團隊的 arxiv 論文 https://arxiv.org/abs/2302.00487)
作者及課題組介紹
清華大學的朱軍教授和鐘毅教授為本論文的共同通訊作者,水木學者博士后王立元和張幸幸助理研究員為本論文的共同第一作者。清華大學的李乾助理研究員、蘇航副研究員、以及倫敦大學學院的張鳴天博士是本論文的共同作者。
清華大學 TSAIL 課題組長期致力于貝葉斯機器學習的理論和算法研究。近年來,課題組結(jié)合機器學習與神經(jīng)科學的前沿進展,在持續(xù)學習領域發(fā)表了一系列重要成果。在今年年初完成持續(xù)學習領域的綜述論文「A comprehensive survey of continual learning: theory, method and application」,系統(tǒng)地梳理了持續(xù)學習的基本設置、理論基礎、代表性方法和實際應用等方面的研究進展,并提出未來的發(fā)展方向,受到了國內(nèi)外人工智能社區(qū)的廣泛關注。
另外,針對持續(xù)學習領域的普遍技術難點,提出了生成模型的半監(jiān)督持續(xù)學習 (CVPR’21)、具備選擇性遺忘的權重正則化方法 (NeurIPS’21)、自適應數(shù)據(jù)壓縮的記憶回放方法 (ICLR’22)、動態(tài)并行模塊的持續(xù)學習架構 (ECCV’22) 等。
近期,關于預訓練模型的持續(xù)學習理論與方法的研究論文「Hierarchical decomposition of prompt-based continual learning: rethinking obscured sub-optimality」被 NeurIPS’23 評為 spotlight,該論文通過對預訓練背景下的持續(xù)學習優(yōu)化目標進行層次化分解,提出了適用于各類微調(diào)技術(如 prompt、adapter、LoRA 等)的通用框架,顯著提升了預訓練模型在動態(tài)開放環(huán)境下的自適應性。