30多年前的斷言打破了?大模型具備了人類水平的系統(tǒng)泛化能力
我們知道,人類具有「舉一反三」的能力,即學(xué)習(xí)一個(gè)新概念后立即就能用它來理解相關(guān)用法。例如,當(dāng)小朋友知道如何「跳」,他們就會(huì)明白「在房間里跳兩次」是什么意思。
而對(duì)于機(jī)器來說,這種能力是極具挑戰(zhàn)性的。20 世紀(jì) 80 年代末,哲學(xué)家和認(rèn)知科學(xué)家 Jerry Fodor 和 Zenon Pylyshyn 認(rèn)為人工神經(jīng)網(wǎng)絡(luò)缺乏系統(tǒng)組合的能力。幾十年來,領(lǐng)域內(nèi)的研究人員一直在努力讓神經(jīng)網(wǎng)絡(luò)具備一些泛化能力,但能力很有限。因此,關(guān)于 Jerry Fodor 和 Zenon Pylyshyn 的觀點(diǎn)的爭論也一直存在。
現(xiàn)在,來自紐約大學(xué)和龐培法布拉大學(xué)的研究人員聯(lián)合提出了一種稱為「組合性元學(xué)習(xí) (Meta-learning for Compositionality,MLC) 」的新方法,該方法可以提高 ChatGPT 等工具進(jìn)行組合泛化的能力。
實(shí)驗(yàn)結(jié)果表明,MLC 方法不僅優(yōu)于現(xiàn)有方法,還表現(xiàn)出人類水平的系統(tǒng)泛化(systematic generalization,SG)能力,在某些情況下甚至優(yōu)于人類。組合泛化能力也是大型語言模型(LLM)有望實(shí)現(xiàn)通用人工智能(AGI)的基礎(chǔ)。
這項(xiàng)研究表明 AI 模型可以具備較強(qiáng)的組合泛化能力,具有里程碑意義。研究論文發(fā)表在《Nature》雜志上。
論文地址:https://www.nature.com/articles/s41586-023-06668-3
方法介紹
在 MLC 方法中,神經(jīng)網(wǎng)絡(luò)會(huì)不斷更新以提高其在一系列場景(episode)中的技能。在一個(gè)場景中,MLC 會(huì)收到一個(gè)新單詞,并被要求組合使用該單詞。例如,使用單詞「jump」來創(chuàng)建新的單詞組合,例如「jump times」、「jump around right times」;然后 MLC 接收一個(gè)包含不同單詞的新場景,依此類推,每次都會(huì)提高神經(jīng)網(wǎng)絡(luò)的組合技能。
如下圖所示,四個(gè)原語是從一個(gè)輸入單詞到一個(gè)輸出符號(hào)的直接映射,每個(gè)輸出符號(hào)都是一個(gè)特定顏色的圓圈。例如,「dax」對(duì)應(yīng)紅色圓圈(RED),「wif」對(duì)應(yīng)綠色圓圈(GREEN),「lug」對(duì)應(yīng)藍(lán)色圓圈(BLUE)?!竑ep」、「blicket」和「kiki」是帶有參數(shù)的函數(shù)。
函數(shù) 1(fep)將前面的原語作為參數(shù),重復(fù)其輸出其三次(例如「dax fep」是 RED RED RED);函數(shù) 2(blicket)將前面的原語和后面的原語作為參數(shù),以特定的交替序列生成輸出(例如「wif blicket dax」是 GREEN RED GREEN);最后,函數(shù) 3(kiki)將前面和后面的字符串作為輸入,以相反的順序連接它們作為輸出(例如「dax kiki lug」為 BLUE RED)。該研究還測試了函數(shù) 3 的參數(shù)由其他函數(shù)生成的情況,例如「wif blicket dax kiki lug」為 BLUE GREEN RED GREEN)。
如下圖 4 所示,MLC 實(shí)現(xiàn)采用標(biāo)準(zhǔn)的 seq2seq transformer。該架構(gòu)涉及兩個(gè)協(xié)同工作的神經(jīng)網(wǎng)絡(luò) —— 一個(gè)編碼器 transformer 用于處理查詢輸入和學(xué)習(xí)樣本,一個(gè)解碼器 transformer 用于生成輸出序列。編碼器和解碼器都有 3 層,每層 8 個(gè)注意力頭,輸入和隱藏嵌入大小為 128,前饋隱藏大小是 512,使用 GELU 激活函數(shù)替代 ReLU。整個(gè)架構(gòu)總共有大約 140 萬個(gè)參數(shù)。
編碼器網(wǎng)絡(luò)(圖 4(下))負(fù)責(zé)處理一個(gè)串聯(lián)的源字符串,該字符串將查詢輸入序列與一組研究樣本(輸入 / 輸出序列對(duì))組合在一起。解碼器網(wǎng)絡(luò)(圖 4(上))從編碼器接收消息并生成輸出序列。
MLC 使用標(biāo)準(zhǔn)的 transformer 架構(gòu)進(jìn)行基于記憶的元學(xué)習(xí)。具體來說,每個(gè)場景都會(huì)構(gòu)成一個(gè)通過隨機(jī)生成的潛在語法定義的特定 seq2seq 任務(wù)。
實(shí)驗(yàn)結(jié)果
為了展示 MLC 的能力,該研究在一個(gè)使用偽語言(pseudolanguage)的教學(xué)學(xué)習(xí)實(shí)驗(yàn)中,將 MLC 與人類進(jìn)行了比較。主要結(jié)果包括以下幾點(diǎn)。
人類表現(xiàn)出很強(qiáng)的系統(tǒng)性,但也依賴于歸納偏置,有時(shí)會(huì)偏離純粹的代數(shù)推理(algebraic reasoning)。
MLC 在實(shí)驗(yàn)中實(shí)現(xiàn)了人類水平的系統(tǒng)泛化(SG)。當(dāng)進(jìn)行隨機(jī)響應(yīng)時(shí),MLC 還會(huì)產(chǎn)生類似人類的錯(cuò)誤模式,例如一對(duì)一映射和圖標(biāo)串聯(lián)等偏置。
MLC 在預(yù)測人類行為方面優(yōu)于更嚴(yán)格的系統(tǒng)模型和基本的 seq2seq 模型。它在某些指標(biāo)上也超過了人類的表現(xiàn)。聯(lián)合優(yōu)化的 MLC 模型很好地捕捉了人類反應(yīng)的細(xì)微差別。
MLC 通過元學(xué)習(xí)在 SCAN 和 COGS 等系統(tǒng)泛化基準(zhǔn)測試中取得了較高的準(zhǔn)確率,而 basic seq2seq 在這些測試中失敗。
該研究發(fā)現(xiàn),與完美系統(tǒng)但嚴(yán)格的概率符號(hào)模型和完美靈活但非系統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,只有 MLC 實(shí)現(xiàn)了模仿人類表現(xiàn)所需的系統(tǒng)泛化和靈活性。
接下來,我們看一些具體的實(shí)驗(yàn)報(bào)告展示。
如上圖 2 所示,該研究給參與者 (n = 25) 提供了 14 個(gè)學(xué)習(xí)指令(輸入 / 輸出對(duì))的課程,并要求參與者為 10 個(gè)查詢指令產(chǎn)生輸出。
結(jié)果顯示,在 80.7% 的情況下,參與者能夠生成與代數(shù)標(biāo)準(zhǔn)(algebraic standard )完全匹配的輸出序列(由圖 2b (i) 中的星號(hào)表示)。如果長度已知,則雙長度輸出序列的概率性能為 2.8%,而對(duì)于較長的序列則呈指數(shù)級(jí)降低。值得注意的是,在 72.5% 的情況下,參與者也正確地歸納了比訓(xùn)練期間看到的更長的輸出序列 (圖 2b (i) 中的最后一個(gè)指令顯示了一個(gè)例子),這是神經(jīng)網(wǎng)絡(luò)經(jīng)常難以做到的一種泛化。
如下圖 3 是在開放式指令任務(wù)上的結(jié)果,不同的人類參與者(n=29)被要求對(duì)七個(gè)未知指令的輸出以及它們之間的關(guān)系做出合理的猜測(用一系列彩色圓圈響應(yīng) fep fep 或 fep wif),并且實(shí)驗(yàn)過程中,不讓參與者看到任何的輸入、輸出示例從而影響結(jié)果。
在 29 位參與者中,有 17 位(約占 58.6%)的響應(yīng)模式類似于圖 3a,b (左),這與三種歸納偏置完全一致。在所有的回答中,29 名參與者中有 18 名遵循一對(duì)一 (62.1%),29 名參與者中有 23 名 (79.3%) 遵循標(biāo)志性的串聯(lián),除了兩人之外,所有參與者都遵循相互排他性來對(duì)每個(gè)指令做出唯一的響應(yīng)(29 名中的 27 名,93.1%)。
總的來說,MLC 方法通過動(dòng)態(tài)的合成任務(wù)流來指導(dǎo)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,從而實(shí)現(xiàn)了模仿人類表現(xiàn)所需的系統(tǒng)泛化和靈活性。
感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。