谷歌對齊大模型與人腦信號!語言理解生成機制高度一致,成果登Nature子刊
谷歌最新發(fā)現(xiàn),大模型竟意外對應(yīng)人腦語言處理機制?!
他們將真實對話中的人腦活動與語音到文本 LLM 的內(nèi)部嵌入進行了比較,結(jié)果兩者之間呈現(xiàn)線性相關(guān)關(guān)系。
比如語言理解順序,首先是語音,然后是詞義;又或者生成順序:先計劃,再發(fā)音,然后聽到自己的聲音。還有像在上下文預(yù)測單詞,也表現(xiàn)出了驚人的一致性。
其論文發(fā)表在了Nature子刊。
網(wǎng)友表示:這個問題比大多數(shù)人意識到的要重要得多。
谷歌對齊大模型與人腦信號
他們引入了一個統(tǒng)一的計算框架,將聲學、語音和單詞級語言結(jié)構(gòu)聯(lián)系起來,以研究人腦中日常對話的神經(jīng)基礎(chǔ)。
他們一邊使用皮層電圖記錄了參與者在進行開放式真實對話時語音生成和理解過程中的神經(jīng)信號,累計100小時。另一邊,Whisper中提取了低級聲學、中級語音和上下文單詞嵌入。
然后開發(fā)編碼模型,將這些嵌入詞線性映射到語音生成和理解過程中的大腦活動上,這一模型能準確預(yù)測未用于訓練模型的數(shù)小時新對話中語言處理層次結(jié)構(gòu)各層次的神經(jīng)活動。
結(jié)果他們就有了一些有意思的發(fā)現(xiàn)。
對于聽到的(語音理解過程中)或說出的(語音生成過程中)每個單詞,都會從語音到文本模型中提取兩種類型的嵌入:
來自模型語音編碼器的語音嵌入和來自模型解碼器的基于單詞的語言嵌入。
通過估計線性變換,可以根據(jù)語音到文本的嵌入來預(yù)測每次對話中每個單詞的大腦神經(jīng)信號。
比如聽到「How are you doing?」,大腦對語言理解的神經(jīng)反應(yīng)序列be like:
當每個單詞發(fā)音時,語音嵌入能夠預(yù)測沿顳上回(STG)的語音區(qū)域的皮層活動。
幾百毫秒后,當聽者開始解碼單詞的含義時,語言嵌入會預(yù)測布羅卡區(qū)(位于額下回;IFG)的皮層活動。
不過對于回答者,則是完全相反的神經(jīng)反應(yīng)序列。
在準備發(fā)音「Feeling Fantastic」之前,在發(fā)音前約 500 毫秒(受試者準備發(fā)音下一個單詞時),語言嵌入(藍色)預(yù)測布羅卡區(qū)的皮層活動。
幾百毫秒后(仍在單詞發(fā)音之前),當說話者計劃發(fā)音時,語音嵌入(紅色)預(yù)測運動皮層(MC)的神經(jīng)活動。
最后,在說話者發(fā)音后,當聽者聆聽自己的聲音時,語音嵌入會預(yù)測 STG 聽覺區(qū)域的神經(jīng)活動。
這種動態(tài)變化反映了神經(jīng)處理的順序——
首先是在語言區(qū)計劃說什么,然后是在運動區(qū)如何發(fā)音,最后是在感知語音區(qū)監(jiān)測說了什么。
全腦分析的定量結(jié)果顯示,對于每個單詞,根據(jù)其語音嵌入(紅色)和語言嵌入(藍色),團隊預(yù)測了每個電極在單詞出現(xiàn)前 -2 秒到出現(xiàn)后 +2 秒(圖中 x 軸值為 0)的時滯范圍內(nèi)的神經(jīng)反應(yīng)。這是在語音生成(左圖)和語音理解(右圖)時進行的。相關(guān)圖表說明了他們對所有單詞的神經(jīng)活動(相關(guān)性)的預(yù)測準確度與不同腦區(qū)電極滯后的函數(shù)關(guān)系。
在語音生成過程中,IFG 中的語言嵌入(藍色)明顯先于感覺運動區(qū)的語音嵌入(紅色)達到峰值,隨后 STG 中的語音編碼達到峰值。相反,在語音理解過程中,編碼峰值轉(zhuǎn)移到了單詞開始之后,STG 中的語音嵌入(紅色)峰值明顯早于 IFG 中的語言編碼(藍色)峰值。
總之研究結(jié)果表明,語音到文本模型嵌入為理解自然對話過程中語言處理的神經(jīng)基礎(chǔ)提供了一個連貫的框架。
令人驚訝的是,雖然 Whisper 完全是為語音識別而開發(fā)的,并沒有考慮大腦是如何處理語言的,但他們發(fā)現(xiàn)它的內(nèi)部表征與自然對話過程中的神經(jīng)活動是一致的。
盡管大模型在并行層中處理單詞,但人類大腦以串行方式處理它們,但反映了類似的統(tǒng)計規(guī)律。
大模型與人類大腦之間的吻合揭示了神經(jīng)處理中的 「軟層次 」這一概念,大腦中較低級別的聲學處理和較高級別的語義處理部分重疊。
大模型與人腦之間的異同
日常生活中,人類大腦如何處理自然語言?從理論上講,大語言模型和人類的符號心理語言學模型是兩種完全不同的計算框架。
但受到大模型成功的啟發(fā),谷歌研究院與普林斯頓大學、紐約大學等合作,試圖探索人腦和大模型處理字眼語言的異同。
經(jīng)過過去五年一系列研究,他們探索了特定特定深度學習模型的內(nèi)部表征(嵌入)與自然自由對話過程中人腦神經(jīng)活動之間的相似性,證明了深度語言模型的嵌入,可以作為「理解人腦如何處理語言」的框架。
在此之前,他們就完成了多項研究。
比如2022年發(fā)表在Nature Neuroscience上論文顯示,他們發(fā)現(xiàn)與大模型相似,聽者大腦的語言區(qū)域也會嘗試在下一個單詞說出之前對其進行預(yù)測;而在單詞發(fā)音前對預(yù)測的信心會改變他們在單詞發(fā)音后的驚訝程度(預(yù)測誤差)。
這些發(fā)現(xiàn)證明了自回歸語言模型與人腦共有的起始前預(yù)測、起始后驚訝和基于嵌入的上下文表征等基本計算原理。
還有發(fā)表在Nature Communications另一篇論文中還發(fā)現(xiàn),大模型的嵌入空間幾何圖形所捕捉到的自然語言中單詞之間的關(guān)系,與大腦在語言區(qū)誘導的表征(即大腦嵌入)的幾何圖形一致。
不過即便計算原理類似,但他們底層神經(jīng)回路架構(gòu)卻明顯不同。
在一項后續(xù)研究中,他們調(diào)查了與人腦相比,基于Transformer的大模型是如何跨層處理信息的。
結(jié)果發(fā)現(xiàn),雖然跨層非線性變換在 LLMs 和人腦語言區(qū)中相似,但實現(xiàn)方式卻大相徑庭。Transformer架構(gòu)可同時處理成百上千個單詞,而人腦語言區(qū)似乎是按順序、逐字、循環(huán)和時間來分析語言的。
基于這些積累的研究成果,他們的目標是創(chuàng)建創(chuàng)新的、受生物啟發(fā)的人工神經(jīng)網(wǎng)絡(luò),提高其在現(xiàn)實世界中處理信息和發(fā)揮作用的能力。