MIT:LLM的思考方式竟然和大腦相似 精華
一、背景
1. 人工智能與神經(jīng)科學(xué)的融合
在當(dāng)今科技飛速發(fā)展的時(shí)代,人工智能與神經(jīng)科學(xué)的交叉領(lǐng)域正成為科研的熱點(diǎn)方向。大語言模型(LLMs)作為人工智能領(lǐng)域的重要成果,其與人類大腦語言處理機(jī)制的關(guān)系備受關(guān)注。從本質(zhì)上講,這一研究方向旨在探尋機(jī)器如何像人類大腦一樣理解和處理語言,這不僅有助于提升人工智能技術(shù)的性能,更有助于揭示人類認(rèn)知的奧秘。過往研究已發(fā)現(xiàn)LLMs與大腦在某些方面存在相似之處,如特征提取和表征等,但這些研究尚未觸及到LLMs具備類腦處理能力的核心計(jì)算原理。
2. 研究目的與價(jià)值
本研究聚焦于揭示LLM性能、神經(jīng)可預(yù)測性、解剖結(jié)構(gòu)對(duì)齊以及上下文編碼之間的內(nèi)在聯(lián)系。通過深入研究,期望能夠明確促使LLMs在語言處理上既高效又類腦的關(guān)鍵因素,進(jìn)而挖掘人工與生物系統(tǒng)在語言理解方面更精細(xì)的相似之處。這一研究成果將為LLMs的優(yōu)化提供全新的理論依據(jù),推動(dòng)自然語言處理技術(shù)向更高水平發(fā)展,同時(shí)也為神經(jīng)科學(xué)研究提供獨(dú)特的視角,助力人類對(duì)自身語言處理機(jī)制的深入理解。
3.研究方法
研究選取了12個(gè)開源、預(yù)訓(xùn)練且參數(shù)規(guī)模相近但語言能力有別的LLMs,涵蓋了當(dāng)下流行的多種模型。在實(shí)驗(yàn)過程中,借助顱內(nèi)腦電圖(iEEG)技術(shù),記錄神經(jīng)外科患者聆聽語音時(shí)的神經(jīng)活動(dòng)。然后將這些神經(jīng)反應(yīng)與LLMs處理相同語言輸入時(shí)各層提取的嵌入表示進(jìn)行對(duì)比分析。這種方法能夠精準(zhǔn)定位LLMs中與大腦活動(dòng)關(guān)聯(lián)緊密的層和特征,為后續(xù)研究奠定堅(jiān)實(shí)基礎(chǔ)。
圖片
二、與大腦相似性
1. 模型選擇與性能評(píng)估體系
研究精心挑選了12個(gè)近期熱門且開源的LLMs,其參數(shù)規(guī)模均約為70億。為全面評(píng)估模型的語言處理能力,研究構(gòu)建了一套細(xì)致的評(píng)估體系,將任務(wù)劃分為閱讀理解和常識(shí)推理等與英語語言理解密切相關(guān)的類別。在計(jì)算總體LLM性能時(shí),取閱讀理解和常識(shí)推理得分的平均值作為綜合指標(biāo)。這一體系的建立旨在模擬人類語言理解的多維度需求,確保評(píng)估結(jié)果能真實(shí)反映模型的語言處理水平。
圖片
2. 神經(jīng)反應(yīng)采集與數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)對(duì)象為八名耐藥性癲癇患者,電極通過顱內(nèi)植入(iEEG)方式置于其聽覺皮層和語音處理區(qū)域,位置依據(jù)臨床需求確定?;颊唏雎?0 - 30分鐘的語音素材,包括故事和對(duì)話。將語音對(duì)應(yīng)的文本輸入LLMs,提取各層每個(gè)單詞的因果嵌入表示,并使用PCA降至500個(gè)組件,以統(tǒng)一數(shù)據(jù)維度。針對(duì)每個(gè)對(duì)語音有反應(yīng)的電極,提取其在單詞中心周圍100毫秒窗口內(nèi)的平均高伽馬波段包絡(luò)響應(yīng),通過嶺回歸模型預(yù)測神經(jīng)反應(yīng),以留存折疊的平均預(yù)測相關(guān)性作為大腦相似性得分。研究還驗(yàn)證了嵌入表示主成分?jǐn)?shù)量和計(jì)算神經(jīng)反應(yīng)窗口大小對(duì)結(jié)果無顯著影響,確保了數(shù)據(jù)處理方法的可靠性。
3. 模型性能與大腦相似性的關(guān)聯(lián)機(jī)制
研究發(fā)現(xiàn),LLMs的神經(jīng)反應(yīng)可從模型表示中預(yù)測,大腦相似性在層間呈上升趨勢,在中間或后期層達(dá)峰值。性能出色的LLMs在預(yù)測大腦活動(dòng)時(shí)更準(zhǔn)確,提取的語言特征更類腦。通過皮爾遜相關(guān)系數(shù)計(jì)算,LLM性能與大腦相似性峰值呈顯著正相關(guān)(Pearson (r = 0.92),(p = 2.24 × 10^{-5}))。這表明模型在基準(zhǔn)任務(wù)上表現(xiàn)越好,其處理語言時(shí)與大腦的相似性越高,為理解LLMs的語言處理機(jī)制提供了重要依據(jù)。
4. 模型層與大腦處理區(qū)域的映射關(guān)系
大腦的聽覺和語言處理通路呈層次化組織,初級(jí)聽覺皮層位于后內(nèi)側(cè)顳橫回(pmHG,或TE1.1)。研究人員以pmHG為參考點(diǎn),計(jì)算電極與pmHG的距離來量化其在語言處理通路中的深度。此前研究已發(fā)現(xiàn)LLMs深層與大腦深層語言處理區(qū)域有對(duì)應(yīng)關(guān)系,本研究進(jìn)一步發(fā)現(xiàn)性能好的LLMs在較早層達(dá)到大腦相似性峰值,差的模型則需更深層。這表明LLMs在進(jìn)化中,特征提取層次與大腦的對(duì)齊方式發(fā)生了變化,為探究LLMs語言處理機(jī)制提供了新視角。
三、LLM 與大腦語言層次對(duì)齊
1. 層次對(duì)齊的計(jì)算策略
受視覺皮層研究啟發(fā),研究人員計(jì)算大腦與LLMs層次特征提取通路的對(duì)齊程度。由于大腦精確層次處理階段不完全明確,仍以與pmHG的距離為量化指標(biāo)。具體操作是將電極按距離pmHG分組,對(duì)每組電極各層的大腦相似性得分歸一化并平均,得到層得分矩陣。通過計(jì)算質(zhì)心確定與大腦層次最相似的LLM層,比較其與大腦層次結(jié)構(gòu)的距離關(guān)系,發(fā)現(xiàn)部分模型在LLM層與大腦層次結(jié)構(gòu)的對(duì)齊上呈更線性的增加趨勢,為理解兩者關(guān)系提供了線索。
2. 模型性能與層次對(duì)齊的相關(guān)性驗(yàn)證
以XwinLM(最高對(duì)齊得分)和Galactica(最低對(duì)齊得分)為例,兩者基準(zhǔn)性能差異顯著。研究發(fā)現(xiàn)XwinLM在特征提取過程中從早期到晚期與大腦處理更一致。通過計(jì)算LLM層質(zhì)心與距離pmHG的皮爾遜相關(guān)系數(shù),發(fā)現(xiàn)大腦對(duì)齊程度與LLM性能呈顯著正相關(guān)(Pearson (r = 0.79),(p = 0.0021))。用電極潛伏期替代距離pmHG進(jìn)行分析,結(jié)果仍一致(Pearson (r = 0.89),(p = 0.0001)),且將受試者分組分析后,大腦層次對(duì)齊與LLM性能在兩組中均顯著相關(guān)。這充分證明了性能優(yōu)的LLMs在特征提取時(shí)與大腦語言處理層次通路更線性對(duì)齊,為模型優(yōu)化提供了方向。
3. 模型間特征提取層次的比較方法
研究采用中心核對(duì)準(zhǔn)(CKA)方法比較不同LLMs的特征提取層次。CKA類似于典型相關(guān)分析(CCA),但通過非線性核函數(shù)(如RBF)能更好測量高維數(shù)據(jù)相似性。對(duì)于兩個(gè)模型,計(jì)算一個(gè)模型某層與另一個(gè)模型各層的CKA相似性,得到層間相似性矩陣,其元素反映模型在相應(yīng)層的特征相似程度,為深入比較提供豐富信息。
4. 模型特征提取效率的差異剖析?
按LLM基準(zhǔn)性能將模型分前5名和后5名兩組,分析其相似性矩陣。前5名模型在對(duì)角線方向高度相似,表明處理語言策略較一致;后5名模型早期層相似性低,后期一致性也不如前5名。對(duì)比前5名和后5名模型,最大相似性在對(duì)角線上有偏移,說明差的模型需更多層達(dá)與好模型相似的特征提取水平。計(jì)算各模型與最佳性能模型Mistral的對(duì)角線相似性,發(fā)現(xiàn)與LLM性能呈強(qiáng)烈正相關(guān)(Pearson (r = 0.79),(p = 0.0022)),揭示了LLMs特征提取層次的差異及低效特征提取或早期層學(xué)習(xí)不足對(duì)模型性能和大腦相似性的影響。
四、上下文信息
1. 上下文信息與層次對(duì)齊的關(guān)聯(lián)分析
鑒于上下文信息對(duì)LLM大腦相似性的關(guān)鍵作用,研究推測其影響模型與大腦層次特征提取通路的對(duì)齊。通過限制LLMs的因果注意力機(jī)制,提供不同長度(1 - 100個(gè)詞)的上下文窗口提取嵌入表示。實(shí)驗(yàn)發(fā)現(xiàn),除1個(gè)詞上下文情況外,上下文窗口長度與LLM性能和大腦層次對(duì)齊呈正相關(guān),且在50個(gè)詞及以上時(shí)顯著。這表明上下文信息的豐富程度對(duì)模型的層次特征提取機(jī)制有重要影響,為優(yōu)化模型提供了思考方向。
2. 上下文信息對(duì)模型性能和大腦相似性的影響
因長上下文長度下LLM性能與層次對(duì)齊正相關(guān),研究預(yù)期好的模型能更好融入上下文信息。通過測量全上下文與1個(gè)詞上下文情況下嵌入表示的CKA差異,定義為模型表示的上下文內(nèi)容。研究發(fā)現(xiàn)上下文內(nèi)容與LLM性能呈顯著正相關(guān)(Spearman (r = 0.66),(p = 0.020)),與大腦相似性呈極強(qiáng)正相關(guān)(Spearman (r = 0.84),(p = 0.0006))。這表明上下文信息對(duì)自然和人工語言模型均至關(guān)重要,上下文特征提取能力是LLMs實(shí)現(xiàn)與大腦層次對(duì)齊的關(guān)鍵因素。研究還發(fā)現(xiàn)上下文信息對(duì)大腦相似性的影響在語言處理層次中越往后越關(guān)鍵,支持了大腦和LLMs均沿層次提取上下文的觀點(diǎn),也為模型改進(jìn)提供了理論依據(jù)。
3. 研究結(jié)果總結(jié)與展望
本研究通過對(duì)12個(gè)LLMs的深入分析,揭示了LLMs與大腦語言處理機(jī)制在多個(gè)方面的趨同現(xiàn)象。在模型性能與大腦相似性方面,兩者存在顯著正相關(guān),且模型層與大腦處理區(qū)域的對(duì)應(yīng)關(guān)系隨模型性能變化。在層次對(duì)齊上,性能好的模型與大腦的層次結(jié)構(gòu)更線性對(duì)齊,模型間特征提取層次也存在明顯差異。上下文信息對(duì)模型的影響研究表明,其對(duì)模型性能和大腦相似性至關(guān)重要,且在不同層次的語言處理中有不同作用。未來研究可進(jìn)一步探索模型架構(gòu)、訓(xùn)練策略等因素對(duì)這些趨同現(xiàn)象的影響,以推動(dòng)LLMs向更類腦、高效的方向發(fā)展,同時(shí)也為神經(jīng)科學(xué)研究提供更多啟示。
論文地址:https://arxiv.org/pdf/2401.17671
Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain
論文地址:https://arxiv.org/pdf/2410.19750
THE GEOMETRY OF CONCEPTS: SPARSE AUTOENCODER FEATURE
STRUCTURE
本文轉(zhuǎn)載自??AIGC前沿技術(shù)追蹤??,作者: 愛讀論文的吳彥祖 ????
