偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI自己「長(zhǎng)出」了類似大腦的「腦葉」?新研究揭示LLM特征的驚人幾何結(jié)構(gòu)

人工智能
大型語(yǔ)言模型在學(xué)習(xí)概念時(shí)竟然會(huì)形成令人驚訝的幾何結(jié)構(gòu),比如代碼和數(shù)學(xué)特征會(huì)形成一個(gè)「葉(lobe)」,類似于我們?cè)谧龃殴舱窆δ艹上駮r(shí)看到的大腦功能性腦葉。這說(shuō)明什么呢?

大型語(yǔ)言模型在學(xué)習(xí)概念時(shí)竟然會(huì)形成令人驚訝的幾何結(jié)構(gòu),比如代碼和數(shù)學(xué)特征會(huì)形成一個(gè)「葉(lobe)」,類似于我們?cè)谧龃殴舱窆δ艹上駮r(shí)看到的大腦功能性腦葉。這說(shuō)明什么呢?

論文通訊作者、MIT 物理學(xué)教授 Max Tegmark 的推文。值得注意的是,Max Tegmark 也是著名的 KAN 論文的作者之一,是 KAN 論文一作 ZimingLiu 的導(dǎo)師。

在過(guò)去的一年,學(xué)術(shù)界在理解大型語(yǔ)言模型如何工作方面取得了突破性進(jìn)展:稀疏自編碼器(SAE)在其激活空間中發(fā)現(xiàn)了大量可解釋為概念的點(diǎn)(「特征」)。最近,此類 SAE 點(diǎn)云已公開發(fā)布,因此研究其在不同尺度上的結(jié)構(gòu)正當(dāng)其時(shí)。

最近,來(lái)自 MIT 的一個(gè)團(tuán)隊(duì)公布了他們的研究成果。

  • 論文標(biāo)題:The Geometry of Concepts: Sparse Autoencoder Feature Structure
  • 論文鏈接:https://arxiv.org/pdf/2410.19750

具體來(lái)說(shuō),他們發(fā)現(xiàn) SAE 特征的概念宇宙在三個(gè)層面上具有有趣的結(jié)構(gòu):

第一個(gè)是「原子」小尺度層面。在這個(gè)層面上,作者發(fā)現(xiàn) SAE 特征的概念宇宙包含「晶體」結(jié)構(gòu),這些晶體的面是平行四邊形或梯形,這泛化了眾所周知的例子,如 (man:woman::king:queen)。他們還發(fā)現(xiàn),當(dāng)排除全局干擾方向,如單詞長(zhǎng)度時(shí),這類平行四邊形和相關(guān)功能向量的質(zhì)量大大提高,這可以通過(guò)線性判別分析有效地完成。

第二個(gè)是「大腦」中等尺度層面。在這個(gè)層面,作者發(fā)現(xiàn) SAE 特征的概念宇宙具有顯著的空間模塊性。例如,數(shù)學(xué)和代碼特征會(huì)形成一個(gè)「葉(lobe)」,類似于我們?cè)谧錾窠?jīng)磁共振功能成像時(shí)看到的大腦功能性葉(如聽覺皮層)。作者用多個(gè)度量來(lái)量化這些葉的空間局部性,并發(fā)現(xiàn)在足夠粗略的尺度上,共現(xiàn)特征(co-occurring feature)的聚類在空間上也聚集在一起,遠(yuǎn)遠(yuǎn)超過(guò)了特征幾何是隨機(jī)的情況下的預(yù)期。

第三個(gè)是「星系」大尺度層面。在這個(gè)層面上,作者發(fā)現(xiàn) SAE 特征點(diǎn)云的結(jié)構(gòu)不是各向同性的,而是呈現(xiàn)出一種特征值的冪律分布,并且在中間層的斜率最陡。此外,他們還量化了聚類熵如何隨層數(shù)的變化而變化。

這項(xiàng)研究吸引了不少研究者的注意。有人評(píng)論說(shuō),AI 系統(tǒng)在處理信息時(shí)自然地發(fā)展出幾何和分形結(jié)構(gòu),而這些結(jié)構(gòu)與生物大腦中的結(jié)構(gòu)相似。這一現(xiàn)象表明,數(shù)學(xué)上的組織模式可能是自然界的基本特性,而不僅僅是人類的認(rèn)知構(gòu)造。

也有人提出了一些不同觀點(diǎn),認(rèn)為這種結(jié)構(gòu)可能更多是源于 AI 模型從人類數(shù)據(jù)中學(xué)習(xí)的結(jié)果,而不是一種完全獨(dú)立的自然特性。反駁者認(rèn)為,由于人類也是一種生物神經(jīng)網(wǎng)絡(luò),當(dāng)大規(guī)模 AI 系統(tǒng)基于小規(guī)模神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),它們自然而然地會(huì)接近這種結(jié)構(gòu)模式,因此 AI 模型的結(jié)構(gòu)并非完全出乎意料。反駁者還提出了一個(gè)有趣的設(shè)想:如果 AI 模型在完全不包含人類數(shù)據(jù)的「外星」數(shù)據(jù)集上進(jìn)行訓(xùn)練,那么模型的組織結(jié)構(gòu)可能會(huì)有很大的不同 —— 盡管模型仍然可能會(huì)產(chǎn)生聚類和分組的結(jié)構(gòu)以有效處理復(fù)雜信息,但實(shí)際的概念和結(jié)構(gòu)可能會(huì)和人類的完全不同。

論文作者表示,他們希望這些發(fā)現(xiàn)有助于大家深入理解 SAE 特征和大型語(yǔ)言模型的工作原理。他們也會(huì)在未來(lái)繼續(xù)研究,以了解為什么其中一些結(jié)構(gòu)會(huì)出現(xiàn)。

以下是論文的詳細(xì)信息。

「原子」尺度:晶體結(jié)構(gòu)

在這一部分中,作者尋找他們所說(shuō)的 SAE 特征點(diǎn)云中的晶體結(jié)構(gòu)。這里的結(jié)構(gòu)指的是反映概念之間語(yǔ)義關(guān)系的幾何結(jié)構(gòu),它泛化了(a, b, c, d)=(man,woman,king,queen)形成近似平行四邊形的經(jīng)典例子,其中 b ? a ≈ d ? c。這可以用兩個(gè)功能向量 b ? a 和 c ? a 來(lái)解釋,分別將男性實(shí)體轉(zhuǎn)為女性,將普通人轉(zhuǎn)為皇室成員。他們還尋找只有一對(duì)平行邊 b - a ∝ d - c 的梯形(只對(duì)應(yīng)一個(gè)功能向量);圖 1(右)展示了這樣一個(gè)例子,其中(a, b, c, d)=(Austria, Vienna, Switzerland, Bern),這里的功能向量可以被解釋為將國(guó)家映射到它們的首都。

作者通過(guò)計(jì)算所有成對(duì)差分向量并對(duì)其進(jìn)行聚類來(lái)尋找晶體,這應(yīng)該會(huì)產(chǎn)生一個(gè)對(duì)應(yīng)于每個(gè)功能向量的聚類。一個(gè)聚類中的任意一對(duì)差分向量應(yīng)該形成一個(gè)梯形或平行四邊形,這取決于差分向量在聚類前是否被歸一化(或者是否通過(guò)歐氏距離或余弦相似性來(lái)量化兩個(gè)差分向量之間的相似性)。

作者最初搜索 SAE 晶體時(shí)發(fā)現(xiàn)的大多是噪聲。為了探究原因,他們將注意力集中在第 0 層(token 嵌入)和第 1 層,那里許多 SAE 特征對(duì)應(yīng)于單個(gè)詞匯。然后他們研究了 Gemma2-2b 殘差流激活,這些激活是針對(duì)之前報(bào)告的來(lái)自 Todd 等人 (Todd et al., 2023) 數(shù)據(jù)集中的 word->word 功能向量,這澄清了問(wèn)題。圖 1 說(shuō)明了候選晶體四元組通常遠(yuǎn)非平行四邊形或梯形。這與多篇論文指出的(man, woman, king, queen)也不是一個(gè)準(zhǔn)確的平行四邊形是一致的。

作者發(fā)現(xiàn),導(dǎo)致這一問(wèn)題的原因是存在他們所說(shuō)的干擾特征。例如,他們發(fā)現(xiàn)圖 1(右)中的水平軸主要對(duì)應(yīng)于單詞長(zhǎng)度(圖 10),這在語(yǔ)義上是不相關(guān)的,并且對(duì)梯形(左)造成了破壞,因?yàn)椤窼witzerland」比其他單詞長(zhǎng)得多。

為了消除這些語(yǔ)義上不相關(guān)的干擾向量,他們希望將數(shù)據(jù)投影到一個(gè)與它們正交的低維子空間上。對(duì)于 (Todd et al., 2023) 數(shù)據(jù)集,他們使用線性判別分析(LDA)來(lái)實(shí)現(xiàn)這一點(diǎn),它將數(shù)據(jù)投影到信號(hào) - 噪聲的特征模式上,其中「信號(hào)」和「噪聲」分別定義為聚類間變化和聚類內(nèi)變化的協(xié)方差矩陣。圖 1 顯示,這極大地提高了聚類和梯形圖 / 平行四邊形的質(zhì)量,突出表明干擾特征可能會(huì)隱藏現(xiàn)有的晶體。

「大腦」尺度:中尺度模塊性結(jié)構(gòu)

現(xiàn)在放大視野,尋找更大規(guī)模的結(jié)構(gòu)。具體來(lái)說(shuō),作者研究了功能相似的 SAE 特征組(傾向于一起激活)是否在幾何上也是相似的,從而在激活空間中形成「葉」。

在動(dòng)物大腦中,這些功能組是眾所周知的神經(jīng)元所在 3D 空間中的聚類。例如,布洛卡區(qū)參與語(yǔ)言產(chǎn)生,聽覺皮層處理聲音,而杏仁體主要與情緒處理相關(guān)。作者好奇是否能在 SAE 特征空間中找到類似的功能模塊性。

作者測(cè)試了多種自動(dòng)發(fā)現(xiàn)此類功能「葉」以及量化它們是否具有空間模塊性的方法。他們將葉分區(qū)定義為將點(diǎn)云分割為 k 個(gè)子集(「葉」),這些子集的計(jì)算不依賴于位置信息。相反,他們識(shí)別這些葉的依據(jù)是它們?cè)诠δ苌系南嚓P(guān)性,具體來(lái)說(shuō),就是在一個(gè)文檔中趨向于共同激活。

為了自動(dòng)識(shí)別功能葉,作者首先計(jì)算 SAE 特征共現(xiàn)的直方圖。他們使用 gemma-2-2b,并將 The Pile Gao et al. (2020) 中的文檔傳遞給它。在這一部分,他們將報(bào)告第 12 層殘差流 SAE 的結(jié)果,該層有 16k 個(gè)特征,平均 L0 為 41。

對(duì)于這個(gè) SAE,他們記錄了激活的特征(如果其隱藏激活 > 1,他們認(rèn)為一個(gè)特征被激活)。如果兩個(gè)特征在 256 個(gè) token 組成的同一個(gè)塊內(nèi)被激活,則它們就被視為共現(xiàn) —— 這個(gè)長(zhǎng)度提供了一個(gè)粗略的「時(shí)間分辨率」,使他們能夠找到在同一文檔中傾向于一起激活的 token。他們使用 1024 的最大上下文長(zhǎng)度,并且每個(gè)文檔只使用一個(gè)這樣的上下文,因此每篇 The Pile 文檔最多只能有 4 個(gè)塊(和直方圖更新)。他們計(jì)算了 50k 個(gè)文檔的直方圖。給定這個(gè)直方圖,他們基于它們的共現(xiàn)統(tǒng)計(jì)計(jì)算每對(duì) SAE 特征之間的親和度(affinity),并對(duì)得到的親和度矩陣進(jìn)行譜聚類。

作者嘗試了以下基于共現(xiàn)的親和概念:簡(jiǎn)單匹配系數(shù)、Jaccard 相似性、Dice 系數(shù)、重疊系數(shù)和 Phi 系數(shù),所有這些都可以僅從共現(xiàn)直方圖計(jì)算得出。

作者的 null 假設(shè)是,功能相似的點(diǎn)(通常共現(xiàn)的 SAE 特征)在激活空間中均勻分布,沒(méi)有空間模塊性。相反,圖 2 顯示了看起來(lái)相當(dāng)空間局部化的葉。為了量化這一點(diǎn)在統(tǒng)計(jì)上的重要性,作者使用兩種方法來(lái)排除 null 假設(shè)。

  • 雖然我們可以根據(jù)它們是否共現(xiàn)來(lái)聚類特征,但也可以根據(jù) SAE 特征解碼向量之間的余弦相似度執(zhí)行譜聚類。給定一個(gè)使用余弦相似度的 SAE 特征聚類和一個(gè)使用共現(xiàn)的聚類,計(jì)算這兩組標(biāo)簽之間的互信息。從某種意義上說(shuō),這直接衡量了人們從了解功能結(jié)構(gòu)中獲得的幾何結(jié)構(gòu)的信息量。
  • 另一個(gè)概念上簡(jiǎn)單的方法是訓(xùn)練模型,從其幾何形狀預(yù)測(cè)一個(gè)特征所在的功能葉。為此,作者從基于共現(xiàn)的聚類中獲取一組給定的葉標(biāo)簽,并訓(xùn)練一個(gè) logistic 回歸模型,直接從點(diǎn)位置預(yù)測(cè)這些標(biāo)簽,采用 80-20 的訓(xùn)練 - 測(cè)試比例,并報(bào)告該分類器的平衡測(cè)試準(zhǔn)確率。

圖 3 顯示,在這兩種測(cè)量方法中,Phi 系數(shù)勝出,在功能葉和特征幾何之間實(shí)現(xiàn)了最佳對(duì)應(yīng)。為了證明這一點(diǎn)具有統(tǒng)計(jì)學(xué)意義,作者從基于余弦相似性的聚類中隨機(jī)排列聚類標(biāo)簽,并測(cè)量調(diào)整后的互信息。他們還從隨機(jī)高斯中隨機(jī)重新初始化 SAE 特征解碼器方向并歸一化,然后訓(xùn)練 logistic 回歸模型,從這些特征方向預(yù)測(cè)功能葉。圖 3(下)顯示,這兩個(gè)測(cè)試都以高顯著性排除了 null 假設(shè),標(biāo)準(zhǔn)差分別為 954 和 74,這清楚地表明作者看到的葉是真實(shí)的,而不是統(tǒng)計(jì)上的偶然。

為了評(píng)估每個(gè)葉專門做什么,作者通過(guò) gemma-2-2b 運(yùn)行來(lái)自 The Pile 的 10k 個(gè)文檔,并再次記錄第 12 層的哪些 SAE 特征在 256 個(gè) token 組成的塊內(nèi)激活。對(duì)于每個(gè) token 塊,他們記錄哪個(gè)葉有最高比例的特征激活。

作者在圖 4 中展示了三個(gè)葉的結(jié)果,這些結(jié)果是使用 Phi 系數(shù)作為共現(xiàn)度量的,這構(gòu)成了圖 2 中葉標(biāo)記的基礎(chǔ)。

圖 5 比較了五種不同的共現(xiàn)度量的效果。盡管作者發(fā)現(xiàn) Phi 是最好的,但所有五種都發(fā)現(xiàn)了「代碼 / 數(shù)學(xué)葉」。

「星系」尺度:大規(guī)模點(diǎn)云結(jié)構(gòu)

在本節(jié)中,作者進(jìn)一步放大視野,研究點(diǎn)云的「星系」尺度結(jié)構(gòu),主要是其整體形狀和聚類,類似于天文學(xué)家研究星系形狀和亞結(jié)構(gòu)的方式。

作者試圖排除的簡(jiǎn)單 null 假設(shè)是,點(diǎn)云僅僅是從一個(gè)各向同性的多元高斯分布中抽取的。圖 6 從視覺上直觀地表明點(diǎn)云的形狀并不僅僅是圓形,即使在其前三個(gè)主成分中,一些主軸也比其他的略寬,類似于人腦。

形狀分析

圖 7(左)通過(guò)展示點(diǎn)云協(xié)方差矩陣的特征值遞減來(lái)量化這一點(diǎn),揭示它們并不恒定,而是似乎按照冪律下降。為了測(cè)試這種令人驚訝的冪律是否顯著,該圖將其與從各向同性高斯分布中抽取的點(diǎn)云的相應(yīng)特征值譜進(jìn)行比較,后者看起來(lái)更為平坦,與分析預(yù)測(cè)一致:多元高斯分布的 N 個(gè)隨機(jī)向量的協(xié)方差矩陣遵循 Wishart 分布,這在隨機(jī)矩陣?yán)碚撝械玫搅撕芎玫难芯?。由于最小特征值的突然下降是由?shù)據(jù)有限引起的,并在 N → ∞的極限中消失,作者將點(diǎn)云降維到其 100 個(gè)最大的主成分進(jìn)行后續(xù)的所有分析。換句話說(shuō),點(diǎn)云的形狀像是一個(gè)「分形黃瓜」,在連續(xù)的維度中寬度按照冪律下降。作者發(fā)現(xiàn)這種冪律縮放對(duì)于激活來(lái)說(shuō)明顯不如對(duì)于 SAE 特征那么突出;進(jìn)一步研究其起源將很有趣。

圖 7(右)顯示了上述冪律斜率如何取決于 LLM 層,計(jì)算方法是對(duì) 100 個(gè)最大特征值進(jìn)行線性回歸??梢钥吹揭粋€(gè)明顯的模式,即中間層具有最陡峭的冪律斜率:(第 12 層的斜率為 - 0.47,而前面和后面的層(如第 0 層和第 24 層)的斜率較淺(分別為 - 0.24 和 - 0.25)。這可能暗示了中間層起到了瓶頸的作用,將信息壓縮為較少的主成分,或許是為了更有效地表示高層次抽象概念而進(jìn)行的優(yōu)化。圖 7(右)還顯示了有效云體積(協(xié)方差矩陣的行列式)如何依賴于層(在對(duì)數(shù)尺度上。

聚類分析

星系或微觀粒子的聚類通常以功率譜或相關(guān)函數(shù)來(lái)量化。對(duì)于論文中的高維數(shù)據(jù)來(lái)說(shuō),這種方法比較復(fù)雜,因?yàn)榛久芏入S半徑變化,對(duì)于高維高斯分布來(lái)說(shuō),基本密度主要集中在一個(gè)相對(duì)較薄的球殼周圍。因此,作者通過(guò)估算點(diǎn)云采樣分布的熵來(lái)量化聚類。他們使用 k-NN 方法從 SAE 特征點(diǎn)云估計(jì)熵 H,計(jì)算如下,

對(duì)于具有相同協(xié)方差矩陣的高斯分布,熵計(jì)算為:

圖 8 顯示了不同層的估計(jì)聚類熵。作者發(fā)現(xiàn) SAE 點(diǎn)云特別在中間層有很強(qiáng)的聚類。

責(zé)任編輯:趙寧寧 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-10-30 12:58:48

2025-05-16 16:35:03

AIPDF模型

2020-09-27 14:23:36

AI

2024-05-29 12:26:27

2024-09-05 11:26:08

人工智能

2019-05-05 05:46:35

物聯(lián)網(wǎng)開發(fā)物聯(lián)網(wǎng)IOT

2019-06-25 09:22:58

Android 谷歌架構(gòu)

2025-03-03 08:46:00

2025-06-06 04:10:00

LLM人工標(biāo)注RL

2016-11-01 11:47:21

2023-03-06 12:35:45

AI大腦畫面圖像

2023-06-30 09:00:00

Falcon LLM開源

2024-08-05 10:20:00

LLM數(shù)據(jù)

2021-07-09 05:31:40

黑客網(wǎng)絡(luò)攻擊惡意軟件

2024-04-15 12:43:26

人工智能LLM

2022-12-27 14:45:55

量子計(jì)算

2024-06-14 09:02:49

2025-02-17 10:08:00

AI模型算法

2022-07-15 14:57:43

AI語(yǔ)言

2023-12-18 16:40:23

OxlintJavaScripRust
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)