LeCun新作反殺AGI派!AI連「鳥」都搞不懂,拿什么超越人類?
LLM真的可以像人類一樣「思考」了?
圖靈獎(jiǎng)得主Yann LeCun聯(lián)手斯坦福團(tuán)隊(duì)最新論文,狠狠打臉了LLM類人的神話。
論文鏈接:https://arxiv.org/abs/2505.17117
一直以來,LeCun認(rèn)為,大模型就是隨機(jī)鸚鵡,它們的智力甚至連阿貓阿狗都不如。
實(shí)驗(yàn)驚喜地發(fā)現(xiàn),針對「鳥類」、「家具」這種粗分類任務(wù),LLM表現(xiàn)遠(yuǎn)超「隨機(jī)猜測」。
然而,它們在精細(xì)語義任務(wù)中,卻栽了個(gè)大跟頭。
還是同樣的例子,人類一眼就能看出「知更鳥」比「企鵝」更像鳥類,這是因?yàn)橹B會飛、會唱歌,符合「鳥」的典型特征。
對于LLM,它們完全抓瞎,壓根兒就分不清這種差異。
究其原因,LLM的內(nèi)部概念結(jié)構(gòu)和人類直覺,有著根本性錯(cuò)位。也就是說,它們可能知道「鳥」這個(gè)詞,卻理解不了「鳥」的深層含義。
那么,為什么LLM會有這種缺陷?
通過信息論框架,LeCun團(tuán)隊(duì)發(fā)現(xiàn)了驚人的事實(shí):
LLM追求的是極致的統(tǒng)計(jì)壓縮,而人類追求適應(yīng)性語義豐富。
人類語言通過結(jié)構(gòu)所定義的范疇或許因語言而異,但這些范疇最終都映射至一個(gè)共通的認(rèn)知空間——這既代表著人類共同的精神遺產(chǎn),亦勾勒出心智世界的地理圖譜
在鋪開具體實(shí)驗(yàn)細(xì)節(jié)之前,先來看看研究的核心亮點(diǎn)。
LLM類人思考?大錯(cuò)特錯(cuò)
大模型真的像人類一樣,形成「概念」和「意義」嗎?
還是,它們只是對海量文本的模式進(jìn)行復(fù)雜擬合,根本不懂意義?
針對這些疑問,研究人員引入了一套經(jīng)典的「心理學(xué)實(shí)驗(yàn)數(shù)據(jù)」。
不同于網(wǎng)友隨手投票,這些數(shù)據(jù)是數(shù)十年來的嚴(yán)謹(jǐn)、可靠的科學(xué)實(shí)驗(yàn)成果,來自認(rèn)知科學(xué)領(lǐng)域的黃金標(biāo)準(zhǔn)。
比如,如何判斷什么是「鳥」、什么是「家具」等。
實(shí)驗(yàn)中,研究團(tuán)隊(duì)測試了30多個(gè)大模型,包括BERT、LLaMA、Gemma、Phi、Qwen以及Mistral等6大算法家族,讓它們來「理解」這些數(shù)據(jù)。
這里,他們使用了兩個(gè)關(guān)鍵指標(biāo)的權(quán)衡:
· 壓縮能力:模型能多高效地「組織」信息?
· 意義保留:壓縮之后,還能留下多少語義細(xì)節(jié)?
那LLM結(jié)果如何?
三大關(guān)鍵發(fā)現(xiàn)
團(tuán)隊(duì)通過分析多個(gè)不同LLM的token嵌入,并將其與經(jīng)典的人類分類基準(zhǔn)進(jìn)行對比,得出了3大關(guān)鍵發(fā)現(xiàn)。
發(fā)現(xiàn)1:LLM有點(diǎn)像人
大語言模型確實(shí)能建立與人類一致的概念分類,而且表現(xiàn)顯著高于隨機(jī)水平。
圖1:LLM生成的聚類結(jié)果與人類概念分類呈顯著一致性
圖1中展示的是人類分類與LLM嵌入聚類之間的調(diào)整互信息(AMI)得分,橫軸為模型大小。
結(jié)果取自三個(gè)心理學(xué)數(shù)據(jù)集的平均值。所有模型的表現(xiàn)都明顯優(yōu)于隨機(jī)聚類。
LLM生成的聚類結(jié)果與人類定義的概念類別顯著吻合,這表明,模型捕捉到了人類概念組織的關(guān)鍵特征。
意外驚喜:小模型BERT竟然比超大模型表現(xiàn)更好!這說明一個(gè)問題:模型不一定越大越聰明。
這一現(xiàn)象揭示除規(guī)模因素外,還有其他變量會影響類人化的范疇抽象能力。
這些發(fā)現(xiàn)證實(shí),LLM能夠從其嵌入表示中還原出與人類認(rèn)知相似的寬泛范疇,從而為更深層次的比較分析提供了依據(jù)。
然而,這種表面上的類人能力僅限于概念范疇的粗略劃分。
進(jìn)一步深入分析,發(fā)現(xiàn)真相并不簡單。
發(fā)現(xiàn)2:精細(xì)語義的「滑鐵盧」
在處理細(xì)粒度語義時(shí),LLM明顯吃力。
雖然LLM能有效構(gòu)建宏觀概念范疇,但其內(nèi)部表征與人類感知的細(xì)粒度語義區(qū)分,如item典型性、與類別原型的心理距離等,僅保持有限的一致性。
這表明LLM與人類在概念內(nèi)部的信息組織方式上,存在本質(zhì)差異。
原文圖5:LLM嵌入距離與人類典型性判斷之間的相關(guān)性
比如——它們知道麻雀和企鵝都是鳥,但沒法理解:相比企鵝,麻雀是更「典型」的鳥。
模型內(nèi)部的概念結(jié)構(gòu),和人類的直覺不在一個(gè)頻道上。
在LLM中,item嵌入與其類別標(biāo)簽嵌入的相似性驅(qū)動(dòng)因素,可能與人類典型性依賴的豐富多維標(biāo)準(zhǔn),如感知屬性、功能角色不同。
因此,LLM可能傾向于捕捉與類別標(biāo)簽更統(tǒng)計(jì)均勻的關(guān)聯(lián),從而低估了人類概念中以原型為中心的漸進(jìn)性質(zhì)。
更重要的是,這一偏差不僅體現(xiàn)在具體的典型性判斷中,更在于LLM與人類在信息組織方式上的根本差異。
發(fā)現(xiàn)3:存在本質(zhì)差異
LLM和人類大腦,優(yōu)化的目標(biāo)根本不是同一個(gè)!
· LLM追求極致壓縮,盡量減少冗余。
· 人類追求豐富靈活,堅(jiān)持保留上下文與適應(yīng)性。
本質(zhì)不同,注定思維方式不會一樣。
這些發(fā)現(xiàn)揭示了當(dāng)前人工智能與人類認(rèn)知體系之間的重要差異,為構(gòu)建更加貼近人類概念表征的LLM提供了方向。
這解釋了為什么LLM既能展現(xiàn)出令人驚嘆的能力,同時(shí)又錯(cuò)過了一些顯而易見的擬人類式推理。
它們并沒有出問題——
只是它們優(yōu)化的是模式匹配,而不是人類使用的豐富、利用上下文的理解。
這意味著:
· 目前Scaling可能無法實(shí)現(xiàn)類似人類的理解能力;
· 大家需要找到更好的方法,在壓縮信息和保留語義豐富性之間取得平衡;
· 實(shí)現(xiàn)通用人工智能(AGI)可能需要重新思考當(dāng)前的優(yōu)化目標(biāo)。
簡單來說,大模型就像是一臺超級壓縮機(jī),拼命地把信息壓縮,以消除冗余,追求最高效的模式匹配。
這讓它們在處理大量數(shù)據(jù)時(shí)表現(xiàn)驚艷,但也丟掉了人類認(rèn)知的精髓——
那些模糊的、語境化的、充滿細(xì)微差別的意義。
還以之前的分類舉例,人類會因?yàn)椤钢B在樹上唱歌」的畫面強(qiáng)化「鳥」這一概念,而大模型只會冷冰冰地計(jì)算單詞的統(tǒng)計(jì)概率。
這并不是LLM的「故障」,而是它們被設(shè)計(jì)成了「模式匹配的機(jī)器」。
接下來,具體看下實(shí)驗(yàn)的實(shí)施細(xì)節(jié)。
三大核心問題
概念是人類認(rèn)知的核心支柱,能讓人高效理解信息,從稀疏數(shù)據(jù)中進(jìn)行類推,并實(shí)現(xiàn)豐富的交流。
若LLM希望超越表面模仿,邁向更接近人類的理解方式,就必須深入研究它們的內(nèi)部表征是如何權(quán)衡「信息壓縮」與「語義保真」。
已有研究探索了LLM中的概念結(jié)構(gòu),提供了有益的視角,但大多缺乏一種基于信息論的方法,來定量地比較LLM與人類在「壓縮與語義」的權(quán)衡上的表現(xiàn)。
而且「概念」的定義也沒有得到公認(rèn)的認(rèn)知理論支持。
因此,關(guān)于LLM與人類在表達(dá)效率與語義保真度之間如何權(quán)衡的嚴(yán)謹(jǐn)比較仍然是一個(gè)亟待解決的問題。
另一方面,認(rèn)知科學(xué)領(lǐng)域也曾將信息論應(yīng)用于人類概念學(xué)習(xí)的研究中,但這些工作通常未與現(xiàn)代AI模型建立聯(lián)系。
這次新研究的目標(biāo)正是要填補(bǔ)這一空白,將認(rèn)知心理學(xué)、信息論與現(xiàn)代自然語言處理結(jié)合起來。
為此,他們提出三大核心研究問題作為研究的主線:
[RQ1]:LLM中涌現(xiàn)出的概念,在多大程度上與人類定義的概念類別相一致?
[RQ2]:在人類與LLM中,這些概念是否展現(xiàn)出相似的內(nèi)部幾何結(jié)構(gòu),尤其是在典型性方面?
[RQ3]:在人類與LLM的概念形成過程中,各自是如何權(quán)衡表示壓縮與語義保真的?
這三個(gè)問統(tǒng)一在信息論分析框架下進(jìn)行探討:
RQ1從宏觀層面對比LLM和人類在概念分類上的對齊情況,這是信息壓縮的關(guān)鍵表現(xiàn);
RQ2深入到這些類別的內(nèi)部結(jié)構(gòu),分析諸如「詞條典型性」等語義細(xì)節(jié)的保留程度;
在此基礎(chǔ)上,RQ3利用完整的信息論框架,全面比較LLM與人類在壓縮與語義之間的優(yōu)化策略是否存在根本差異。
統(tǒng)一框架:信息論分析
借鑒了率失真理論(Rate-Distortion Theory,RDT)和信息瓶頸原理(Information Bottleneck,IB)的核心思想,研究團(tuán)隊(duì)從統(tǒng)一的信息論視角深入探討研究中的三大核心問題。
研究首先從表示的緊湊性與語義保留這兩個(gè)方面入手,逐步展開分析,最終綜合這些見解來評估概念表示的整體效率。
結(jié)合信息論的視角,三大研究問題按如下方式展開:
[RQ1]通過類別對齊探究表示的緊湊性:首先關(guān)注信息如何被壓縮成類別結(jié)構(gòu)。
無論是人類的分類方式,還是LLM生成的聚類方法,都是將多樣的元素X簡化成有組織的類別C。
針對RQ1,通過衡量模型聚類(CLLM)與人類分類(CHuman)之間的信息重合程度(如使用調(diào)整互信息等指標(biāo)),評估兩者在壓縮信息時(shí)的一致性。這一部分主要對應(yīng)框架中的「復(fù)雜性」維度,即輸入信息的高效表示能力。
[RQ2]通過內(nèi)部結(jié)構(gòu)探究語義的保留:接下來考察在壓縮后的表示中,意義是否仍然被準(zhǔn)確保留。
有效的系統(tǒng)應(yīng)能維持重要的語義細(xì)節(jié)。
為研究RQ2,研究團(tuán)隊(duì)對比了LLM內(nèi)部用于衡量元素中心性的指標(biāo)與人類對典型性的判斷,考察模型是否能捕捉到人類分類(CHuman)中的細(xì)致語義結(jié)構(gòu)。這部分對應(yīng)的是框架中的「失真」(或語義保真度)維度。
[RQ3]評估整體表示效率中的權(quán)衡關(guān)系:在探討了緊湊性和語義保留之后,研究團(tuán)隊(duì)將整個(gè)框架整合起來。
針對RQ3,研究團(tuán)隊(duì)使用統(tǒng)一的目標(biāo)函數(shù)L(將在后文詳細(xì)說明),定量評估LLM與人類在應(yīng)對信息權(quán)衡問題時(shí)的效率。
理論基礎(chǔ):率失真理論+信息瓶頸
為了嚴(yán)格形式化「表示緊湊性」與「語義保留」之間的平衡關(guān)系,信息論提供了一些理論工具。
其中,率失真理論(Rate-DistortionTheory,RDT)提供了基本框架。
RDT用來衡量在允許最大「失真」D(即語義損失)的前提下,將信息源X表示為C所需的最小「比率」R(即表示復(fù)雜度)。
其目標(biāo)通常是優(yōu)化R+λD代價(jià)函數(shù),從而對表示效率進(jìn)行系統(tǒng)評估。
另一個(gè)相關(guān)理論是信息瓶頸原理(Information Bottleneck,IB)。
IB方法試圖從輸入X中提取一個(gè)壓縮表示C,該表示在保留盡可能多關(guān)于相關(guān)變量Y的信息的同時(shí),最小化C與X之間的互信息I(X;C)——也就是壓縮帶來的「代價(jià)」。
這個(gè)過程通常被形式化為最小化I(X;C)?βI(C;Y)。
分析框架直接借鑒了RDT中「率失真權(quán)衡」的核心思想,構(gòu)建了一個(gè)明確表達(dá)該權(quán)衡的目標(biāo)函數(shù)L。
率失真曲線的例子
目標(biāo)函數(shù):復(fù)雜性與語義失真之平衡
在信息論的分析框架下,目標(biāo)函數(shù)用于評估由原始詞項(xiàng)集合X(如詞嵌入)所派生的概念類簇C的表示效率:
其中,β≥0是一個(gè)超參數(shù),用于平衡這兩個(gè)部分在整體目標(biāo)中的相對重要性。
這個(gè)函數(shù)提供了一個(gè)統(tǒng)一而嚴(yán)謹(jǐn)?shù)亩攘糠绞剑糜谠u估某個(gè)類簇方案C在信息壓縮與語義保留之間的權(quán)衡效果,是解答RQ3的核心工具。
信息論框架要具備完整的工具集,還需要定兩個(gè)關(guān)鍵部分:
(1)復(fù)雜性項(xiàng),對應(yīng)RDT中的「比率」,用于量化將原始項(xiàng)X表示為類簇C所需的信息成本,表示的緊湊程度(RQ1);
(2)失真項(xiàng),對應(yīng)RDT中的「失真」,用于衡量在這一類簇結(jié)構(gòu)中所丟失或模糊的語義信息,衡量語義保留的程度(RQ2)。
與IB原理中的思想一致,復(fù)雜性項(xiàng)采用互信息I(X;C)。
但在失真項(xiàng)上有所不同,研究者采用的是類簇內(nèi)部的語義方差,即項(xiàng)嵌入相對于類簇中心的離散程度,來直接衡量語義的保真度。
在IB中,「失真」與外部變量Y的相關(guān)性綁定不同。與之不同,這次做法是將語義失真作為類簇結(jié)構(gòu)本身的一種內(nèi)在屬性直接計(jì)算。
不管是基于人類認(rèn)知數(shù)據(jù)還是LLM嵌入構(gòu)建的類簇結(jié)構(gòu)C,這種直接的方法能夠清晰地評估,類簇在保持結(jié)構(gòu)緊湊性和表達(dá)原始數(shù)據(jù)X的語義信息之間,是如何實(shí)現(xiàn)平衡的。
下面將框架中的兩個(gè)核心組成部分:復(fù)雜性(Complexity)和失真(Distortion)。
復(fù)雜性項(xiàng)
第一個(gè)部分是Complexity(X,C),衡量的是將原始項(xiàng)X表示為類簇C所需的信息成本或復(fù)雜程度。
具體地,它通過項(xiàng)與其類簇標(biāo)簽之間的互信息I(X;C)來衡量。
互信息越小,代表壓縮效果越好,也就是說,用類簇標(biāo)簽C表示項(xiàng)X所需的信息越少。
定義如下:
因此,復(fù)雜性項(xiàng)可以表示為:
該項(xiàng)正是用于量化RQ1中所關(guān)注的「表示緊湊性」。
失真項(xiàng)
第二個(gè)部分是Distortion(X,C),用于衡量將項(xiàng)歸入類簇時(shí)所損失的語義精度。
項(xiàng)嵌入在類簇內(nèi)的平均方差來反映了語義精度損失,即類簇內(nèi)的項(xiàng)與中心之間的距離越小,說明語義保留得越好,類簇越具有語義一致性。
對每個(gè)類簇c∈C,先計(jì)算其質(zhì)心(中心點(diǎn)):
再類簇內(nèi)部的方差:
最后,總的失真值定義為:
失真越小,說明類簇中的項(xiàng)越集中在其語義中心,語義信息保留越好,直接關(guān)聯(lián)于RQ2中提出的語義保留問題。
實(shí)證研究
為了回答核心研究問題,研究者精心準(zhǔn)備了基準(zhǔn)數(shù)據(jù)集。
之后,在基準(zhǔn)數(shù)據(jù)集和統(tǒng)一架構(gòu)下,研究人員比較LLM與人類在概念策略差異。
數(shù)據(jù)集
自認(rèn)知心理學(xué)中的經(jīng)典研究,深入揭示了人類的概念形成過程,提供了豐富的實(shí)證數(shù)據(jù),說明人類如何進(jìn)行分類判斷、如何評估類別成員歸屬感以及如何感知「典型性」。
與許多現(xiàn)代眾包數(shù)據(jù)集相比,這些經(jīng)典數(shù)據(jù)集經(jīng)過認(rèn)知科學(xué)專家的精心設(shè)計(jì)與篩選,更能反映人類深層次的認(rèn)知模式,而非表面上的聯(lián)想關(guān)系。
它們基于當(dāng)時(shí)正在發(fā)展中的概念結(jié)構(gòu)理論,具有高度理論指導(dǎo)意義。
研究團(tuán)隊(duì)特別選取了來自不同小組的三項(xiàng)深遠(yuǎn)影響的研究。
左右滑動(dòng)查看
它們都采用了嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)設(shè)計(jì),并提供了關(guān)于類別分配和典型性的重要數(shù)據(jù)。
這次研究整合了這些數(shù)據(jù),構(gòu)建了統(tǒng)一的基準(zhǔn)數(shù)據(jù)集,覆蓋34個(gè)類別,共1049個(gè)item。
[RQ1]評估概念對齊性
為探究LLM所生成的概念類別與人類定義的類別之間的對齊程度(對應(yīng)RQ1,即表示緊湊性的考察),研究人員對LLM的token嵌入進(jìn)行k-means聚類。
聚類數(shù)量K由每個(gè)數(shù)據(jù)集中人類類別的數(shù)量決定。
以下指標(biāo)用于衡量LLM類別與人類類別之間的一致性,并與隨機(jī)聚類作為基線進(jìn)行比較:
- 調(diào)整互信息(AMI)
- 歸一化互信息(NMI)
- 調(diào)整蘭德指數(shù)(ARI)
這些指標(biāo)用于量化模型在壓縮信息的同時(shí),是否以與人類相似的方式組織類別。
[RQ2]分析類簇內(nèi)部幾何結(jié)構(gòu)與語義保留
為了評估LLM表示是否能捕捉到人類所體現(xiàn)的「典型性」特征(對應(yīng)RQ2,即語義保真度的衡量),
研究團(tuán)隊(duì)分析類別內(nèi)部的幾何結(jié)構(gòu):
- 對每個(gè)item,計(jì)算其詞元嵌入與其對應(yīng)的人類定義類別名的詞元嵌入之間的余弦相似度(例如,「robin」與「bird」)。
- 然后,將這些LLM計(jì)算得到的相似度,與來自認(rèn)知科學(xué)數(shù)據(jù)集的人類「典型性評分」進(jìn)行相關(guān)性分析(采用Spearman等級相關(guān)系數(shù)ρ)。
該方法用于檢驗(yàn)LLM能否捕捉人類在語義類別中對「更具代表性」成員的判斷。
[RQ3]評估壓縮與語義之間的整體權(quán)衡效率
為了評估LLM與人類在壓縮信息與語義保留之間的整體平衡(對應(yīng)RQ3),研究團(tuán)隊(duì)使用第4節(jié)中提出的目標(biāo)函數(shù)L(β=1),分別對人類與LLM的概念結(jié)構(gòu)進(jìn)行計(jì)算。
- LLM的類簇結(jié)構(gòu)由多種K值下的k-means聚類結(jié)果構(gòu)成;
- 對比分析其復(fù)雜性項(xiàng)I(X;C)與失真項(xiàng)之間的權(quán)衡。
此外,他們還將類簇熵作為緊湊性(壓縮能力)的輔助度量標(biāo)準(zhǔn)。
為保證穩(wěn)健性,所有k-means聚類均進(jìn)行100次隨機(jī)初始化,并取結(jié)果平均值。
有關(guān)具體的細(xì)節(jié)和更多參考內(nèi)容,請參閱原文。