斯坦福NYU聯(lián)合研究:AI和人類(lèi)思維差異的驚人發(fā)現(xiàn) —— 為什么大模型"聰明"卻不夠"智慧"?
1、一個(gè)令人深思的認(rèn)知謎題
想象一下這樣的場(chǎng)景:你和ChatGPT都被要求對(duì)一堆動(dòng)物進(jìn)行分類(lèi)。你可能會(huì)說(shuō)"鳥(niǎo)類(lèi)里,知更鳥(niǎo)是典型代表,而企鵝有點(diǎn)特殊",而AI卻可能簡(jiǎn)單粗暴地把所有有翅膀的都?xì)w為一類(lèi)。表面上看,你們的分類(lèi)結(jié)果差不多,但背后的思維邏輯卻天差地別。
這個(gè)看似簡(jiǎn)單的差異,實(shí)際上揭示了一個(gè)更深層的問(wèn)題:AI到底是真的"理解"了概念,還是僅僅在進(jìn)行高級(jí)的統(tǒng)計(jì)模式匹配?
最近,來(lái)自斯坦福大學(xué)和紐約大學(xué)的研究團(tuán)隊(duì)發(fā)表了一項(xiàng)突破性研究,用信息論的數(shù)學(xué)工具深入剖析了這個(gè)問(wèn)題。他們的發(fā)現(xiàn)令人震驚:大語(yǔ)言模型和人類(lèi)在處理概念時(shí)采用了完全不同的策略——AI追求極致的統(tǒng)計(jì)壓縮,而人類(lèi)更偏愛(ài)靈活的適應(yīng)性表達(dá)。
2、背景 —— 概念形成的奧秘
人類(lèi)概念形成的獨(dú)特之處
人類(lèi)的概念形成能力堪稱認(rèn)知科學(xué)的奇跡。我們能夠輕松地將復(fù)雜多樣的信息壓縮成簡(jiǎn)潔有意義的概念,比如看到知更鳥(niǎo)和藍(lán)鴉都能歸類(lèi)為"鳥(niǎo)",并且知道大多數(shù)鳥(niǎo)都會(huì)飛。這個(gè)過(guò)程體現(xiàn)了一個(gè)關(guān)鍵的權(quán)衡:在保持語(yǔ)義保真度(意義)的同時(shí)實(shí)現(xiàn)表征簡(jiǎn)化(壓縮)。
更有趣的是,人類(lèi)的概念系統(tǒng)往往是層次化的——知更鳥(niǎo)是鳥(niǎo),鳥(niǎo)是動(dòng)物——這種結(jié)構(gòu)既高效又富有表現(xiàn)力。每個(gè)概念類(lèi)別內(nèi)部還有"典型性"的差異:知更鳥(niǎo)被認(rèn)為是典型的鳥(niǎo),而企鵝則不那么典型。
大語(yǔ)言模型的概念迷霧
現(xiàn)在的大語(yǔ)言模型展現(xiàn)出了令人印象深刻的語(yǔ)言處理能力,在很多需要深度語(yǔ)義理解的任務(wù)上表現(xiàn)出色。但一個(gè)根本性問(wèn)題始終懸而未決:這些模型是真正理解了概念和意義,還是僅僅在龐大數(shù)據(jù)集上進(jìn)行復(fù)雜的統(tǒng)計(jì)模式匹配?
研究團(tuán)隊(duì)指出,要讓AI超越表面模仿、實(shí)現(xiàn)更接近人類(lèi)的理解,關(guān)鍵在于弄清楚AI的內(nèi)部表征如何處理信息壓縮與語(yǔ)義保真之間的權(quán)衡。
3、研究方法 —— 用數(shù)學(xué)透視思維差異
信息論框架
研究團(tuán)隊(duì)創(chuàng)建了一個(gè)基于率失真理論和信息瓶頸原理的全新框架來(lái)量化比較不同系統(tǒng)如何平衡表征復(fù)雜性與語(yǔ)義保真度。他們?cè)O(shè)計(jì)了一個(gè)目標(biāo)函數(shù)L:
圖片
L(X, C; β) = 復(fù)雜度(X, C) + β × 失真度(X, C)
這個(gè)公式巧妙地平衡了兩個(gè)關(guān)鍵要素:
(1)復(fù)雜度項(xiàng):衡量用概念簇表示原始項(xiàng)目的信息成本,反映壓縮程度
(2)失真度項(xiàng):衡量分組過(guò)程中丟失的語(yǔ)義保真度,反映意義保持程度
權(quán)威的人類(lèi)認(rèn)知基準(zhǔn)
與許多現(xiàn)代眾包數(shù)據(jù)集不同,研究團(tuán)隊(duì)選擇了認(rèn)知科學(xué)史上三個(gè)里程碑式的研究作為人類(lèi)基準(zhǔn):
(1)Rosch (1973)研究:8個(gè)語(yǔ)義類(lèi)別中的48個(gè)項(xiàng)目,確立了原型理論基礎(chǔ)
(2)Rosch (1975)研究:10個(gè)類(lèi)別中的552個(gè)項(xiàng)目,深化了語(yǔ)義類(lèi)別的認(rèn)知表征理論
(3)McCloskey & Glucksberg (1978)研究:18個(gè)類(lèi)別中的449個(gè)項(xiàng)目,揭示了自然類(lèi)別的"模糊邊界"
這些經(jīng)典數(shù)據(jù)集涵蓋了1049個(gè)項(xiàng)目和34個(gè)類(lèi)別,為評(píng)估AI模型的人類(lèi)相似性提供了高保真的實(shí)證基礎(chǔ)。
全面的模型測(cè)試矩陣
研究涵蓋了從3億到720億參數(shù)的多樣化大語(yǔ)言模型,包括:
(1)編碼器模型:BERT系列
(2)解碼器模型:Llama、Gemma、Qwen、Phi、Mistral等主流模型家族
通過(guò)提取每個(gè)模型的靜態(tài)詞元級(jí)嵌入向量,研究團(tuán)隊(duì)確保了與人類(lèi)分類(lèi)實(shí)驗(yàn)中無(wú)上下文刺激的可比性。
4、發(fā)現(xiàn) —— 三個(gè)層次的深度剖析
發(fā)現(xiàn)一:宏觀對(duì)齊的表面和諧
圖片
關(guān)鍵發(fā)現(xiàn):大模型能夠形成與人類(lèi)判斷大致對(duì)齊的概念類(lèi)別
實(shí)驗(yàn)結(jié)果顯示,所有測(cè)試的大語(yǔ)言模型在宏觀層面都能形成與人類(lèi)類(lèi)別顯著對(duì)齊的概念簇,遠(yuǎn)超隨機(jī)水平。令人意外的是,某些編碼器模型(特別是BERT-large)展現(xiàn)出了驚人的對(duì)齊能力,有時(shí)甚至超越了參數(shù)量大得多的模型。
這一發(fā)現(xiàn)揭示了一個(gè)重要事實(shí):影響類(lèi)人概念抽象的因素并非僅僅是模型規(guī)模,架構(gòu)設(shè)計(jì)和預(yù)訓(xùn)練目標(biāo)同樣關(guān)鍵。
發(fā)現(xiàn)二:細(xì)粒度語(yǔ)義的深層鴻溝
關(guān)鍵發(fā)現(xiàn):大模型在捕捉精細(xì)語(yǔ)義區(qū)別方面能力有限
雖然大模型能夠形成宏觀的概念類(lèi)別,但在內(nèi)部語(yǔ)義結(jié)構(gòu)方面卻表現(xiàn)平平。研究團(tuán)隊(duì)通過(guò)計(jì)算項(xiàng)目嵌入向量與其類(lèi)別名稱嵌入向量之間的余弦相似度,發(fā)現(xiàn)這些相似度與人類(lèi)典型性判斷之間只有適度的相關(guān)性。
換句話說(shuō),人類(lèi)認(rèn)為高度典型的項(xiàng)目(比如知更鳥(niǎo)對(duì)于"鳥(niǎo)"類(lèi)別),在大模型的表征空間中并不一定更接近該類(lèi)別標(biāo)簽的嵌入向量。這表明大模型可能更多地捕捉統(tǒng)計(jì)上的均勻關(guān)聯(lián),而非基于原型的細(xì)致語(yǔ)義結(jié)構(gòu)。
發(fā)現(xiàn)三:效率策略的根本分歧
關(guān)鍵發(fā)現(xiàn):AI和人類(lèi)采用了截然不同的表征效率策略
這是研究中最震撼的發(fā)現(xiàn)。通過(guò)L目標(biāo)函數(shù)的分析,研究團(tuán)隊(duì)發(fā)現(xiàn):
大語(yǔ)言模型展現(xiàn)出卓越的信息論效率:
(1)在壓縮-意義權(quán)衡方面始終達(dá)到更"優(yōu)化"的平衡
(2)集群熵值更低,表明統(tǒng)計(jì)上更緊湊
(3)L目標(biāo)函數(shù)值顯著更低,意味著更高的統(tǒng)計(jì)效率
人類(lèi)概念化系統(tǒng)則相反:
(1)在相同聚類(lèi)數(shù)量下具有更高的熵值
(2)L目標(biāo)函數(shù)值更高,在統(tǒng)計(jì)上看似"次優(yōu)"
(3)但這種"低效"可能反映了對(duì)更廣泛功能需求的優(yōu)化
圖片
5、深層含義 —— 重新審視"智能"的定義
AI的統(tǒng)計(jì)壓縮偏好
研究揭示,大語(yǔ)言模型高度優(yōu)化于統(tǒng)計(jì)緊湊性。它們形成信息論上高效的表征,通過(guò)最小化冗余和內(nèi)部方差來(lái)實(shí)現(xiàn)卓越的統(tǒng)計(jì)規(guī)律性。這很可能是它們?cè)诤A课谋菊Z(yǔ)料上訓(xùn)練的結(jié)果——為了處理龐大的數(shù)據(jù),它們學(xué)會(huì)了極致的壓縮策略。
然而,這種對(duì)壓縮的專(zhuān)注限制了它們完整編碼那些對(duì)深度理解至關(guān)重要的豐富原型語(yǔ)義細(xì)節(jié)的能力。AI變得"高效"但不夠"細(xì)膩"。
人類(lèi)的適應(yīng)性智慧
人類(lèi)認(rèn)知?jiǎng)t優(yōu)先考慮適應(yīng)性豐富度、上下文靈活性和廣泛的功能效用,即使這在統(tǒng)計(jì)緊湊性上付出代價(jià)。人類(lèi)概念的高熵值和L分?jǐn)?shù)可能反映了對(duì)更廣泛復(fù)雜認(rèn)知需求的優(yōu)化,包括:
(1)穩(wěn)健泛化:支持從稀少數(shù)據(jù)中進(jìn)行有效推廣
(2)推理能力:支持因果、功能和目標(biāo)導(dǎo)向的強(qiáng)大推理
(3)交流效率:通過(guò)可學(xué)習(xí)和可共享的結(jié)構(gòu)實(shí)現(xiàn)有效溝通
(4)多模態(tài)根基:將概念植根于豐富的多感官體驗(yàn)中
人類(lèi)選擇了看似"低效"的表征方式,實(shí)際上是為了獲得更好的適應(yīng)性和多用性。
架構(gòu)的啟示
值得注意的是,較小的編碼器模型(如BERT)在特定對(duì)齊任務(wù)上的出色表現(xiàn)強(qiáng)調(diào)了架構(gòu)設(shè)計(jì)和預(yù)訓(xùn)練目標(biāo)對(duì)模型抽象類(lèi)人概念信息能力的重要影響。這為未來(lái)專(zhuān)注于增強(qiáng)人機(jī)對(duì)齊的AI開(kāi)發(fā)指明了重要方向。
6、結(jié)語(yǔ):從"符號(hào)"到"思想"的漫長(zhǎng)征程
這項(xiàng)研究最深刻的洞察在于:AI和人類(lèi)代表了兩種截然不同的"智能"范式。
AI擅長(zhǎng)統(tǒng)計(jì)可壓縮性,走的是一條與人類(lèi)認(rèn)知根本不同的表征道路。它們像極了一個(gè)完美的圖書(shū)管理員,能夠以最高效的方式整理和存儲(chǔ)信息,但可能缺乏對(duì)每本書(shū)深層內(nèi)涵的真正理解。
人類(lèi)認(rèn)知?jiǎng)t像一個(gè)睿智的哲學(xué)家,愿意承受表面上的"混亂"和"低效",因?yàn)檫@種復(fù)雜性恰恰是靈活應(yīng)對(duì)復(fù)雜世界、進(jìn)行深度推理和創(chuàng)新思考的基礎(chǔ)。人類(lèi)的"低效"實(shí)際上是高級(jí)智能的標(biāo)志。
這種根本差異對(duì)AI發(fā)展具有深遠(yuǎn)意義。要實(shí)現(xiàn)真正類(lèi)人的理解,我們需要超越當(dāng)前主要基于規(guī)模擴(kuò)展和統(tǒng)計(jì)模式匹配的范式。未來(lái)的努力應(yīng)該探索明確培養(yǎng)更豐富、更細(xì)致概念結(jié)構(gòu)的原理。
正如研究標(biāo)題所暗示的,從"符號(hào)"到"思想"的進(jìn)步,需要AI系統(tǒng)學(xué)會(huì)擁抱看似的"低效"——因?yàn)檫@種"低效"可能正是穩(wěn)健、類(lèi)人智能的標(biāo)志。我們需要的不僅僅是能夠高效處理信息的AI,更需要能夠像人類(lèi)一樣靈活思考、深度理解和創(chuàng)造性推理的智能系統(tǒng)。
這項(xiàng)研究為我們提供了一個(gè)量化的框架來(lái)評(píng)估和指導(dǎo)AI向更類(lèi)人理解方向發(fā)展,也提醒我們:真正的智能可能不在于完美的效率,而在于適應(yīng)性的智慧。在AI快速發(fā)展的今天,理解這種差異對(duì)于構(gòu)建既強(qiáng)大又可信賴的人工智能系統(tǒng)具有至關(guān)重要的意義。
論文標(biāo)題:From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning
論文鏈接:https://arxiv.org/abs/2505.17117


































