這個(gè)AI精準(zhǔn)模擬人類行為大腦狀態(tài),上Nature了
首個(gè)能跨領(lǐng)域精準(zhǔn)預(yù)測(cè)人類認(rèn)知的基礎(chǔ)模型誕生!
不僅可以完全預(yù)判你的行為,還能知道你是如何思考、以及為什么思考。
這是一項(xiàng)最新登上Nature的突破性研究,來自德國的研究團(tuán)隊(duì)只用了5天訓(xùn)練時(shí)間就開發(fā)出人類認(rèn)知的通用計(jì)算模型——Centaur。
Centaur現(xiàn)在就像一名專業(yè)的心理學(xué)家,只需傳統(tǒng)模型Llama的0.15%參數(shù),就可以完美模擬人類在160項(xiàng)心理學(xué)實(shí)驗(yàn)中的行為,理解人類如何學(xué)習(xí)、決策甚至犯錯(cuò)。
不僅僅受限于單一領(lǐng)域,而是真正的多任務(wù)全能選手,性能全面超越傳統(tǒng)的特定領(lǐng)域認(rèn)知模型。
更驚人的是,其神經(jīng)表征竟與真人fMRI(功能性磁共振成像)掃描結(jié)果高度吻合。
AI,正在成為最懂人類的“讀心者”。
Centaur:心理學(xué)與AI的跨界突破
在心理學(xué)領(lǐng)域,建立一個(gè)統(tǒng)一的認(rèn)知理論,可以識(shí)別和描述所有人類認(rèn)知、行為和情感,是所有心理學(xué)家孜孜不倦的追求。
認(rèn)知的統(tǒng)一理論是唯一能將我們?nèi)找嬖鲩L的豐富知識(shí),置于理智掌控之下的方法。
那么首先需要構(gòu)建一個(gè)能夠預(yù)測(cè)和模擬人類行為的通用計(jì)算模型,它不是AlphaGo這種專為某一個(gè)領(lǐng)域而生的模型,而是面向所有領(lǐng)域、各種情況。
于是,Centaur——首個(gè)人類認(rèn)知基礎(chǔ)模型誕生了。
研究團(tuán)隊(duì)首先為之構(gòu)建了史上最大規(guī)模的人類行為數(shù)據(jù)集Psych-101,涵蓋160項(xiàng)心理學(xué)實(shí)驗(yàn),涉及60092名參與者、超1000萬次選擇,以及2億多個(gè)文本tokens。
數(shù)據(jù)集包含多臂老虎機(jī)、決策制定、記憶、邏輯推理、馬爾可夫決策過程等多種任務(wù)。
此外研究人員還將全部實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)化為自然語言形式,為不同實(shí)驗(yàn)范式提供統(tǒng)一表達(dá)格式。
而模型本身基于開源語言模型Llama 3.1 70B構(gòu)建,采用參數(shù)高效微調(diào)技術(shù)QLoRA(量化低秩適應(yīng))進(jìn)行訓(xùn)練。
具體而言是在凍結(jié)的4位量化基礎(chǔ)模型上,為所有非嵌入層添加秩為8的低秩適配器,最后新增參數(shù)僅占基礎(chǔ)模型的0.15%。
然后將模型置于Psych-101數(shù)據(jù)集上進(jìn)行微調(diào),使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),只專注聚焦在人類響應(yīng)token上。
值得注意的是,整個(gè)訓(xùn)練過程在A100 80GB GPU上,只耗時(shí)5天時(shí)間。
短短5天,一個(gè)通用的LLM模型就蛻變成了可以真正“讀懂”人類的認(rèn)知模型,甚至全面超越傳統(tǒng)模型。
超越傳統(tǒng)認(rèn)知模型
研究人員為了考驗(yàn)Centaur的認(rèn)知能力,設(shè)計(jì)了一系列實(shí)驗(yàn)驗(yàn)證。
首先是對(duì)人類行為的捕捉,判斷其能否精準(zhǔn)地預(yù)測(cè)人類行為。
實(shí)驗(yàn)將參與者分為90%的訓(xùn)練組和10%的測(cè)試組,負(fù)對(duì)數(shù)似然值作為衡量模型對(duì)人類選擇擬合度的指標(biāo)。
結(jié)果顯示,Centaur的負(fù)對(duì)數(shù)似然值為0.44,在擬合度上顯著優(yōu)于Llama的0.58。
在對(duì)未參與訓(xùn)練者的行為預(yù)測(cè)表現(xiàn)也優(yōu)于14種經(jīng)典認(rèn)知模型(如前景理論、強(qiáng)化學(xué)習(xí)模型),平均差異達(dá)0.13,且通過了顯著性檢驗(yàn)。
將模型自身響應(yīng)反饋給模型本身后,Centaur還表現(xiàn)出了多個(gè)與人類相似的行為特征,例如在兩步任務(wù)(Two-Step Task)中,它復(fù)現(xiàn)了與人類行為分布高度一致的軌跡。
此外還能區(qū)別人類與人工智能體的行為,預(yù)測(cè)人類行為準(zhǔn)確率高達(dá)64%,而預(yù)測(cè)人工智能體的行為準(zhǔn)確率只有35%。
基于描述選擇反應(yīng)時(shí)間與選項(xiàng)數(shù)量關(guān)系的希克定律,研究人員分析模型對(duì)人類反應(yīng)時(shí)間的預(yù)測(cè)能力。
結(jié)果表明,Centaur 的響應(yīng)熵所能解釋的反應(yīng)時(shí)間方差比例(條件 R2=0.87)高于 Llama(0.75)和領(lǐng)域特定模型(0.77),顯示出其在捕捉人類行為時(shí)間特征方面的優(yōu)勢(shì)。
其次,研究人員還重點(diǎn)探究了Centaur的泛化能力。
- 只修改故事背景,不改變?nèi)蝿?wù)內(nèi)容
實(shí)驗(yàn)將原來的“太空船尋寶”改為“魔毯探險(xiǎn)”的新故事后,Centaur在新故事場(chǎng)景下人類行為的預(yù)測(cè)負(fù)對(duì)數(shù)似然值,依舊顯著優(yōu)于Llama和領(lǐng)域特定認(rèn)知模型,說明Centaur不受任務(wù)表面描述變化影響。
- 修改任務(wù)結(jié)構(gòu)
在原來的兩臂老虎機(jī)實(shí)驗(yàn)上,新增成三臂,選擇加一,但Centaur的負(fù)對(duì)數(shù)似然值(0.42)依舊遠(yuǎn)低于 Llama(0.62)和領(lǐng)域特定模型(0.98),表明其能適應(yīng)任務(wù)結(jié)構(gòu)的擴(kuò)展與調(diào)整。
- 全新領(lǐng)域的任務(wù)
讓模型處理未包含在Psych-101數(shù)據(jù)集內(nèi)的邏輯推理任務(wù),Centaur 的負(fù)對(duì)數(shù)似然值(1.65)顯著低于 Llama(1.92),體現(xiàn)出微調(diào)后對(duì)全新認(rèn)知領(lǐng)域的預(yù)測(cè)能力依舊強(qiáng)力。
最后,研究人員還聚焦于Centaur與人類神經(jīng)活動(dòng)的對(duì)齊性,分析驗(yàn)證其內(nèi)部表征與人類大腦活動(dòng)的聯(lián)系。
實(shí)驗(yàn)讓94名參與者完成兩步任務(wù),并記錄下他們的fMRI數(shù)據(jù),通過分析,Centaur的各層表征對(duì)全腦區(qū)域神經(jīng)活動(dòng)的皮爾遜相關(guān)系數(shù)均顯著高于基礎(chǔ)模型Llama,且優(yōu)于傳統(tǒng)認(rèn)知模型和隨機(jī)初始化控制模型。
尤其在與獎(jiǎng)勵(lì)相關(guān)腦區(qū)(如伏隔核)和運(yùn)動(dòng)皮層,Centaur的預(yù)測(cè)表現(xiàn)更為突出,說明其擁有優(yōu)秀的人類神經(jīng)活動(dòng)預(yù)測(cè)能力。
另外在讓5名參與者閱讀1000個(gè)句子的語言理解任務(wù)中,Centaur中間層的表征預(yù)測(cè)效果最佳,包含最豐富信息,且在與語言處理相關(guān)的腦區(qū)表現(xiàn)最為穩(wěn)定。
實(shí)驗(yàn)說明,雖然Centaur在訓(xùn)練過程中沒有明確匹配神經(jīng)數(shù)據(jù),但在微調(diào)后卻出乎意料的和人類神經(jīng)活動(dòng)呈現(xiàn)出一致性。
據(jù)推測(cè),也許是模型內(nèi)部表征捕捉到了人類認(rèn)知加工的神經(jīng)基礎(chǔ)特征。
Centaur的出現(xiàn)證明了構(gòu)建計(jì)算模型實(shí)現(xiàn)跨領(lǐng)域捕捉人類行為是可行的。
未來它或許將作為 “計(jì)算望遠(yuǎn)鏡”,幫助研究者從從海量行為數(shù)據(jù)中提煉關(guān)鍵信息,為統(tǒng)一認(rèn)知理論的發(fā)展提供強(qiáng)有力的數(shù)據(jù)驅(qū)動(dòng)路徑。
正如作者在論文結(jié)尾所言:
是時(shí)候?qū)⑦@種通用計(jì)算模型,轉(zhuǎn)化為統(tǒng)一的人類認(rèn)知理論了。