AI知道你腦子里在想什么,還幫你畫(huà)了出來(lái),項(xiàng)目代碼已開(kāi)源
在科幻小說(shuō)《三體》中,企圖占領(lǐng)地球的三體人被賦予了一個(gè)很獨(dú)特的設(shè)定:通過(guò)腦電波共享信息,彼此之間思維透明、不善陰謀。在他們那里,想和說(shuō)是同一個(gè)詞。而人類(lèi)則利用自身思維不透明的特性想出了「面壁計(jì)劃」,最終成功騙過(guò)三體人,取得了階段性勝利。
那么問(wèn)題來(lái)了,人類(lèi)的思維真的是完全不透明的嗎?隨著一些技術(shù)手段的出現(xiàn),這個(gè)問(wèn)題的答案似乎沒(méi)有那么絕對(duì)了。很多研究者都在嘗試解碼人類(lèi)思維的奧秘,將一些大腦中的信號(hào)解碼為文字、圖像等信息。
最近,兩個(gè)研究團(tuán)隊(duì)同時(shí)在圖像解碼方向取得了重要進(jìn)展,而且相關(guān)論文都被 CVPR 2023接收了。
第一個(gè)團(tuán)隊(duì)來(lái)自大阪大學(xué),他們使用最近非?;鸬?Stable Diffusion,能從功能磁共振成像 (fMRI) 獲得的人腦活動(dòng)圖像中重建大腦活動(dòng)中的高分辨率、高精準(zhǔn)圖像(參見(jiàn)《Stable Diffusion 讀你大腦信號(hào)就能重現(xiàn)圖像,研究還被 CVPR 接收了》)。
巧合的是,幾乎同一時(shí)間,來(lái)自新加坡國(guó)立大學(xué)、香港中文大學(xué)和斯坦福大學(xué)的華人團(tuán)隊(duì)也做出了類(lèi)似的成果。他們開(kāi)發(fā)了一款名為「MinD-Vis」的人類(lèi)視覺(jué)解碼器,通過(guò)預(yù)訓(xùn)練的一個(gè) mask modeling 和 latent diffusion model,能從 fMRI 數(shù)據(jù)中直接解碼出人類(lèi)視覺(jué)刺激。它生成的這些圖像不僅有合理的細(xì)節(jié),而且還準(zhǔn)確地呈現(xiàn)了圖像的語(yǔ)義和特征(如紋理和形狀)。目前,這項(xiàng)研究的代碼已經(jīng)開(kāi)源。
論文題目:Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding
- 論文鏈接:http://arxiv.org/abs/2211.06956
- 代碼鏈接:https://github.com/zjc062/mind-vis
- 項(xiàng)目鏈接:https://mind-vis.github.io/
接下來(lái)我們將詳細(xì)介紹這篇論文。
研究概覽
「所見(jiàn)即所思」。
人類(lèi)的感知和先前知識(shí)在大腦中有著密切的關(guān)聯(lián),我們對(duì)世界的感知不僅受到客觀刺激的影響,也受到我們的經(jīng)驗(yàn)影響,這些影響形成了復(fù)雜的大腦活動(dòng)。理解這些大腦活動(dòng)并解碼信息是認(rèn)知神經(jīng)科學(xué)的重要目標(biāo)之一,其中解碼視覺(jué)信息是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
功能性磁共振成像 (fMRI) 是一種常用的非侵入性且有效的方法,可以用于恢復(fù)視覺(jué)信息,如圖像類(lèi)別。
MinD-Vis 的目的是探索使用深度學(xué)習(xí)模型直接從 fMRI 數(shù)據(jù)中解碼視覺(jué)刺激的可能性。
以往的方法直接從 fMRI 數(shù)據(jù)中解碼復(fù)雜神經(jīng)活動(dòng)時(shí),存在缺乏 {fMRI - 圖像} 配對(duì)和有效的生物學(xué)指導(dǎo)的問(wèn)題,所以重建的圖像通常模糊且在語(yǔ)義上無(wú)意義。因此,有效地學(xué)習(xí) fMRI 表征是一項(xiàng)重要的挑戰(zhàn),這有助于建立大腦活動(dòng)與視覺(jué)刺激之間的聯(lián)系。
此外,個(gè)體變異性使問(wèn)題更加復(fù)雜,我們需要從大型數(shù)據(jù)集中學(xué)習(xí)表征,并且放寬從 fMRI 生成條件合成的限制。
因此,作者認(rèn)為使用自監(jiān)督學(xué)習(xí) (Self-supervised learning with pre-text task) 加上大規(guī)模生成模型可以使模型在相對(duì)較小的數(shù)據(jù)集上微調(diào)后具有上下文知識(shí)和令人驚嘆的生成能力。
在上述分析的驅(qū)動(dòng)下,MinD-Vis 提出了人類(lèi)視覺(jué)解碼的掩碼信號(hào)建模與雙條件潛在擴(kuò)散模型,具體貢獻(xiàn)如下:
- 提出了 Sparse Coded-Masked Brain Modeling(SC-MBM),作為受生物學(xué)指導(dǎo)的有效視覺(jué)解碼大腦特征預(yù)訓(xùn)練學(xué)習(xí)器。
- 通過(guò)增加雙條件潛在擴(kuò)散模型(DC-LDM),在相同語(yǔ)義下強(qiáng)化了解碼一致性,同時(shí)允許生成方差。
- 結(jié)合 SC-MBM 的表示能力和 DC-LDM 的生成能力,MinD-Vis 生成的圖像在保留語(yǔ)義信息的同時(shí)更加合理。
- 在多個(gè)數(shù)據(jù)集上進(jìn)行了定量和定性測(cè)試。
與過(guò)往的方法進(jìn)行對(duì)比 – 生成質(zhì)量
與過(guò)往的方法進(jìn)行對(duì)比 – 評(píng)判指標(biāo)的定量對(duì)比
自監(jiān)督學(xué)習(xí) + 大規(guī)模生成模型
由于收集 {fMRI - 圖像} 配對(duì)非常昂貴且耗時(shí),這個(gè)任務(wù)一直存在缺乏數(shù)據(jù)標(biāo)注的問(wèn)題。另外,每個(gè)數(shù)據(jù)集、每個(gè)個(gè)體的數(shù)據(jù)都會(huì)存在一定的域偏移。
在這個(gè)任務(wù)中,研究人員的目標(biāo)是建立大腦活動(dòng)與視覺(jué)刺激之間的聯(lián)系,并由此生成相應(yīng)的圖像信息。
為此,他們使用了自監(jiān)督學(xué)習(xí)和大規(guī)模生成模型。他們認(rèn)為這種方法可以使模型在相對(duì)較小的數(shù)據(jù)集上進(jìn)行微調(diào),并獲得上下文知識(shí)和令人驚嘆的生成能力。
MinD-Vis 框架
接下來(lái)將詳細(xì)介紹 MinD-Vis 框架,并介紹設(shè)計(jì)的理由和思路。
fMRI 數(shù)據(jù)有這些特點(diǎn)和問(wèn)題:
- fMRI 用 3D 體素(voxel)來(lái)測(cè)量大腦血氧水平相關(guān)(BOLD)的變化,來(lái)觀測(cè)大腦活動(dòng)變化。鄰近體素的幅度通常相似,表明 fMRI 數(shù)據(jù)中存在空間冗余。
- 在計(jì)算 fMRI 數(shù)據(jù)時(shí),通常會(huì)提取 Region of Interest (ROI) 并把數(shù)據(jù)打成 1D vector。在這個(gè)任務(wù)里,只提取大腦 visual cortex 的信號(hào),因此,體素的數(shù)量(約為 4000)遠(yuǎn)比圖像里像素點(diǎn)的數(shù)量(256*256*3)少,這樣的數(shù)據(jù)在緯度方面和通常處理圖像數(shù)據(jù)的方式存在相當(dāng)?shù)牟罹唷?/span>
- 由于個(gè)體差異,實(shí)驗(yàn)設(shè)計(jì)的差異,腦信號(hào)的復(fù)雜程度,每個(gè)數(shù)據(jù)集、每個(gè)個(gè)體的數(shù)據(jù)都會(huì)存在一定的域偏移。
- 對(duì)于一個(gè)固定的視覺(jué)刺激,研究者希望模型還原的圖像在語(yǔ)義上一致;但由于個(gè)體差異,每個(gè)人看到這個(gè)視覺(jué)刺激的反應(yīng)不同,研究者又希望模型有一定的方差和靈活性。
為了解決這些問(wèn)題, MinD-Vis 包含兩個(gè)階段:
- 利用大規(guī)模的 fMRI 數(shù)據(jù)集來(lái)訓(xùn)練 Masked Autoencoder,來(lái)學(xué)習(xí) fMRI representation。
- 將預(yù)訓(xùn)練好的 fMRI encoder 與 LDM 通過(guò) cross-attention conditioning 和 time-step conditioning 相集成進(jìn)行 double conditioning,以進(jìn)行條件合成。然后,通過(guò)使用配對(duì)的 {fMRI, Image} 來(lái)共同 finetune LDM 中的 cross attention head。
下面將在這里詳細(xì)介紹這兩步。
MinD-Vis Overview?
(A)Sparse-Coded Masked Brain Modeling (SC-MBM) (MinD-Vis Overview 左)
由于 fMRI 空間信息冗余,即使大部分被遮蓋,fMRI 數(shù)據(jù)仍然可以恢復(fù)。因此,在 MinD-Vis 的第一階段,為了節(jié)省計(jì)算時(shí)間,大部分 fMRI 數(shù)據(jù)被遮蓋了。這里,作者使用了類(lèi)似于 Masked Autoencoder 的做法:
- 將 fMRI voxels 劃分成 patches
- 使用有等于 patches 大小的步長(zhǎng)的 1D 卷積層轉(zhuǎn)換成 embedding
- 把剩余的 fMRI patch 加入 positional embedding 后作為 vision transformer 的輸入
- 解碼得到重建的數(shù)據(jù)
- 計(jì)算重建的數(shù)據(jù)與原數(shù)據(jù)的 loss
- 通過(guò)反向傳播優(yōu)化模型,使得重建的數(shù)據(jù)盡可能地與原數(shù)據(jù)相似
- 重復(fù) 2-6 的步驟,訓(xùn)練出最終模型
SC-MBM 能有效還原被掩蓋的 fMRI 信息
這個(gè)設(shè)計(jì)和 Masked Autoencoder 有什么區(qū)別?
- 當(dāng) mask modelling 應(yīng)用于自然圖像時(shí),模型一般使用等于或略大于 1 的 embedding-to-patch-size ratio。
- 在這個(gè)任務(wù)中,作者使用了比較大的 embedding-to-patch-size ratio,這能顯著提高信息容量,為 fMRI 創(chuàng)建了大的表征空間,這種設(shè)計(jì)也對(duì)應(yīng)于大腦中信息的稀疏編碼*。
SC-MBM 的消融實(shí)驗(yàn)
(B)Double-Conditioned LDM (DC-LDM) (MinD-Vis Overview 右)
在 Stage A 中進(jìn)行了 large-scale context learning 之后,fMRI encoder 可以將 fMRI 數(shù)據(jù)轉(zhuǎn)換為具有局部性約束的 sparse representation。在這里,作者將解碼任務(wù)表述為條件生成問(wèn)題,并使用預(yù)訓(xùn)練的 LDM 來(lái)解決此問(wèn)題。
- LDM 在圖像的潛在空間上操作,fMRI 數(shù)據(jù) z 作為條件信息,目標(biāo)是學(xué)習(xí)通過(guò)反向擴(kuò)散過(guò)程形成圖像。
- 在圖像生成任務(wù)中,多樣性和一致性是相反的目標(biāo),fMRI 到圖像更依賴(lài)于生成一致性。
- 為了確保生成一致性,作者將 cross attention conditioning 和 time step conditioning 相結(jié)合,并在 UNet 的中間層使用帶有 time embedding 的條件機(jī)制。
- 他們進(jìn)一步把優(yōu)化目標(biāo)式重新表述為雙重調(diào)節(jié)交替式。
我們通過(guò)多次解碼不同隨機(jī)狀態(tài)的圖像證明了我們方法的穩(wěn)定性。
微調(diào)
在 fMRI encoder 通過(guò) SC-MBM 預(yù)訓(xùn)練后,它與預(yù)先訓(xùn)練的 LDM 通過(guò) double conditioning 整合在一起。在這里,作者:
- 將 encoder 的輸出使用卷積層合并到 latent dimension 中;
- 聯(lián)合優(yōu)化 fMRI encoder、cross attention heads 和 projection heads,其他部分固定;
- 微調(diào) cross attention heads 是連接 pre-trained conditioning space 和 fMRI latent space 的關(guān)鍵;
- 在通過(guò) fMRI 圖像對(duì)端到端進(jìn)行微調(diào)的過(guò)程中,通過(guò) large-capacity fMRI representations 將學(xué)到 fMRI 和圖像特征之間更清晰的聯(lián)系。
DC-LDM 的消融實(shí)驗(yàn)?
額外細(xì)節(jié)
意外的是,MinD-Vis 可以解碼出一些在 ground truth 圖像里并不實(shí)際存在,但與圖片內(nèi)容十分相關(guān)的細(xì)節(jié)。比如說(shuō),當(dāng)圖片是自然風(fēng)景時(shí),MinD-Vis 解碼出了河流和藍(lán)天;在提供房屋時(shí),MinD-Vis 解碼出了相似的室內(nèi)裝飾。這既有好處又有壞處。好處在于,這說(shuō)明我們能夠解碼出想象到的內(nèi)容;壞處在于,這可能會(huì)影響對(duì)解碼結(jié)果的評(píng)估。
喜聞樂(lè)見(jiàn)的翻車(chē)集錦
作者認(rèn)為,在訓(xùn)練樣本數(shù)量較少的情況下,刺激的解碼難度會(huì)有所不同。例如,GOD 數(shù)據(jù)集包含的動(dòng)物訓(xùn)練樣本比服裝多。這意味著一個(gè)語(yǔ)義上類(lèi)似于 “毛茸茸” 的詞更可能被解碼為動(dòng)物而不是服裝,如上圖所示,其中一只襪子被解碼為一只羊。
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集
在這里,作者用了三個(gè)公開(kāi)數(shù)據(jù)集。
- 第一階段的預(yù)訓(xùn)練:用了 Human Connectome Project,它提供 136,000 個(gè) fMRI 數(shù)據(jù)片段,沒(méi)有圖像,只有 fMRI。
- 微調(diào) Encoder 和第二階段的生成模型:用了 Generic Object Decoding Dataset (GOD) 和 Brain, Object, Landscape Dataset (BOLD5000) 數(shù)據(jù)集。這兩個(gè)數(shù)據(jù)集分別提供了 1250 張和 5254 張 {fMRI, Image} 配對(duì),其中,分別取了 50 張和 113 張作為測(cè)試集。
模型結(jié)構(gòu)
本文模型結(jié)構(gòu)的設(shè)計(jì)(ViT 和擴(kuò)散模型)主要是參照過(guò)去的文獻(xiàn)。模型參數(shù)細(xì)節(jié)請(qǐng)參照正文。同樣地,他們也采用了一種不對(duì)稱(chēng)的體系結(jié)構(gòu):編碼器旨在學(xué)習(xí)有意義的 fMRI 表示,而解碼器試圖預(yù)測(cè)被遮蓋的塊。因此,我們遵循以前的設(shè)計(jì),使解碼器更小,預(yù)訓(xùn)練后我們將其舍棄。
評(píng)判指標(biāo)
跟過(guò)往的文獻(xiàn)一樣,作者也使用了 n-way top-1 和 top-5 分類(lèi)準(zhǔn)確率來(lái)評(píng)估結(jié)果的語(yǔ)義正確性。這是一種在多次試驗(yàn)中,通過(guò)計(jì)算 n-1 個(gè)隨機(jī)選擇的類(lèi)別和正確類(lèi)別的 top-1 和 top-5 分類(lèi)準(zhǔn)確率來(lái)評(píng)估結(jié)果的方法。與先前的方法不同,他們?cè)谶@里采用了更直接、可復(fù)制的評(píng)估方法,即使用預(yù)訓(xùn)練的 ImageNet1K 分類(lèi)器來(lái)判斷生成圖像的語(yǔ)義正確性,而不是使用 handcrafted features。此外,他們還使用了 Fréchet inception distance(FID)作為參考來(lái)評(píng)估生成圖像的質(zhì)量。但是,由于數(shù)據(jù)集中圖像數(shù)量有限,因此 FID 可能無(wú)法完美地評(píng)估圖像分布。
效果
這篇文章的實(shí)驗(yàn)是在個(gè)體水平上進(jìn)行的,即模型在同一個(gè)個(gè)體上進(jìn)行訓(xùn)練和測(cè)試。為了與之前的文獻(xiàn)進(jìn)行比較,在這里報(bào)告了 GOD 數(shù)據(jù)集第三位被試的結(jié)果,并在附錄中列出了其他被試的結(jié)果。
寫(xiě)在最后
通過(guò)這個(gè)項(xiàng)目,作者展示了通過(guò) fMRI 還原人腦視覺(jué)信息的可行性。然而,這個(gè)領(lǐng)域有很多問(wèn)題需要解決,例如如何更好地處理個(gè)體之間的差異性,如何減少噪聲和干擾對(duì)解碼的影響,如何將 fMRI 解碼與其他神經(jīng)科學(xué)技術(shù)結(jié)合起來(lái),以更全面地理解人類(lèi)大腦的機(jī)制和功能。同時(shí),我們也需要更好地了解和尊重人類(lèi)大腦和個(gè)體隱私方面的倫理和法律問(wèn)題。
此外,我們還需要探索更廣泛的應(yīng)用場(chǎng)景,例如醫(yī)學(xué)和人機(jī)交互等領(lǐng)域,以便將這項(xiàng)技術(shù)轉(zhuǎn)化為實(shí)際應(yīng)用。在醫(yī)學(xué)領(lǐng)域,fMRI 解碼技術(shù)未來(lái)可能可以被用來(lái)幫助視覺(jué)障礙人士、聽(tīng)覺(jué)障礙人士、甚至全身癱瘓患者等特殊群體來(lái)解碼出他們的想法。這些人由于身體上的障礙,無(wú)法通過(guò)傳統(tǒng)的交流方式來(lái)表達(dá)自己的思想和意愿。通過(guò)使用 fMRI 技術(shù),科學(xué)家們可以解碼他們的大腦活動(dòng),從而獲取他們的想法和意愿,進(jìn)而與他們進(jìn)行更加自然和高效的交流。在人機(jī)交互領(lǐng)域,fMRI 解碼技術(shù)可以被用來(lái)開(kāi)發(fā)更加智能和自適應(yīng)的人機(jī)界面和控制系統(tǒng),例如通過(guò)解碼用戶(hù)的大腦活動(dòng)來(lái)實(shí)現(xiàn)更加自然和高效的人機(jī)交互體驗(yàn)。
我們相信,在大規(guī)模數(shù)據(jù)集 + 大模型 + 算力的加持下,fMRI 解碼將會(huì)有更加廣泛和深遠(yuǎn)的影響,推動(dòng)認(rèn)知神經(jīng)科學(xué)和人工智能領(lǐng)域的發(fā)展。
注:*使用稀疏編碼在腦中學(xué)習(xí)視覺(jué)刺激表示的生物學(xué)基礎(chǔ):稀疏編碼曾被提出來(lái)作為感覺(jué)信息表征的一種策略。研究表明,視覺(jué)刺激在視覺(jué)皮層中被稀疏編碼,這樣可以增加信息傳輸效率并減少腦中的冗余。使用 fMRI 可以從視覺(jué)皮層收集的少量數(shù)據(jù)中重建自然場(chǎng)景的視覺(jué)內(nèi)容。稀疏編碼可能是計(jì)算機(jī)視覺(jué)中編碼的有效方式。文章中提到了 SC-MBM 方法,它將 fMRI 數(shù)據(jù)分成小塊來(lái)引入局部性約束,然后將每個(gè)小塊稀疏編碼成高維向量空間,這樣可以作為生物學(xué)上有效且高效的腦特征學(xué)習(xí)器,用來(lái)進(jìn)行視覺(jué)編碼解碼。