神經(jīng)驅(qū)動的圖像編輯:結(jié)合腦機(jī)接口與擴(kuò)散模型的創(chuàng)新方法
傳統(tǒng)的圖像編輯需要用戶具備專業(yè)的技術(shù)知識和大量的手動操作能力。近年來,雖然生成模型的發(fā)展使得基于指令的圖像編輯變得更加高效,但這些方法仍然依賴于用戶輸入大量的文本提示、視覺參考或物理操作,在很大程度上限制了圖像編輯的效率和可訪問性。
為了突破這一瓶頸,研究人員開始探索利用腦機(jī)接口(BCI)技術(shù)來實現(xiàn)圖像編輯。BCI技術(shù)通過直接解碼大腦信號,為用戶與設(shè)備之間的交互提供了一種全新的方式。但以往的研究大多僅限于單一模態(tài)數(shù)據(jù),無法滿足復(fù)雜編輯場景下對用戶意圖的精準(zhǔn)捕捉。
浙江大學(xué)、新加坡國立大學(xué)等高校聯(lián)合發(fā)布了LoongX,通過整合多模態(tài)神經(jīng)生理信號(包括EEG、fNIRS、PPG和頭動信號),并結(jié)合先進(jìn)的擴(kuò)散模型和對比學(xué)習(xí)技術(shù),實現(xiàn)了從用戶神經(jīng)意圖到圖像編輯的無縫轉(zhuǎn)換。

CS3編碼器是LoongX系統(tǒng)中負(fù)責(zé)從多模態(tài)神經(jīng)信號中提取特征的關(guān)鍵組件。其設(shè)計目標(biāo)是從復(fù)雜的神經(jīng)信號中提取出能夠有效表征用戶意圖的特征,同時確保這些特征能夠適應(yīng)不同長度的輸入信號。為了實現(xiàn)這一目標(biāo),CS3編碼器采用了自適應(yīng)特征金字塔和結(jié)構(gòu)化的狀態(tài)空間模型(S3M)。
在特征提取過程中,CS3編碼器首先將輸入信號通過一個自適應(yīng)平均池化(AAP)模塊,生成不同尺度的特征金字塔。這一過程類似于在不同分辨率下觀察同一信號,從而捕捉到信號中的多尺度信息。
以EEG信號為例,經(jīng)過多層AAP處理后,可以得到一系列不同分辨率的特征表示。這些特征金字塔不僅保留了信號的細(xì)節(jié)信息,還能夠提供更宏觀的信號模式,為后續(xù)的特征融合提供了豐富的信息基礎(chǔ)。

為了進(jìn)一步捕捉神經(jīng)信號中動態(tài)的時空模式,CS3編碼器采用了結(jié)構(gòu)化的狀態(tài)空間模型(S3M)。S3M是一種能夠高效處理長序列信號的模型,它通過分別對時間和通道信息進(jìn)行編碼,實現(xiàn)了對信號的全面分析。
輸入信號經(jīng)過填充和排列后,分別通過兩個并行的S3M塊進(jìn)行處理。這兩個S3M塊分別關(guān)注信號的時間模式和通道動態(tài),從而實現(xiàn)對信號的全面編碼。通過這種設(shè)計,CS3編碼器不僅能夠捕捉到信號中的短期動態(tài)變化,還能夠理解信號在更長時間尺度上的演變趨勢。
在特征融合階段,CS3編碼器將多尺度特征和時空特征沿著通道維度進(jìn)行合并,并通過自適應(yīng)非線性投影(ANP)模塊進(jìn)行投影,得到最終的特征表示。ANP模塊由兩層全連接層、層歸一化(LayerNorm)、ReLU激活函數(shù)和Dropout組成,能夠?qū)喜⒑蟮奶卣鬟M(jìn)行進(jìn)一步的非線性變換,從而提取出更具代表性的特征。
最終,CS3編碼器輸出的特征不僅保留了輸入信號的關(guān)鍵信息,還能夠適應(yīng)不同長度的輸入信號,為后續(xù)的特征融合和圖像編輯提供了堅實的基礎(chǔ)。

動態(tài)門控融合(DGF)則是LoongX系統(tǒng)中用于將不同模態(tài)的特征進(jìn)行融合的關(guān)鍵所在。其主要功能是將來自不同模態(tài)的特征,例如,EEG、fNIRS、PPG和頭動信號動態(tài)地結(jié)合在一起,生成一個統(tǒng)一的潛在空間表示,并將其與文本嵌入進(jìn)行對齊。
在門控混合階段,DGF模塊計算輸入內(nèi)容嵌入和條件嵌入的實例均值和方差。這些統(tǒng)計量用于評估每個通道的信息含量和噪聲水平。通過一個一維門控網(wǎng)絡(luò),DGF模塊為每個通道計算一個權(quán)重,這些權(quán)重用于自適應(yīng)地混合統(tǒng)計信息。具體來說,門控網(wǎng)絡(luò)會根據(jù)每個通道的信息含量動態(tài)調(diào)整其權(quán)重,從而強(qiáng)調(diào)信息豐富的通道,抑制噪聲較大的通道。這種動態(tài)調(diào)整機(jī)制使得DGF模塊能夠根據(jù)輸入信號的特性靈活地選擇重要的特征信息。

接下來,在自適應(yīng)仿射調(diào)制階段,DGF模塊對條件特征進(jìn)行全局平均池化,生成一個全局特征表示。這個全局特征被傳遞到一個仿射網(wǎng)絡(luò)中,生成兩個仿射系數(shù)。這兩個系數(shù)用于對歸一化后的內(nèi)容特征進(jìn)行調(diào)制,從而實現(xiàn)對特征的動態(tài)調(diào)整。通過這種方式,DGF模塊能夠根據(jù)條件特征的全局信息對內(nèi)容特征進(jìn)行有針對性的調(diào)整,進(jìn)一步優(yōu)化特征表示。
在動態(tài)掩碼階段,DGF模塊計算條件特征的通道重要性分?jǐn)?shù),并選擇其中最重要的幾個通道。通過應(yīng)用一個二進(jìn)制掩碼,可以將不重要的通道信息過濾掉,從而提高特征的魯棒性和有效性。這種動態(tài)掩碼機(jī)制不僅能夠去除噪聲信息,還能夠保留對圖像編輯任務(wù)最有幫助的特征,進(jìn)一步提升模型的性能。
































