動腦就能P圖!LoongX重磅突破:首個「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!
論文鏈接:https://arxiv.org/pdf/2507.05397
主頁鏈接:https://loongx1.github.io/
亮點直擊
- L-Mind:一個多模態(tài)數(shù)據(jù)集,包含 23,928 對圖像編輯樣本,配套采集了在自然環(huán)境下的腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、動作和語音信號。
- LoongX:一種新穎的神經(jīng)驅(qū)動圖像編輯方法,結(jié)合了 CS3 和 DGF 模塊,用于高效的特征提取和多模態(tài)信息融合(效果見下圖 1)。
- 大量實驗證實多模態(tài)神經(jīng)信號的有效性,并深入分析了各模態(tài)的特定貢獻及其與語音輸入之間的協(xié)同作用。
總結(jié)速覽
解決的問題
傳統(tǒng)圖像編輯依賴手動提示,存在以下問題:
- 操作復(fù)雜、勞動強度大;
- 對于運動能力或語言能力受限的人群不友好;
- 缺乏自然直觀的人機交互方式。
提出的方案
LoongX:一種基于多模態(tài)神經(jīng)生理信號的免手圖像編輯方法,主要特點包括:
- 利用腦機接口(BCI)獲取用戶意圖;
- 通過多模態(tài)信號(EEG、fNIRS、PPG、頭部動作、語音)驅(qū)動圖像編輯;
- 結(jié)合跨尺度狀態(tài)空間(CS3)和動態(tài)門控融合(DGF)模塊,實現(xiàn)高效特征提取與信息融合;
- 在擴散模型(DiT)基礎(chǔ)上微調(diào)以對齊圖像編輯語義。
應(yīng)用的技術(shù)
- 多模態(tài)神經(jīng)信號采集:包括腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、頭部動作和語音信號;
- CS3 模塊:提取不同模態(tài)中具有區(qū)分性的特征;
- DGF 模塊:實現(xiàn)多模態(tài)特征的動態(tài)融合;
- 擴散Transformer(DiT):作為圖像生成的核心模型,通過微調(diào)實現(xiàn)語義對齊;
- 對比學(xué)習(xí):預(yù)訓(xùn)練編碼器,將認(rèn)知狀態(tài)與自然語言語義對齊;
- 大規(guī)模數(shù)據(jù)集 L-Mind:包含 23,928 對圖像編輯樣本及其對應(yīng)的多模態(tài)神經(jīng)信號。
達(dá)到的效果
- LoongX 在圖像編輯任務(wù)中表現(xiàn)優(yōu)異,性能可與文本驅(qū)動方法媲美,甚至在與語音結(jié)合時超過現(xiàn)有方法:
- CLIP-I:LoongX 0.6605 vs. 文本基線 0.6558;
- DINO:LoongX 0.4812 vs. 文本基線 0.4636;
- CLIP-T(結(jié)合語音):LoongX 0.2588 vs. 文本基線 0.2549;
- 實驗驗證了多模態(tài)神經(jīng)信號在圖像編輯中的有效性;
- 分析了各模態(tài)信號的貢獻及其與語音輸入的協(xié)同作用;
- 展示了神經(jīng)驅(qū)動生成模型在提升圖像編輯可達(dá)性和自然交互方面的潛力;
- 為認(rèn)知驅(qū)動的創(chuàng)意技術(shù)打開了新的研究方向。
數(shù)據(jù)集
數(shù)據(jù)采集
從 12 位參與者處收集了 23,928 個編輯樣本(22,728 個用于訓(xùn)練,1,200 個用于測試),使用的設(shè)置如下圖 2 所示。參與者佩戴我們的多模態(tài)傳感器,在 25 英寸顯示器上(分辨率:1980 × 1080)查看來自 SEED-Data-Edit 的圖文對。所測得的 EEG、fNIRS 和 PPG 生理信號通過藍(lán)牙 5.3 實時傳輸,并通過專有 Lab Recorder 軟件中的 lab streaming layer 進行同步和對齊。參與者同時朗讀所顯示的編輯指令,以提供語音信號。
實驗在一個安靜、溫度控制的房間內(nèi)進行(24°C,濕度恒定),每天上午 9 點開始。EEG 信號通過非侵入式水凝膠電極采集,每五小時更換一次電極以保持信號質(zhì)量。實驗室遮光以防止陽光干擾 fNIRS 和 PPG 信號。每次實驗由參與者自主控制音頻錄制的開始和結(jié)束,并以圖像名稱標(biāo)記。非活動時間段的數(shù)據(jù)被排除。
每次實驗(上圖 2)由用戶啟動的音頻錄制開始和結(jié)束,并以圖像配對標(biāo)記。每對圖像后有 1 秒的交叉注視,每 100 張圖像后安排一次休息。共有 12 名健康的大學(xué)生參與(6 名女性,6 名男性;平均年齡:24.5 ± 2.5 歲),視力正?;虺C正正常。所有參與者均簽署了知情同意書,并獲得了經(jīng)濟補償。本研究已獲得相應(yīng)機構(gòu)倫理委員會的正式批準(zhǔn)。
數(shù)據(jù)預(yù)處理
EEG:四個 EEG 通道(Pz、Fp2、Fpz、Oz;采樣率為 250 Hz)經(jīng)過帶通濾波(1–80 Hz)和陷波濾波(48–52 Hz),以去除漂移、噪聲和電源干擾。Fp2 和 Fpz 中的眼動偽跡被保留,以捕捉眼動信息。
fNIRS:六通道 fNIRS 信號(波長為 735 nm 和 850 nm)根據(jù)修正的 Beer–Lambert 定律轉(zhuǎn)換為相對血紅蛋白濃度變化(HbO、HbR、HbT)。光密度變化計算公式為:
濃度變化計算如下:
PPG 和運動:四通道 PPG 信號(735 nm,850 nm)通過自適應(yīng)平均池化在每個半球內(nèi)取平均,并經(jīng)過濾波(0.5–4 Hz)以提取反映心率變異性的心臟相關(guān)血流動力學(xué)信號。來自六軸傳感器(12.5 Hz)的運動數(shù)據(jù)捕捉三軸線性加速度和角速度,用于表征頭部運動。
方法
如下圖 3 所示,LoongX 從多種神經(jīng)信號中提取多模態(tài)特征,并以成對方式將其融合到共享隱空間中。使用擴散Transformer(Diffusion Transformer,DiT),原始圖像在融合特征的條件下被轉(zhuǎn)換為編輯后的圖像。圍繞三個研究問題,我們進行了一個多標(biāo)簽分類實驗,結(jié)果顯示 EEG 比噪聲高出 20%,而融合所有信號可獲得最高的 F1 分?jǐn)?shù)。將神經(jīng)信號與文本結(jié)合可實現(xiàn)最佳的 mAP,驗證了模態(tài)間的互補性。輸入長度為 8,192 時性能最佳,但計算成本更高,這推動了我們框架的設(shè)計:用于長序列的跨尺度狀態(tài)空間編碼器和用于特征整合的動態(tài)門控融合模塊。
跨尺度狀態(tài)空間編碼
CS3 編碼器使用自適應(yīng)特征金字塔從多種信號中提取多尺度特征。為了進一步捕捉超越固定金字塔的動態(tài)時空模式,CS3 使用結(jié)構(gòu)化狀態(tài)空間模型(S3M)以線性復(fù)雜度高效地編碼長序列。為控制成本,它采用跨特征機制分別編碼時間和通道信息。
交叉金字塔聚合:編碼器沿通道維度融合多尺度和時間流,結(jié)果為:
動態(tài)門控多模態(tài)融合
提出了動態(tài)門控融合(Dynamic Gated Fusion,DGF)模塊,用于將一對內(nèi)容嵌入和條件嵌入動態(tài)綁定到統(tǒng)一的隱空間中,并進一步與文本嵌入對齊。DGF 包括門控混合、自適應(yīng)仿射調(diào)制以及動態(tài)掩碼模塊。
條件擴散
預(yù)訓(xùn)練與微調(diào)
采用一個兩階段的過程:1)神經(jīng)信號編碼器(EEG 是最重要的)在神經(jīng)-文本語料庫上進行預(yù)訓(xùn)練,壓縮公共數(shù)據(jù)和 L-Mind;2)整個系統(tǒng)可選地使用原始圖像與真實編輯圖像對進行微調(diào)。
預(yù)訓(xùn)練。信號編碼器通過使用大規(guī)模認(rèn)知數(shù)據(jù)集和 L-Mind 進行預(yù)訓(xùn)練,以與語義嵌入對齊。CS3 編碼器(分別為 EEG + PPG 和 fNIRS + Motion)通過對稱的 NT-Xent 損失與凍結(jié)的文本嵌入對齊:
實驗
為回答第 1 節(jié)中提出的每個研究問題(RQ),在 L-Mind 的測試集上全面評估了 LoongX 在神經(jīng)驅(qū)動圖像編輯方面的能力。實驗設(shè)置、指標(biāo)來自于 [51]。選擇 OminiControl 作為基線方法,因為它支持基于 DiTs 的文本條件圖像編輯。
神經(jīng)信號的可靠性
模態(tài)貢獻的消融研究
細(xì)分分析:神經(jīng)條件 vs. 語言條件
回答 RQ3:神經(jīng)信號在低層次視覺編輯中表現(xiàn)出色,而語言在高層次語義方面更具優(yōu)勢;兩者結(jié)合可實現(xiàn)最有效的混合控制。如下圖 6 所示,神經(jīng)信號(N)在更直觀的任務(wù)中尤為有效,如全局紋理編輯(更高的 CLIP-I),反映出較強的視覺可辨識性和結(jié)構(gòu)一致性。在對象編輯中,神經(jīng)信號在對象移除方面比其他方法更具能力,展示了其在傳達(dá)直觀意圖方面的優(yōu)勢,盡管在處理復(fù)雜語義方面仍有局限。相比之下,文本指令(T)在高層語義任務(wù)中(例如“恢復(fù)”)本質(zhì)上更強,突顯其在語義對齊方面的優(yōu)勢。當(dāng)兩者結(jié)合時,神經(jīng)信號和語音(N+S)輸入實現(xiàn)了最佳語義對齊(CLIP-T: 0.2588),展示了混合條件在捕捉復(fù)雜用戶意圖方面的卓越效果。
模型架構(gòu)的消融研究
LoongX 的每個架構(gòu)組件都有其獨特貢獻,尤其是在預(yù)訓(xùn)練的輔助下,其組合釋放了全面的性能潛力。下表 2 中的消融研究在融合所有信號和語音的設(shè)置下進行,探索每個提出模塊的影響。CS3 編碼器通過提取的特征增強了特征的完整性和平滑性,減少了像素級誤差(L2 降低了 5%),而 DGF 主要增強了與文本指令的語義對齊(CLIP-T 提升:3.5%)。在預(yù)訓(xùn)練的輔助下,LoongX 達(dá)到最優(yōu)性能,表明魯棒的多模態(tài)對齊和結(jié)構(gòu)化表示學(xué)習(xí)在最大化編輯性能中的重要作用。
定性分析與局限性
定性示例證實了 LoongX 的直觀編輯能力,其局限性主要出現(xiàn)在抽象或模糊的復(fù)雜意圖中。下圖 7 中的定性結(jié)果表明,神經(jīng)信號驅(qū)動的編輯能夠有效處理視覺和結(jié)構(gòu)修改,如背景替換和全局調(diào)整。然而,融合神經(jīng)與語言的方法更能捕捉涉及抽象語義的細(xì)致指令(例如“修改文本信息”)。盡管取得了顯著進展,實體一致性(例如下圖 7(b) 中小女孩的風(fēng)格)仍是當(dāng)前編輯模型的局限。此外,高度抽象或模糊的指令有時仍構(gòu)成挑戰(zhàn)(例如“下圖 11 中的帶翅膀的白色動物”以及下圖 14 中展示的多個失敗案例),這表明在神經(jīng)數(shù)據(jù)中對實體解釋和消歧的進一步優(yōu)化仍有必要。
結(jié)論
LoongX,這是一個通過多模態(tài)神經(jīng)信號調(diào)控擴散模型實現(xiàn)免手圖像編輯的新穎框架,其性能與傳統(tǒng)的文本驅(qū)動基線相當(dāng)或更優(yōu)。展望未來,無線設(shè)置的可移植性為沉浸式環(huán)境中的真實應(yīng)用打開了激動人心的可能性。未來的工作可以探索將 LoongX 集成到 VR/XR 平臺中,以實現(xiàn)直觀的認(rèn)知交互,并進一步將神經(jīng)表示與世界模型對齊,從而將人類意圖投射到交互式虛擬世界中,為在完全合成現(xiàn)實中的意念控制鋪平道路。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
