偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!

發(fā)布于 2025-7-21 09:20
瀏覽
0收藏

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2507.05397

主頁鏈接:https://loongx1.github.io/

亮點(diǎn)直擊

  • L-Mind:一個(gè)多模態(tài)數(shù)據(jù)集,包含 23,928 對圖像編輯樣本,配套采集了在自然環(huán)境下的腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、動(dòng)作和語音信號。
  • LoongX:一種新穎的神經(jīng)驅(qū)動(dòng)圖像編輯方法,結(jié)合了 CS3 和 DGF 模塊,用于高效的特征提取和多模態(tài)信息融合(效果見下圖 1)。
  • 大量實(shí)驗(yàn)證實(shí)多模態(tài)神經(jīng)信號的有效性,并深入分析了各模態(tài)的特定貢獻(xiàn)及其與語音輸入之間的協(xié)同作用。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

總結(jié)速覽

解決的問題

傳統(tǒng)圖像編輯依賴手動(dòng)提示,存在以下問題:

  • 操作復(fù)雜、勞動(dòng)強(qiáng)度大;
  • 對于運(yùn)動(dòng)能力或語言能力受限的人群不友好;
  • 缺乏自然直觀的人機(jī)交互方式。

提出的方案

LoongX:一種基于多模態(tài)神經(jīng)生理信號的免手圖像編輯方法,主要特點(diǎn)包括:

  • 利用腦機(jī)接口(BCI)獲取用戶意圖;
  • 通過多模態(tài)信號(EEG、fNIRS、PPG、頭部動(dòng)作、語音)驅(qū)動(dòng)圖像編輯;
  • 結(jié)合跨尺度狀態(tài)空間(CS3)和動(dòng)態(tài)門控融合(DGF)模塊,實(shí)現(xiàn)高效特征提取與信息融合;
  • 在擴(kuò)散模型(DiT)基礎(chǔ)上微調(diào)以對齊圖像編輯語義。

應(yīng)用的技術(shù)

  1. 多模態(tài)神經(jīng)信號采集:包括腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、頭部動(dòng)作和語音信號;
  2. CS3 模塊:提取不同模態(tài)中具有區(qū)分性的特征;
  3. DGF 模塊:實(shí)現(xiàn)多模態(tài)特征的動(dòng)態(tài)融合;
  4. 擴(kuò)散Transformer(DiT):作為圖像生成的核心模型,通過微調(diào)實(shí)現(xiàn)語義對齊;
  5. 對比學(xué)習(xí):預(yù)訓(xùn)練編碼器,將認(rèn)知狀態(tài)與自然語言語義對齊;
  6. 大規(guī)模數(shù)據(jù)集 L-Mind:包含 23,928 對圖像編輯樣本及其對應(yīng)的多模態(tài)神經(jīng)信號。

達(dá)到的效果

  • LoongX 在圖像編輯任務(wù)中表現(xiàn)優(yōu)異,性能可與文本驅(qū)動(dòng)方法媲美,甚至在與語音結(jié)合時(shí)超過現(xiàn)有方法
  • CLIP-I:LoongX 0.6605 vs. 文本基線 0.6558;
  • DINO:LoongX 0.4812 vs. 文本基線 0.4636;
  • CLIP-T(結(jié)合語音):LoongX 0.2588 vs. 文本基線 0.2549;
  • 實(shí)驗(yàn)驗(yàn)證了多模態(tài)神經(jīng)信號在圖像編輯中的有效性;
  • 分析了各模態(tài)信號的貢獻(xiàn)及其與語音輸入的協(xié)同作用;
  • 展示了神經(jīng)驅(qū)動(dòng)生成模型在提升圖像編輯可達(dá)性和自然交互方面的潛力;
  • 為認(rèn)知驅(qū)動(dòng)的創(chuàng)意技術(shù)打開了新的研究方向。

數(shù)據(jù)集

數(shù)據(jù)采集

從 12 位參與者處收集了 23,928 個(gè)編輯樣本(22,728 個(gè)用于訓(xùn)練,1,200 個(gè)用于測試),使用的設(shè)置如下圖 2 所示。參與者佩戴我們的多模態(tài)傳感器,在 25 英寸顯示器上(分辨率:1980 × 1080)查看來自 SEED-Data-Edit 的圖文對。所測得的 EEG、fNIRS 和 PPG 生理信號通過藍(lán)牙 5.3 實(shí)時(shí)傳輸,并通過專有 Lab Recorder 軟件中的 lab streaming layer 進(jìn)行同步和對齊。參與者同時(shí)朗讀所顯示的編輯指令,以提供語音信號。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

實(shí)驗(yàn)在一個(gè)安靜、溫度控制的房間內(nèi)進(jìn)行(24°C,濕度恒定),每天上午 9 點(diǎn)開始。EEG 信號通過非侵入式水凝膠電極采集,每五小時(shí)更換一次電極以保持信號質(zhì)量。實(shí)驗(yàn)室遮光以防止陽光干擾 fNIRS 和 PPG 信號。每次實(shí)驗(yàn)由參與者自主控制音頻錄制的開始和結(jié)束,并以圖像名稱標(biāo)記。非活動(dòng)時(shí)間段的數(shù)據(jù)被排除。


每次實(shí)驗(yàn)(上圖 2)由用戶啟動(dòng)的音頻錄制開始和結(jié)束,并以圖像配對標(biāo)記。每對圖像后有 1 秒的交叉注視,每 100 張圖像后安排一次休息。共有 12 名健康的大學(xué)生參與(6 名女性,6 名男性;平均年齡:24.5 ± 2.5 歲),視力正?;虺C正正常。所有參與者均簽署了知情同意書,并獲得了經(jīng)濟(jì)補(bǔ)償。本研究已獲得相應(yīng)機(jī)構(gòu)倫理委員會的正式批準(zhǔn)。

數(shù)據(jù)預(yù)處理

EEG:四個(gè) EEG 通道(Pz、Fp2、Fpz、Oz;采樣率為 250 Hz)經(jīng)過帶通濾波(1–80 Hz)和陷波濾波(48–52 Hz),以去除漂移、噪聲和電源干擾。Fp2 和 Fpz 中的眼動(dòng)偽跡被保留,以捕捉眼動(dòng)信息。


fNIRS:六通道 fNIRS 信號(波長為 735 nm 和 850 nm)根據(jù)修正的 Beer–Lambert 定律轉(zhuǎn)換為相對血紅蛋白濃度變化(HbO、HbR、HbT)。光密度變化計(jì)算公式為:

濃度變化計(jì)算如下:

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

PPG 和運(yùn)動(dòng):四通道 PPG 信號(735 nm,850 nm)通過自適應(yīng)平均池化在每個(gè)半球內(nèi)取平均,并經(jīng)過濾波(0.5–4 Hz)以提取反映心率變異性的心臟相關(guān)血流動(dòng)力學(xué)信號。來自六軸傳感器(12.5 Hz)的運(yùn)動(dòng)數(shù)據(jù)捕捉三軸線性加速度和角速度,用于表征頭部運(yùn)動(dòng)。

方法

如下圖 3 所示,LoongX 從多種神經(jīng)信號中提取多模態(tài)特征,并以成對方式將其融合到共享隱空間中。使用擴(kuò)散Transformer(Diffusion Transformer,DiT),原始圖像在融合特征的條件下被轉(zhuǎn)換為編輯后的圖像。圍繞三個(gè)研究問題,我們進(jìn)行了一個(gè)多標(biāo)簽分類實(shí)驗(yàn),結(jié)果顯示 EEG 比噪聲高出 20%,而融合所有信號可獲得最高的 F1 分?jǐn)?shù)。將神經(jīng)信號與文本結(jié)合可實(shí)現(xiàn)最佳的 mAP,驗(yàn)證了模態(tài)間的互補(bǔ)性。輸入長度為 8,192 時(shí)性能最佳,但計(jì)算成本更高,這推動(dòng)了我們框架的設(shè)計(jì):用于長序列的跨尺度狀態(tài)空間編碼器和用于特征整合的動(dòng)態(tài)門控融合模塊。

跨尺度狀態(tài)空間編碼

CS3 編碼器使用自適應(yīng)特征金字塔從多種信號中提取多尺度特征。為了進(jìn)一步捕捉超越固定金字塔的動(dòng)態(tài)時(shí)空模式,CS3 使用結(jié)構(gòu)化狀態(tài)空間模型(S3M)以線性復(fù)雜度高效地編碼長序列。為控制成本,它采用跨特征機(jī)制分別編碼時(shí)間和通道信息。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

交叉金字塔聚合:編碼器沿通道維度融合多尺度和時(shí)間流,結(jié)果為:

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)態(tài)門控多模態(tài)融合

提出了動(dòng)態(tài)門控融合(Dynamic Gated Fusion,DGF)模塊,用于將一對內(nèi)容嵌入和條件嵌入動(dòng)態(tài)綁定到統(tǒng)一的隱空間中,并進(jìn)一步與文本嵌入對齊。DGF 包括門控混合、自適應(yīng)仿射調(diào)制以及動(dòng)態(tài)掩碼模塊。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

條件擴(kuò)散

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

預(yù)訓(xùn)練與微調(diào)

采用一個(gè)兩階段的過程:1)神經(jīng)信號編碼器(EEG 是最重要的)在神經(jīng)-文本語料庫上進(jìn)行預(yù)訓(xùn)練,壓縮公共數(shù)據(jù)和 L-Mind;2)整個(gè)系統(tǒng)可選地使用原始圖像與真實(shí)編輯圖像對進(jìn)行微調(diào)。


預(yù)訓(xùn)練。信號編碼器通過使用大規(guī)模認(rèn)知數(shù)據(jù)集和 L-Mind 進(jìn)行預(yù)訓(xùn)練,以與語義嵌入對齊。CS3 編碼器(分別為 EEG + PPG 和 fNIRS + Motion)通過對稱的 NT-Xent 損失與凍結(jié)的文本嵌入對齊:

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

實(shí)驗(yàn)

為回答第 1 節(jié)中提出的每個(gè)研究問題(RQ),在 L-Mind 的測試集上全面評估了 LoongX 在神經(jīng)驅(qū)動(dòng)圖像編輯方面的能力。實(shí)驗(yàn)設(shè)置、指標(biāo)來自于 [51]。選擇 OminiControl 作為基線方法,因?yàn)樗С只?DiTs 的文本條件圖像編輯。

神經(jīng)信號的可靠性

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

模態(tài)貢獻(xiàn)的消融研究

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

細(xì)分分析:神經(jīng)條件 vs. 語言條件

回答 RQ3:神經(jīng)信號在低層次視覺編輯中表現(xiàn)出色,而語言在高層次語義方面更具優(yōu)勢;兩者結(jié)合可實(shí)現(xiàn)最有效的混合控制。如下圖 6 所示,神經(jīng)信號(N)在更直觀的任務(wù)中尤為有效,如全局紋理編輯(更高的 CLIP-I),反映出較強(qiáng)的視覺可辨識性和結(jié)構(gòu)一致性。在對象編輯中,神經(jīng)信號在對象移除方面比其他方法更具能力,展示了其在傳達(dá)直觀意圖方面的優(yōu)勢,盡管在處理復(fù)雜語義方面仍有局限。相比之下,文本指令(T)在高層語義任務(wù)中(例如“恢復(fù)”)本質(zhì)上更強(qiáng),突顯其在語義對齊方面的優(yōu)勢。當(dāng)兩者結(jié)合時(shí),神經(jīng)信號和語音(N+S)輸入實(shí)現(xiàn)了最佳語義對齊(CLIP-T: 0.2588),展示了混合條件在捕捉復(fù)雜用戶意圖方面的卓越效果。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

模型架構(gòu)的消融研究

LoongX 的每個(gè)架構(gòu)組件都有其獨(dú)特貢獻(xiàn),尤其是在預(yù)訓(xùn)練的輔助下,其組合釋放了全面的性能潛力。下表 2 中的消融研究在融合所有信號和語音的設(shè)置下進(jìn)行,探索每個(gè)提出模塊的影響。CS3 編碼器通過提取的特征增強(qiáng)了特征的完整性和平滑性,減少了像素級誤差(L2 降低了 5%),而 DGF 主要增強(qiáng)了與文本指令的語義對齊(CLIP-T 提升:3.5%)。在預(yù)訓(xùn)練的輔助下,LoongX 達(dá)到最優(yōu)性能,表明魯棒的多模態(tài)對齊和結(jié)構(gòu)化表示學(xué)習(xí)在最大化編輯性能中的重要作用。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

定性分析與局限性

定性示例證實(shí)了 LoongX 的直觀編輯能力,其局限性主要出現(xiàn)在抽象或模糊的復(fù)雜意圖中。下圖 7 中的定性結(jié)果表明,神經(jīng)信號驅(qū)動(dòng)的編輯能夠有效處理視覺和結(jié)構(gòu)修改,如背景替換和全局調(diào)整。然而,融合神經(jīng)與語言的方法更能捕捉涉及抽象語義的細(xì)致指令(例如“修改文本信息”)。盡管取得了顯著進(jìn)展,實(shí)體一致性(例如下圖 7(b) 中小女孩的風(fēng)格)仍是當(dāng)前編輯模型的局限。此外,高度抽象或模糊的指令有時(shí)仍構(gòu)成挑戰(zhàn)(例如“下圖 11 中的帶翅膀的白色動(dòng)物”以及下圖 14 中展示的多個(gè)失敗案例),這表明在神經(jīng)數(shù)據(jù)中對實(shí)體解釋和消歧的進(jìn)一步優(yōu)化仍有必要。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢!-AI.x社區(qū)

結(jié)論

LoongX,這是一個(gè)通過多模態(tài)神經(jīng)信號調(diào)控?cái)U(kuò)散模型實(shí)現(xiàn)免手圖像編輯的新穎框架,其性能與傳統(tǒng)的文本驅(qū)動(dòng)基線相當(dāng)或更優(yōu)。展望未來,無線設(shè)置的可移植性為沉浸式環(huán)境中的真實(shí)應(yīng)用打開了激動(dòng)人心的可能性。未來的工作可以探索將 LoongX 集成到 VR/XR 平臺中,以實(shí)現(xiàn)直觀的認(rèn)知交互,并進(jìn)一步將神經(jīng)表示與世界模型對齊,從而將人類意圖投射到交互式虛擬世界中,為在完全合成現(xiàn)實(shí)中的意念控制鋪平道路。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/ZGTePoLE0NrFoJzOol1MHw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦