偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！

發(fā)布于 2025-7-21 09:20

瀏覽

0收藏

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2507.05397

主頁鏈接：https://loongx1.github.io/

亮點直擊

L-Mind：一個多模態(tài)數(shù)據(jù)集，包含 23,928 對圖像編輯樣本，配套采集了在自然環(huán)境下的腦電（EEG）、功能性近紅外光譜（fNIRS）、脈搏波（PPG）、動作和語音信號。
LoongX：一種新穎的神經(jīng)驅(qū)動圖像編輯方法，結(jié)合了 CS3 和 DGF 模塊，用于高效的特征提取和多模態(tài)信息融合（效果見下圖 1）。
大量實驗證實多模態(tài)神經(jīng)信號的有效性，并深入分析了各模態(tài)的特定貢獻及其與語音輸入之間的協(xié)同作用。

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

總結(jié)速覽

解決的問題

傳統(tǒng)圖像編輯依賴手動提示，存在以下問題：

操作復(fù)雜、勞動強度大；
對于運動能力或語言能力受限的人群不友好；
缺乏自然直觀的人機交互方式。

提出的方案

LoongX：一種基于多模態(tài)神經(jīng)生理信號的免手圖像編輯方法，主要特點包括：

利用腦機接口（BCI）獲取用戶意圖；
通過多模態(tài)信號（EEG、fNIRS、PPG、頭部動作、語音）驅(qū)動圖像編輯；
結(jié)合跨尺度狀態(tài)空間（CS3）和動態(tài)門控融合（DGF）模塊，實現(xiàn)高效特征提取與信息融合；
在擴散模型（DiT）基礎(chǔ)上微調(diào)以對齊圖像編輯語義。

應(yīng)用的技術(shù)

多模態(tài)神經(jīng)信號采集：包括腦電（EEG）、功能性近紅外光譜（fNIRS）、脈搏波（PPG）、頭部動作和語音信號；
CS3 模塊：提取不同模態(tài)中具有區(qū)分性的特征；
DGF 模塊：實現(xiàn)多模態(tài)特征的動態(tài)融合；
擴散Transformer（DiT）：作為圖像生成的核心模型，通過微調(diào)實現(xiàn)語義對齊；
對比學(xué)習(xí)：預(yù)訓(xùn)練編碼器，將認(rèn)知狀態(tài)與自然語言語義對齊；
大規(guī)模數(shù)據(jù)集 L-Mind：包含 23,928 對圖像編輯樣本及其對應(yīng)的多模態(tài)神經(jīng)信號。

達(dá)到的效果

LoongX 在圖像編輯任務(wù)中表現(xiàn)優(yōu)異，性能可與文本驅(qū)動方法媲美，甚至在與語音結(jié)合時超過現(xiàn)有方法：

CLIP-I：LoongX 0.6605 vs. 文本基線 0.6558；
DINO：LoongX 0.4812 vs. 文本基線 0.4636；
CLIP-T（結(jié)合語音）：LoongX 0.2588 vs. 文本基線 0.2549；

實驗驗證了多模態(tài)神經(jīng)信號在圖像編輯中的有效性；
分析了各模態(tài)信號的貢獻及其與語音輸入的協(xié)同作用；
展示了神經(jīng)驅(qū)動生成模型在提升圖像編輯可達(dá)性和自然交互方面的潛力；
為認(rèn)知驅(qū)動的創(chuàng)意技術(shù)打開了新的研究方向。

數(shù)據(jù)集

數(shù)據(jù)采集

從 12 位參與者處收集了 23,928 個編輯樣本（22,728 個用于訓(xùn)練，1,200 個用于測試），使用的設(shè)置如下圖 2 所示。參與者佩戴我們的多模態(tài)傳感器，在 25 英寸顯示器上（分辨率：1980 × 1080）查看來自 SEED-Data-Edit 的圖文對。所測得的 EEG、fNIRS 和 PPG 生理信號通過藍(lán)牙 5.3 實時傳輸，并通過專有 Lab Recorder 軟件中的 lab streaming layer 進行同步和對齊。參與者同時朗讀所顯示的編輯指令，以提供語音信號。

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

實驗在一個安靜、溫度控制的房間內(nèi)進行（24°C，濕度恒定），每天上午 9 點開始。EEG 信號通過非侵入式水凝膠電極采集，每五小時更換一次電極以保持信號質(zhì)量。實驗室遮光以防止陽光干擾 fNIRS 和 PPG 信號。每次實驗由參與者自主控制音頻錄制的開始和結(jié)束，并以圖像名稱標(biāo)記。非活動時間段的數(shù)據(jù)被排除。

每次實驗（上圖 2）由用戶啟動的音頻錄制開始和結(jié)束，并以圖像配對標(biāo)記。每對圖像后有 1 秒的交叉注視，每 100 張圖像后安排一次休息。共有 12 名健康的大學(xué)生參與（6 名女性，6 名男性；平均年齡：24.5 ± 2.5 歲），視力正?；虺C正正常。所有參與者均簽署了知情同意書，并獲得了經(jīng)濟補償。本研究已獲得相應(yīng)機構(gòu)倫理委員會的正式批準(zhǔn)。

數(shù)據(jù)預(yù)處理

EEG：四個 EEG 通道（Pz、Fp2、Fpz、Oz；采樣率為 250 Hz）經(jīng)過帶通濾波（1–80 Hz）和陷波濾波（48–52 Hz），以去除漂移、噪聲和電源干擾。Fp2 和 Fpz 中的眼動偽跡被保留，以捕捉眼動信息。

fNIRS：六通道 fNIRS 信號（波長為 735 nm 和 850 nm）根據(jù)修正的 Beer–Lambert 定律轉(zhuǎn)換為相對血紅蛋白濃度變化（HbO、HbR、HbT）。光密度變化計算公式為：

濃度變化計算如下：

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

PPG 和運動：四通道 PPG 信號（735 nm，850 nm）通過自適應(yīng)平均池化在每個半球內(nèi)取平均，并經(jīng)過濾波（0.5–4 Hz）以提取反映心率變異性的心臟相關(guān)血流動力學(xué)信號。來自六軸傳感器（12.5 Hz）的運動數(shù)據(jù)捕捉三軸線性加速度和角速度，用于表征頭部運動。

方法

如下圖 3 所示，LoongX 從多種神經(jīng)信號中提取多模態(tài)特征，并以成對方式將其融合到共享隱空間中。使用擴散Transformer（Diffusion Transformer，DiT），原始圖像在融合特征的條件下被轉(zhuǎn)換為編輯后的圖像。圍繞三個研究問題，我們進行了一個多標(biāo)簽分類實驗，結(jié)果顯示 EEG 比噪聲高出 20%，而融合所有信號可獲得最高的 F1 分?jǐn)?shù)。將神經(jīng)信號與文本結(jié)合可實現(xiàn)最佳的 mAP，驗證了模態(tài)間的互補性。輸入長度為 8,192 時性能最佳，但計算成本更高，這推動了我們框架的設(shè)計：用于長序列的跨尺度狀態(tài)空間編碼器和用于特征整合的動態(tài)門控融合模塊。

跨尺度狀態(tài)空間編碼

CS3 編碼器使用自適應(yīng)特征金字塔從多種信號中提取多尺度特征。為了進一步捕捉超越固定金字塔的動態(tài)時空模式，CS3 使用結(jié)構(gòu)化狀態(tài)空間模型（S3M）以線性復(fù)雜度高效地編碼長序列。為控制成本，它采用跨特征機制分別編碼時間和通道信息。

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

交叉金字塔聚合：編碼器沿通道維度融合多尺度和時間流，結(jié)果為：

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動態(tài)門控多模態(tài)融合

提出了動態(tài)門控融合（Dynamic Gated Fusion，DGF）模塊，用于將一對內(nèi)容嵌入和條件嵌入動態(tài)綁定到統(tǒng)一的隱空間中，并進一步與文本嵌入對齊。DGF 包括門控混合、自適應(yīng)仿射調(diào)制以及動態(tài)掩碼模塊。

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

條件擴散

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

預(yù)訓(xùn)練與微調(diào)

采用一個兩階段的過程：1）神經(jīng)信號編碼器（EEG 是最重要的）在神經(jīng)-文本語料庫上進行預(yù)訓(xùn)練，壓縮公共數(shù)據(jù)和 L-Mind；2）整個系統(tǒng)可選地使用原始圖像與真實編輯圖像對進行微調(diào)。

預(yù)訓(xùn)練。信號編碼器通過使用大規(guī)模認(rèn)知數(shù)據(jù)集和 L-Mind 進行預(yù)訓(xùn)練，以與語義嵌入對齊。CS3 編碼器（分別為 EEG + PPG 和 fNIRS + Motion）通過對稱的 NT-Xent 損失與凍結(jié)的文本嵌入對齊：

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

實驗

為回答第 1 節(jié)中提出的每個研究問題（RQ），在 L-Mind 的測試集上全面評估了 LoongX 在神經(jīng)驅(qū)動圖像編輯方面的能力。實驗設(shè)置、指標(biāo)來自于 [51]。選擇 OminiControl 作為基線方法，因為它支持基于 DiTs 的文本條件圖像編輯。

神經(jīng)信號的可靠性

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

模態(tài)貢獻的消融研究

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

細(xì)分分析：神經(jīng)條件 vs. 語言條件

回答 RQ3：神經(jīng)信號在低層次視覺編輯中表現(xiàn)出色，而語言在高層次語義方面更具優(yōu)勢；兩者結(jié)合可實現(xiàn)最有效的混合控制。如下圖 6 所示，神經(jīng)信號（N）在更直觀的任務(wù)中尤為有效，如全局紋理編輯（更高的 CLIP-I），反映出較強的視覺可辨識性和結(jié)構(gòu)一致性。在對象編輯中，神經(jīng)信號在對象移除方面比其他方法更具能力，展示了其在傳達(dá)直觀意圖方面的優(yōu)勢，盡管在處理復(fù)雜語義方面仍有局限。相比之下，文本指令（T）在高層語義任務(wù)中（例如“恢復(fù)”）本質(zhì)上更強，突顯其在語義對齊方面的優(yōu)勢。當(dāng)兩者結(jié)合時，神經(jīng)信號和語音（N+S）輸入實現(xiàn)了最佳語義對齊（CLIP-T: 0.2588），展示了混合條件在捕捉復(fù)雜用戶意圖方面的卓越效果。

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

模型架構(gòu)的消融研究

LoongX 的每個架構(gòu)組件都有其獨特貢獻，尤其是在預(yù)訓(xùn)練的輔助下，其組合釋放了全面的性能潛力。下表 2 中的消融研究在融合所有信號和語音的設(shè)置下進行，探索每個提出模塊的影響。CS3 編碼器通過提取的特征增強了特征的完整性和平滑性，減少了像素級誤差（L2 降低了 5%），而 DGF 主要增強了與文本指令的語義對齊（CLIP-T 提升：3.5%）。在預(yù)訓(xùn)練的輔助下，LoongX 達(dá)到最優(yōu)性能，表明魯棒的多模態(tài)對齊和結(jié)構(gòu)化表示學(xué)習(xí)在最大化編輯性能中的重要作用。

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

定性分析與局限性

定性示例證實了 LoongX 的直觀編輯能力，其局限性主要出現(xiàn)在抽象或模糊的復(fù)雜意圖中。下圖 7 中的定性結(jié)果表明，神經(jīng)信號驅(qū)動的編輯能夠有效處理視覺和結(jié)構(gòu)修改，如背景替換和全局調(diào)整。然而，融合神經(jīng)與語言的方法更能捕捉涉及抽象語義的細(xì)致指令（例如“修改文本信息”）。盡管取得了顯著進展，實體一致性（例如下圖 7(b) 中小女孩的風(fēng)格）仍是當(dāng)前編輯模型的局限。此外，高度抽象或模糊的指令有時仍構(gòu)成挑戰(zhàn)（例如“下圖 11 中的帶翅膀的白色動物”以及下圖 14 中展示的多個失敗案例），這表明在神經(jīng)數(shù)據(jù)中對實體解釋和消歧的進一步優(yōu)化仍有必要。

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

動腦就能P圖！LoongX重磅突破：首個「腦波+AI」圖像編輯系統(tǒng)誕生，意念修圖不是夢！-AI.x社區(qū)

結(jié)論

LoongX，這是一個通過多模態(tài)神經(jīng)信號調(diào)控擴散模型實現(xiàn)免手圖像編輯的新穎框架，其性能與傳統(tǒng)的文本驅(qū)動基線相當(dāng)或更優(yōu)。展望未來，無線設(shè)置的可移植性為沉浸式環(huán)境中的真實應(yīng)用打開了激動人心的可能性。未來的工作可以探索將 LoongX 集成到 VR/XR 平臺中，以實現(xiàn)直觀的認(rèn)知交互，并進一步將神經(jīng)表示與世界模型對齊，從而將人類意圖投射到交互式虛擬世界中，為在完全合成現(xiàn)實中的意念控制鋪平道路。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/ZGTePoLE0NrFoJzOol1MHw??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

谷歌將免費提供3款，生成式AI圖像編輯工具

Aceryt ? 3617瀏覽 ? 0回復(fù)
精細(xì)化圖像編輯！LocInv：優(yōu)化交叉注意力泄漏問題（國科大&巴塞羅那自治大學(xué)）

angel ? 3757瀏覽 ? 0回復(fù)
林達(dá)華團隊最新發(fā)布ReasonPix2Pix：讓基于指令的高級圖像編輯效果飛升！

angel ? 5697瀏覽 ? 0回復(fù)
RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津

angel ? 2995瀏覽 ? 0回復(fù)
TurboEdit:少步擴散和解耦控制的實時精確圖像編輯

angel ? 2459瀏覽 ? 0回復(fù)
拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大

angel ? 2852瀏覽 ? 0回復(fù)
RAG系統(tǒng)中的困境：上下文不是想加就能加的

芝士AI吃魚 ? 2600瀏覽 ? 0回復(fù)
支持25種復(fù)雜編輯類型！浙大等提出AnyEdit：統(tǒng)一高質(zhì)量圖像編輯框架

angel ? 3842瀏覽 ? 0回復(fù)
CycleFlow+擴散先驗讓OmniPaint引領(lǐng)圖像編輯新時代

angel ? 2019瀏覽 ? 0回復(fù)
即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆

angel ? 1964瀏覽 ? 0回復(fù)
圖像編輯進入“精修時代”！“指哪改哪”！北交&美圖發(fā)布DCEdit：改圖不傷背景的終極方案

angel ? 1785瀏覽 ? 0回復(fù)
突破傳統(tǒng)“非此即彼”，真靈魂P圖！騰訊最新FlexIP黑科技：身份保持和個性化我都要！

angel ? 1547瀏覽 ? 0回復(fù)
ICLR 2025 | 被AI“洗圖”也能識別版權(quán)！水印技術(shù)重大突破：VINE模型全面碾壓舊方法!

angel ? 2671瀏覽 ? 0回復(fù)
外科手術(shù)式編輯圖片！賓大突破性算法CoLan ：15萬場景概念庫讓AI秒懂你的P圖意圖！

angel ? 1683瀏覽 ? 0回復(fù)
在線教程丨9 秒處理一張圖！In-Context Edit 高效圖像編輯框架上線

HyperAI超神經(jīng) ? 1386瀏覽 ? 0回復(fù)
MonetGPT：通過解決謎題提升多模態(tài)大語言模型的圖像修圖技能

AIRoobt ? 1894瀏覽 ? 0回復(fù)
首個自回歸文生圖風(fēng)格化！StyleAR突破AI繪圖新高度：單張圖+提示詞，完美復(fù)刻任意風(fēng)格！

zhangyannni ? 1045瀏覽 ? 0回復(fù)
圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯

算家計算 ? 3494瀏覽 ? 0回復(fù)
修圖界ChatGPT誕生！JarvisArt：解放人類藝術(shù)創(chuàng)造力——用自然語言指揮200+專業(yè)工具

zhangyannni ? 2412瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

RAG：7個檢索增強生成技術(shù)的解析（含實現(xiàn)代碼） 0回復(fù)

重磅！英偉達(dá)宣布H20芯片即將恢復(fù)對華銷售，并計劃推出全新GPU 0回復(fù)

RAG+大模型怎么玩？這八個項目2025年最火！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

文檔太長模型“吃不下”？試試這15種Chunking策略，輕松搞定RAG！ 0回復(fù)

上一篇： DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設(shè)

社區(qū)精華內(nèi)容

目錄