偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NeurIPS 2024 Oral | 還原所見!揭秘從腦信號重建高保真流暢視頻

人工智能 新聞
本文創(chuàng)新性地提出了 NeuroClips,這是一種用于 fMRI-to-video 重建的新穎框架。

本篇論文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 會議接收為 Oral Presentation (64/15671=0.4%) 。本文主要作者來自同濟(jì)大學(xué)苗奪謙,張奇團(tuán)隊(duì),其余作者來自俄亥俄州州立大學(xué)、悉尼科技大學(xué)、中科院自動化所、北京安定醫(yī)院。其中,第一作者龔子璇就讀于同濟(jì)大學(xué)計(jì)算機(jī)學(xué)院,研究方向涉及 fMRI 解碼和多模態(tài)學(xué)習(xí)。

從大腦信號還原視覺刺激一直是神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)研究人員們津津樂道的話題。然而,基于非侵入式大腦活動 fMRI(功能性磁共振成像)到視頻的重建研究仍然有限,因?yàn)榻獯a連續(xù)視覺刺激的時(shí)空感知是一項(xiàng)艱巨的挑戰(zhàn)。為此,本文提出了一種名為 NeuroClips 的創(chuàng)新框架,用于從 fMRI 數(shù)據(jù)中解碼高保真和流暢的視頻。

圖片


  • 論文題目:NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
  • 論文鏈接:https://arxiv.org/abs/2410.19452
  • 項(xiàng)目主頁:https://github.com/gongzix/NeuroClips

從 fMRI 重建視頻具有哪些挑戰(zhàn)?

1.fMRI 的低時(shí)間分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 腦電信號而言,具有極高的空間分辨率,可以對全腦進(jìn)行細(xì)致的掃描。但是由于全腦掃描更加耗時(shí),fMRI 擁有較低的時(shí)間分辨率,通常 2s 才能完成一次采樣,幀率只有 0.5。然而,需要重建視頻的時(shí)間分辨率是極高的,通常達(dá)到 30~60 的幀率。因此 fMRI 的低時(shí)間分辨率(0.5fps)和真實(shí)視頻采樣的高時(shí)間分辨率(30fps)之間存在嚴(yán)重沖突。

2. 重建視頻的低級視覺感知缺乏控制。以往的研究對于視頻重建,已經(jīng)實(shí)現(xiàn)了較為精準(zhǔn)的語義重建。例如,當(dāng)采集被試看見一個(gè)男人的 fMRI 信號并用于重建,可以獲得一段男人的視頻。然而,視頻更難的點(diǎn)在于物體形狀變化,人物動作以及場景的變化。因此過往的研究缺乏對重建視頻的低級視覺感知的控制。

為了解決上述挑戰(zhàn),我們主張利用關(guān)鍵幀圖像作為過渡視頻重建的錨點(diǎn),與大腦的認(rèn)知機(jī)制相吻合。此外,fMRI 到視頻重建考慮低級感知特征,從大腦活動解碼低級感知流,如運(yùn)動和動態(tài)場景,以補(bǔ)充關(guān)鍵幀,從而增強(qiáng)高保真幀的重建,生成平滑的視頻。我們提出了一種新穎的 fMRI-to-video 重建框架 NeuroClips,引入了兩個(gè)可訓(xùn)練的組件 —— 感知重建器(Perception Reconstructor)和語義重建器(Semantics Reconstructor),分別用于重建低級感知流和語義關(guān)鍵幀。而在推理過程中,采用一個(gè)預(yù)先訓(xùn)練好的 T2V 擴(kuò)散模型,注入關(guān)鍵幀和低級感知流,以實(shí)現(xiàn)高保真度、平滑度和一致性的視頻重建。該模型不僅在各項(xiàng)指標(biāo)上實(shí)現(xiàn)了 SOTA 性能,還通過使用多 fMRI 融合,開創(chuàng)了長達(dá) 6 秒、8 幀率視頻重建的探索。

研究方法

NeuroClips 的整體框架如下圖所示:

圖片

圖 1:NeuroClips 的整體框架。紅色的線代表推理過程。

NeuroClips 包括三個(gè)關(guān)鍵組件:感知重建器(PR)從感知層面生成模糊但連續(xù)的粗略視頻,同時(shí)確保其連續(xù)幀之間的一致性;語義重建器(SR)從語義層面重建高質(zhì)量的關(guān)鍵幀圖像;推理過程是 fMRI 到視頻的重建過程,它使用 T2V 擴(kuò)散模型,并結(jié)合 PR 和 SR 的重建結(jié)果,以高保真度、平滑度和一致性重建最終的保真視頻。

1、感知重建器(Perception Reconstructor,PR)

將視頻按兩秒間隔分割成多個(gè)片段(即 fMRI 的時(shí)間分辨率)。通過在 Stable Diffusion 的 VAE 解碼器中添加時(shí)間注意力層,獲得對齊的 fMRI 模糊嵌入,這些嵌入可以用于生成模糊視頻,其缺乏語義內(nèi)容,但能感知場景的通用動作信息,在位置、形狀、場景等感知指標(biāo)上表現(xiàn)出最先進(jìn)的水平。

2、語義重建器(Semantics Reconstructor , SR)

語義重構(gòu)器(SR)的核心目標(biāo)是重建高質(zhì)量的關(guān)鍵幀圖像,以解決視覺刺激和 fMRI 信號之間的幀率不匹配的問題,從而提高最終視頻的保真度?,F(xiàn)有愈發(fā)成熟的 fMRI 到圖像重建研究促進(jìn)了我們的目標(biāo),包括將 fMRI 進(jìn)行低維處理、關(guān)鍵幀圖像與 fMRI 的對齊、重建嵌入生成以及文本模態(tài)的重建增強(qiáng)。受到對比學(xué)習(xí)的啟發(fā),我們在圖片圖片之間進(jìn)行對比學(xué)習(xí),通過額外的文本模態(tài)來增強(qiáng)重建嵌入圖片。對比損失作為這一過程的訓(xùn)練損失圖片。我們設(shè)置混合系數(shù)圖片圖片來平衡多個(gè)損失。

圖片

其中,圖片是關(guān)鍵幀圖像和 fMRI 對齊采用的結(jié)合了 MixCo 和對比損失的雙向損失,圖片是重建時(shí)與 DALLE?2 相同的擴(kuò)散先驗(yàn)損失。

3、推理過程(Inference Process)

我們結(jié)合模糊的粗略視頻(PR 輸出)、高質(zhì)量的關(guān)鍵幀圖像(模糊視頻第一幀嵌入圖片和 fMRI 嵌入輸入到 SR 中的 SDXL unCLIP 生成)和額外的文本模態(tài)分別作為圖片、圖片圖片Guidance 來重建具有高保真度、平滑度和一致性的最終視頻。我們采用 text-to-video(T2V)的擴(kuò)散模型來幫助重建視頻,而由于嵌入的語義僅來自文本模態(tài)。我們還需要通過增強(qiáng)來自視頻和圖像模態(tài)的語義來創(chuàng)建 “綜合語義” 嵌入,以幫助實(shí)現(xiàn) T2V 擴(kuò)散模型的可控生成。

4、多 fMRI 融合(Multi-fMRI Fusion)

如何從 fMRI 中重建更長的視頻呢?在推理過程中,我們考慮來自兩個(gè)相鄰的 fMRI 樣本的兩個(gè)重建關(guān)鍵幀的語義相似性,如果語義相似,我們就用前一個(gè) fMRI 重建視頻的尾幀替換后一個(gè) fMRI 的關(guān)鍵幀,該幀將作為后一個(gè) fMRI 的第一幀來生成視頻。如圖 2 所示,通過這一策略,我們首次實(shí)現(xiàn)了長達(dá) 6 秒的連續(xù)視頻重建。

圖片

圖 2:多 fMRI 融合的可視化。

實(shí)驗(yàn)結(jié)果

本文使用開源的 fMRI-video 數(shù)據(jù)集(cc2017 數(shù)據(jù)集)進(jìn)行了 fMRI-to-video 的重建實(shí)驗(yàn),通過基于幀的和基于視頻的指標(biāo)進(jìn)行了定量評估,并進(jìn)行了全面分析。

圖片

從 fMRI 重建視頻的 Demos

圖片

圖片

表 1:NeuroClips 重建性能與其他方法的定量比較。

結(jié)果如上表所示,NeuroClips 在 7 個(gè)指標(biāo)中的 5 個(gè)上顯著優(yōu)于先前的方法,SSIM 性能大幅提升,表明其補(bǔ)充了像素級控制的不足。語義層面的指標(biāo)也總體上優(yōu)于先前的方法,證明了 NeuroClips 更好的語義對齊范式。在評估視頻平滑度的 ST 級指標(biāo)上,由于我們引入的模糊的粗略視頻( Guidance),NeuroClips 遠(yuǎn)超 MinD-Video,重建視頻更加流暢。

神經(jīng)科學(xué)解釋性

此外,為了探究神經(jīng)層面的可解釋性,本文在腦平面上可視化了體素級別的權(quán)重以觀察整個(gè)大腦的關(guān)注度??梢杂^察到,任何任務(wù)視覺皮層都占據(jù)著重要的位置,以及 SR 和 PR 的不同權(quán)重。

圖片

結(jié)論

本文創(chuàng)新性地提出了 NeuroClips,這是一種用于 fMRI-to-video 重建的新穎框架。通過感知重建和語義重建兩條路徑實(shí)現(xiàn)了體素級和語義級的 fMRI 視覺學(xué)習(xí)。我們可以在不進(jìn)行額外訓(xùn)練的情況下將它們配置到最新的視頻擴(kuò)散模型中,以生成更高質(zhì)量、更高幀率和更長的視頻。NeuroClips 能夠在語義級精度和像素級匹配程度上恢復(fù)視頻,從而在該領(lǐng)域建立了新的最佳水平,我們還可視化了 NeuroClips 的神經(jīng)科學(xué)可解釋性。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-08-21 12:10:08

算法AI

2024-12-23 15:46:59

2023-04-14 14:02:40

視覺AI

2024-11-11 11:05:00

大語言模型系統(tǒng)

2024-05-22 16:01:32

2021-01-06 10:51:56

量子互聯(lián)網(wǎng)網(wǎng)絡(luò)安全

2024-08-07 09:30:00

2023-06-20 16:26:21

2024-09-10 11:21:30

2021-04-14 15:03:16

數(shù)據(jù)性能存儲

2021-08-06 08:20:38

微軟Teams音樂傳輸

2023-01-09 13:18:59

AI

2025-06-13 14:13:26

3D場景生成模型

2025-04-01 09:40:00

2025-02-20 09:36:45

2021-04-14 14:50:27

計(jì)算機(jī)模型 技術(shù)

2024-11-26 09:43:37

2023-12-24 13:34:59

AI讀腦術(shù)

2024-07-22 08:22:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號