偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="a9yj0"><code id="a9yj0"><optgroup id="a9yj0"></optgroup></code></abbr><u id="a9yj0"></u>

<nobr id="a9yj0"><listing id="a9yj0"><optgroup id="a9yj0"></optgroup></listing></nobr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

NeurIPS 2024 Oral | 還原所見！揭秘從腦信號重建高保真流暢視頻

作者：機(jī)器之心 2024-11-25 08:50:00

人工智能新聞

本文創(chuàng)新性地提出了 NeuroClips，這是一種用于 fMRI-to-video 重建的新穎框架。

本篇論文的工作已被 NeurlPS（Conference on Neural Information Processing Systems）2024 會議接收為 Oral Presentation (64/15671=0.4%) 。本文主要作者來自同濟(jì)大學(xué)苗奪謙，張奇團(tuán)隊(duì)，其余作者來自俄亥俄州州立大學(xué)、悉尼科技大學(xué)、中科院自動化所、北京安定醫(yī)院。其中，第一作者龔子璇就讀于同濟(jì)大學(xué)計(jì)算機(jī)學(xué)院，研究方向涉及 fMRI 解碼和多模態(tài)學(xué)習(xí)。

從大腦信號還原視覺刺激一直是神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)研究人員們津津樂道的話題。然而，基于非侵入式大腦活動 fMRI（功能性磁共振成像）到視頻的重建研究仍然有限，因?yàn)榻獯a連續(xù)視覺刺激的時(shí)空感知是一項(xiàng)艱巨的挑戰(zhàn)。為此，本文提出了一種名為 NeuroClips 的創(chuàng)新框架，用于從 fMRI 數(shù)據(jù)中解碼高保真和流暢的視頻。

論文題目：NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
論文鏈接：https://arxiv.org/abs/2410.19452
項(xiàng)目主頁：https://github.com/gongzix/NeuroClips

從 fMRI 重建視頻具有哪些挑戰(zhàn)？

1.fMRI 的低時(shí)間分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 腦電信號而言，具有極高的空間分辨率，可以對全腦進(jìn)行細(xì)致的掃描。但是由于全腦掃描更加耗時(shí)，fMRI 擁有較低的時(shí)間分辨率，通常 2s 才能完成一次采樣，幀率只有 0.5。然而，需要重建視頻的時(shí)間分辨率是極高的，通常達(dá)到 30~60 的幀率。因此 fMRI 的低時(shí)間分辨率（0.5fps）和真實(shí)視頻采樣的高時(shí)間分辨率（30fps）之間存在嚴(yán)重沖突。

2. 重建視頻的低級視覺感知缺乏控制。以往的研究對于視頻重建，已經(jīng)實(shí)現(xiàn)了較為精準(zhǔn)的語義重建。例如，當(dāng)采集被試看見一個(gè)男人的 fMRI 信號并用于重建，可以獲得一段男人的視頻。然而，視頻更難的點(diǎn)在于物體形狀變化，人物動作以及場景的變化。因此過往的研究缺乏對重建視頻的低級視覺感知的控制。

為了解決上述挑戰(zhàn)，我們主張利用關(guān)鍵幀圖像作為過渡視頻重建的錨點(diǎn)，與大腦的認(rèn)知機(jī)制相吻合。此外，fMRI 到視頻重建考慮低級感知特征，從大腦活動解碼低級感知流，如運(yùn)動和動態(tài)場景，以補(bǔ)充關(guān)鍵幀，從而增強(qiáng)高保真幀的重建，生成平滑的視頻。我們提出了一種新穎的 fMRI-to-video 重建框架 NeuroClips，引入了兩個(gè)可訓(xùn)練的組件 —— 感知重建器（Perception Reconstructor）和語義重建器（Semantics Reconstructor），分別用于重建低級感知流和語義關(guān)鍵幀。而在推理過程中，采用一個(gè)預(yù)先訓(xùn)練好的 T2V 擴(kuò)散模型，注入關(guān)鍵幀和低級感知流，以實(shí)現(xiàn)高保真度、平滑度和一致性的視頻重建。該模型不僅在各項(xiàng)指標(biāo)上實(shí)現(xiàn)了 SOTA 性能，還通過使用多 fMRI 融合，開創(chuàng)了長達(dá) 6 秒、8 幀率視頻重建的探索。

研究方法

NeuroClips 的整體框架如下圖所示：

圖 1：NeuroClips 的整體框架。紅色的線代表推理過程。

NeuroClips 包括三個(gè)關(guān)鍵組件：感知重建器（PR）從感知層面生成模糊但連續(xù)的粗略視頻，同時(shí)確保其連續(xù)幀之間的一致性；語義重建器（SR）從語義層面重建高質(zhì)量的關(guān)鍵幀圖像；推理過程是 fMRI 到視頻的重建過程，它使用 T2V 擴(kuò)散模型，并結(jié)合 PR 和 SR 的重建結(jié)果，以高保真度、平滑度和一致性重建最終的保真視頻。

1、感知重建器（Perception Reconstructor，PR）

將視頻按兩秒間隔分割成多個(gè)片段（即 fMRI 的時(shí)間分辨率）。通過在 Stable Diffusion 的 VAE 解碼器中添加時(shí)間注意力層，獲得對齊的 fMRI 模糊嵌入，這些嵌入可以用于生成模糊視頻，其缺乏語義內(nèi)容，但能感知場景的通用動作信息，在位置、形狀、場景等感知指標(biāo)上表現(xiàn)出最先進(jìn)的水平。

2、語義重建器（Semantics Reconstructor , SR）

語義重構(gòu)器（SR）的核心目標(biāo)是重建高質(zhì)量的關(guān)鍵幀圖像，以解決視覺刺激和 fMRI 信號之間的幀率不匹配的問題，從而提高最終視頻的保真度?，F(xiàn)有愈發(fā)成熟的 fMRI 到圖像重建研究促進(jìn)了我們的目標(biāo)，包括將 fMRI 進(jìn)行低維處理、關(guān)鍵幀圖像與 fMRI 的對齊、重建嵌入生成以及文本模態(tài)的重建增強(qiáng)。受到對比學(xué)習(xí)的啟發(fā)，我們在和之間進(jìn)行對比學(xué)習(xí)，通過額外的文本模態(tài)來增強(qiáng)重建嵌入。對比損失作為這一過程的訓(xùn)練損失。我們設(shè)置混合系數(shù)和來平衡多個(gè)損失。

其中，是關(guān)鍵幀圖像和 fMRI 對齊采用的結(jié)合了 MixCo 和對比損失的雙向損失，是重建時(shí)與 DALLE?2 相同的擴(kuò)散先驗(yàn)損失。

3、推理過程（Inference Process）

我們結(jié)合模糊的粗略視頻（PR 輸出）、高質(zhì)量的關(guān)鍵幀圖像（模糊視頻第一幀嵌入和 fMRI 嵌入輸入到 SR 中的 SDXL unCLIP 生成）和額外的文本模態(tài)分別作為、和Guidance 來重建具有高保真度、平滑度和一致性的最終視頻。我們采用 text-to-video（T2V）的擴(kuò)散模型來幫助重建視頻，而由于嵌入的語義僅來自文本模態(tài)。我們還需要通過增強(qiáng)來自視頻和圖像模態(tài)的語義來創(chuàng)建 “綜合語義” 嵌入，以幫助實(shí)現(xiàn) T2V 擴(kuò)散模型的可控生成。

4、多 fMRI 融合（Multi-fMRI Fusion）

如何從 fMRI 中重建更長的視頻呢？在推理過程中，我們考慮來自兩個(gè)相鄰的 fMRI 樣本的兩個(gè)重建關(guān)鍵幀的語義相似性，如果語義相似，我們就用前一個(gè) fMRI 重建視頻的尾幀替換后一個(gè) fMRI 的關(guān)鍵幀，該幀將作為后一個(gè) fMRI 的第一幀來生成視頻。如圖 2 所示，通過這一策略，我們首次實(shí)現(xiàn)了長達(dá) 6 秒的連續(xù)視頻重建。

圖 2：多 fMRI 融合的可視化。

實(shí)驗(yàn)結(jié)果

本文使用開源的 fMRI-video 數(shù)據(jù)集（cc2017 數(shù)據(jù)集）進(jìn)行了 fMRI-to-video 的重建實(shí)驗(yàn)，通過基于幀的和基于視頻的指標(biāo)進(jìn)行了定量評估，并進(jìn)行了全面分析。

從 fMRI 重建視頻的 Demos

表 1：NeuroClips 重建性能與其他方法的定量比較。

結(jié)果如上表所示，NeuroClips 在 7 個(gè)指標(biāo)中的 5 個(gè)上顯著優(yōu)于先前的方法，SSIM 性能大幅提升，表明其補(bǔ)充了像素級控制的不足。語義層面的指標(biāo)也總體上優(yōu)于先前的方法，證明了 NeuroClips 更好的語義對齊范式。在評估視頻平滑度的 ST 級指標(biāo)上，由于我們引入的模糊的粗略視頻（ Guidance），NeuroClips 遠(yuǎn)超 MinD-Video，重建視頻更加流暢。

神經(jīng)科學(xué)解釋性

此外，為了探究神經(jīng)層面的可解釋性，本文在腦平面上可視化了體素級別的權(quán)重以觀察整個(gè)大腦的關(guān)注度?？梢杂^察到，任何任務(wù)視覺皮層都占據(jù)著重要的位置，以及 SR 和 PR 的不同權(quán)重。

結(jié)論

本文創(chuàng)新性地提出了 NeuroClips，這是一種用于 fMRI-to-video 重建的新穎框架。通過感知重建和語義重建兩條路徑實(shí)現(xiàn)了體素級和語義級的 fMRI 視覺學(xué)習(xí)。我們可以在不進(jìn)行額外訓(xùn)練的情況下將它們配置到最新的視頻擴(kuò)散模型中，以生成更高質(zhì)量、更高幀率和更長的視頻。NeuroClips 能夠在語義級精度和像素級匹配程度上恢復(fù)視頻，從而在該領(lǐng)域建立了新的最佳水平，我們還可視化了 NeuroClips 的神經(jīng)科學(xué)可解釋性。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<meter id="ytfcl"></meter><nav id="ytfcl"><menu id="ytfcl"><label id="ytfcl"></label></menu></nav>