事件相機(jī)+AI視頻生成，港大CUBE框架入選ICIP，無需訓(xùn)練實(shí)現(xiàn)可控視頻生成

作者：量子位 2024-10-28 07:30:00

CUBE不僅是一項(xiàng)技術(shù)，更是一次在事件相機(jī)與AI生成視頻領(lǐng)域的新探索。

在這個(gè)信息爆炸的時(shí)代，如何讓AI生成的視頻更具創(chuàng)意，又符合特定需求？

來自香港大學(xué)的最新研究《基于事件、無需訓(xùn)練的可控視頻生成框架 CUBE》帶來一個(gè)全新的解決方案。

這一框架利用了事件相機(jī)捕捉動(dòng)態(tài)邊緣的能力，將AI生成的視頻帶入了一個(gè)新的維度，精準(zhǔn)又高效。論文原標(biāo)題是“Controllable Unsupervised Event-based Video Generation”，

發(fā)表于圖像處理盛會(huì)ICIP并被選為Oral（口頭報(bào)告），并受邀在WACV workshop演講。

什么是事件相機(jī)？

在深入了解CUBE框架之前，先來認(rèn)識一下事件相機(jī)。

不同于傳統(tǒng)相機(jī)的定時(shí)捕捉，事件相機(jī)模仿生物的視覺系統(tǒng)，只捕捉像素點(diǎn)亮度變化的“事件”，就像是只記錄畫面的精華部分。

這樣不僅可以有效減少冗余數(shù)據(jù)，還可以顯著降低耗能。

尤其是在高速動(dòng)態(tài)或光線變化大的場景下，事件相機(jī)比傳統(tǒng)相機(jī)更有優(yōu)勢。而這些獨(dú)特的“事件數(shù)據(jù)”正是CUBE框架的核心。

△左：普通相機(jī)拍的；右：事件相機(jī)拍的

簡單說，事件相機(jī)和普通相機(jī)不同，捕捉的是物體邊緣的動(dòng)態(tài)細(xì)節(jié)，就像你腦中一閃而過的靈感，節(jié)省了大量帶寬還能省電。

CUBE框架結(jié)合了這些“閃現(xiàn)”的邊緣數(shù)據(jù)和文字描述，無需訓(xùn)練就能合成符合需求的視頻！這不僅能讓你生成的場景更“合胃口”，還能讓視頻質(zhì)量、時(shí)間一致性和文本匹配度都蹭蹭上漲。

為什么要用CUBE？

其他方法或是需要大量訓(xùn)練數(shù)據(jù)，或是生成效果欠佳。CUBE框架不僅解決了這些問題，還在多項(xiàng)指標(biāo)上表現(xiàn)出色。

無論是視覺效果、文本匹配度還是幀間一致性，CUBE都表現(xiàn)優(yōu)異。

可以這樣想：CUBE就像給事件相機(jī)配上了智能“濾鏡”，讓生成的視頻不僅生動(dòng)還符合描述，比如讓鐵人也能在馬路上跳起月球舞步！

CUBE框架是如何工作的？

CUBE的全稱是“Controllable, Unsupervised, Based on Events”，直譯過來就是“可控的、無需訓(xùn)練的、基于事件的”視頻生成框架。

它通過提取事件中的邊緣信息，再結(jié)合用戶提供的文字描述生成視頻。在方法上，CUBE主要依賴擴(kuò)散模型生成技術(shù)。

擴(kuò)散模型通過向圖像添加隨機(jī)噪聲并逐步還原來生成圖片，但團(tuán)隊(duì)進(jìn)一步優(yōu)化了這個(gè)過程，能讓它根據(jù)“事件”提供的邊緣數(shù)據(jù)生成視頻。

CUBE的核心方法

1. 邊緣提取：事件流記錄了物體運(yùn)動(dòng)的軌跡，而CUBE的首要任務(wù)就是將這些事件轉(zhuǎn)換成邊緣信息。團(tuán)隊(duì)設(shè)計(jì)了一個(gè)邊緣提取模塊，把事件數(shù)據(jù)分成多個(gè)時(shí)間段，提取出關(guān)鍵的空間位置，從而形成精確的邊緣圖。這些邊緣圖不僅保留了運(yùn)動(dòng)物體的輪廓，還能讓視頻生成更流暢。

2. 視頻生成：有了邊緣數(shù)據(jù)之后，CUBE結(jié)合了文字描述生成視頻。通過擴(kuò)散模型的逐步還原過程，可以生成多個(gè)與描述相匹配的圖像幀，并用插幀技術(shù)讓視頻更加平滑一致。這個(gè)過程不需要大量的訓(xùn)練數(shù)據(jù)，因?yàn)镃UBE直接調(diào)用了預(yù)訓(xùn)練的擴(kuò)散模型來實(shí)現(xiàn)高質(zhì)量生成。

3. 控制性與一致性：采用了ControlVideo框架，這一框架具有優(yōu)秀的可控性，通過文字描述來控制生成的視頻內(nèi)容，使每幀的生成都符合特定的要求。ControlVideo和CUBE的組合解決了傳統(tǒng)方法中視頻生成一致性不足的問題，讓內(nèi)容更生動(dòng)、更貼合描述。

CUBE的性能表現(xiàn)

在實(shí)驗(yàn)中，CUBE的表現(xiàn)遠(yuǎn)超現(xiàn)有方法。在視頻質(zhì)量、文本匹配度和時(shí)間一致性等多個(gè)指標(biāo)上，CUBE都取得了優(yōu)異的成績。

定量實(shí)驗(yàn)顯示，CUBE生成的幀間一致性和文本匹配度都比ControlNet、ControlVideo等方法更優(yōu)。此外，團(tuán)隊(duì)還做了用戶偏好測試，結(jié)果顯示參與者普遍更喜歡CUBE生成的視頻。

未來展望

當(dāng)然，CUBE還有提升的空間。未來團(tuán)隊(duì)希望將邊緣信息和紋理信息結(jié)合，使視頻更具細(xì)節(jié)和真實(shí)感，同時(shí)探索更多領(lǐng)域適用性，甚至將其應(yīng)用在實(shí)時(shí)場景中。這一技術(shù)不僅適合電影、動(dòng)畫生成等領(lǐng)域，還可以用于自動(dòng)駕駛、監(jiān)控等需要快速識別動(dòng)態(tài)環(huán)境的場景。

CUBE不僅是一項(xiàng)技術(shù)，更是一次在事件相機(jī)與AI生成視頻領(lǐng)域的新探索。

如果你也對AI生成視頻感興趣，可進(jìn)一步參考完整論文和開源代碼。

論文地址：https://ieeexplore.ieee.org/abstract/document/10647468
代碼已開源：https://github.com/IndigoPurple/cube

責(zé)任編輯：張燕妮來源：量子位

AI 視頻生成

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

事件相機(jī)+AI視頻生成，港大CUBE框架入選ICIP，無需訓(xùn)練實(shí)現(xiàn)可控視頻生成