原來(lái)Veo 3早有苗頭!人大聯(lián)合值得買(mǎi)科技在CVPR 2025提出全新「圖像到有聲視頻」生成框架
本文介紹工作由中國(guó)人民大學(xué)高瓴人工智能學(xué)院宋睿華團(tuán)隊(duì)、李崇軒、許洪騰與值得買(mǎi)科技 AI 團(tuán)隊(duì)共同完成。第一作者王希華是人大高瓴博士生(導(dǎo)師:宋睿華),他的研究興趣主要在多模態(tài)生成,之前提出利用音頻布局(audio layout)為視頻生成同步聲音的TiVA模型,已發(fā)表在MM 2024。宋睿華的團(tuán)隊(duì)主要研究方向?yàn)槎嗄B(tài)理解、生成與交互。
想象一下:只需一張靜態(tài)圖片,系統(tǒng)就能自動(dòng)生成一段「動(dòng)態(tài)的、有聲音的」的短視頻,畫(huà)面中的人或物做出自然動(dòng)作變化的同時(shí),也發(fā)出對(duì)應(yīng)的聲音——比如小雞抬頭打鳴、手指按下快門(mén)并伴隨咔嚓聲,這正是「圖像轉(zhuǎn)有聲視頻(Image-to-Sounding-Video, I2SV)」的目標(biāo)。
近日,來(lái)自中國(guó)人民大學(xué)高瓴人工智能學(xué)院與值得買(mǎi)科技 AI 團(tuán)隊(duì)在 CVPR 2025 會(huì)議上發(fā)表了一項(xiàng)新工作,首次提出了一種從靜態(tài)圖像直接生成同步音視頻內(nèi)容的生成框架。其核心設(shè)計(jì) JointDiT(Joint Diffusion Transformer)框架實(shí)現(xiàn)了圖像 → 動(dòng)態(tài)視頻 + 聲音的高質(zhì)量聯(lián)合生成。

- 論文標(biāo)題:Animate and Sound an Image
- 項(xiàng)目主頁(yè):https://anonymoushub4ai.github.io/JointDiT
為什么圖像轉(zhuǎn)有聲視頻是「AI 多模態(tài)生成」的新藍(lán)海?
人類(lèi)對(duì)世界的感知本質(zhì)上是多模態(tài)的。視覺(jué)與聽(tīng)覺(jué)作為最主要的感官通道,通常以協(xié)同互補(bǔ)的方式構(gòu)建起完整的認(rèn)知體驗(yàn)——枝葉搖曳伴隨沙沙風(fēng)聲,浪花飛濺伴隨潮汐轟鳴,這些視聽(tīng)融合的場(chǎng)景不僅豐富了感官感受,也承載了我們對(duì)物理世界深層次的理解。
盡管近年來(lái)生成模型在單一模態(tài)的內(nèi)容合成上已取得長(zhǎng)足進(jìn)展,如生成高保真的視頻畫(huà)面或自然的音頻片段,但視覺(jué)與聽(tīng)覺(jué)這對(duì)天然耦合的模態(tài),長(zhǎng)期以來(lái)卻被拆分為兩條相對(duì)獨(dú)立的研究路徑,缺乏統(tǒng)一的建模機(jī)制。
最近,谷歌在其視頻生成模型 Veo 3 中引入了同步音頻的功能,讓視頻生成真正邁入「有聲時(shí)代」,成為行業(yè)關(guān)注的亮點(diǎn)。與這一趨勢(shì)不謀而合,本文首次提出并系統(tǒng)定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務(wù):讓靜態(tài)圖像「動(dòng)」起來(lái)的同時(shí),生成與之語(yǔ)義匹配、時(shí)間同步的音頻內(nèi)容。
雖然當(dāng)前已有技術(shù)能夠分別實(shí)現(xiàn)從圖像生成視頻或音頻,但將兩者「拼接」在一起往往難以自然融合,常見(jiàn)的問(wèn)題包括語(yǔ)義錯(cuò)位與節(jié)奏失調(diào):比如視頻中的小狗并未張嘴,卻配上了汪汪的叫聲;又或是吠叫的動(dòng)作剛發(fā)生,聲音卻慢半拍甚至不協(xié)調(diào)。


圖像生成有聲視頻示例:上:圖生視頻(SVD)+ 圖生音頻(Im2Wav),下:本工作 JointDiT
因此,如何從一張圖片出發(fā),生成同時(shí)具備視覺(jué)動(dòng)態(tài)性與聽(tīng)覺(jué)一致性的完整「視聽(tīng)視頻」,成為多模態(tài)生成領(lǐng)域亟待突破的關(guān)鍵挑戰(zhàn)。
JointDiT:實(shí)現(xiàn)圖像 → 同步音視頻的聯(lián)合生成
任務(wù)定義:這項(xiàng)研究把圖像轉(zhuǎn)有聲視頻任務(wù)(I2SV)定義為:以靜態(tài)圖像作為輸入條件(并看作輸出視頻首幀),生成一個(gè)語(yǔ)義匹配、時(shí)序同步的「視頻 + 音頻」(有聲視頻)片段。
解決方案:論文提出了一種全新架構(gòu) JointDiT,探討了如何利用兩個(gè)強(qiáng)大的單模態(tài)預(yù)訓(xùn)練擴(kuò)散模型(一個(gè)視頻生成器,一個(gè)音頻生成器),在其上構(gòu)建統(tǒng)一的聯(lián)合生成框架實(shí)現(xiàn)多模態(tài)協(xié)同生成。
其主要設(shè)計(jì)包括:
分解與重組預(yù)訓(xùn)練模型,實(shí)現(xiàn)聯(lián)合生成框架
為了構(gòu)建高效的圖像轉(zhuǎn)聲音視頻模型,JointDiT 采用了「重組 + 協(xié)同」的創(chuàng)新思路:首先,作者對(duì)預(yù)訓(xùn)練的音頻和視頻擴(kuò)散模型進(jìn)行層級(jí)解構(gòu),將每個(gè)模型劃分為三大模塊:輸入層(負(fù)責(zé)模態(tài)嵌入)、專(zhuān)家層(模態(tài)內(nèi)部理解與壓縮)、輸出層(解碼生成)。隨后,在兩個(gè)模態(tài)的專(zhuān)家層之間引入聯(lián)合注意力機(jī)制與前向模塊,形成核心的「Joint Block」,實(shí)現(xiàn)音視頻間的深層交互。最終,通過(guò)共享 Joint Block、獨(dú)立輸入輸出層的設(shè)計(jì),JointDiT 在保持模態(tài)差異處理能力的同時(shí),實(shí)現(xiàn)了真正協(xié)同的多模態(tài)生成,創(chuàng)新性地實(shí)現(xiàn)了從一張圖片直接生成同步音視頻內(nèi)容。

引入感知式聯(lián)合注意力,精準(zhǔn)建??缒B(tài)互動(dòng)
傳統(tǒng)的在全序列(音視頻序列)上應(yīng)用自注意力機(jī)制(Full Attention)難以處理視頻與音頻在時(shí)間、空間、頻率維度上的異構(gòu)差異。JointDiT 專(zhuān)為此設(shè)計(jì)了感知式聯(lián)合注意力機(jī)制(Perceiver Joint Attention),使用模態(tài)特定的 Query-Key-Value 映射,實(shí)現(xiàn)對(duì)視頻幀與音頻序列之間的細(xì)粒度互動(dòng)建模,有效提升同步與語(yǔ)義一致性。
聯(lián)合引導(dǎo)機(jī)制,兼顧條件控制與模態(tài)協(xié)同
傳統(tǒng)的無(wú)分類(lèi)器引導(dǎo)(classifier-free guidance, CFG)技術(shù)主要用于強(qiáng)化生成結(jié)果對(duì)條件的響應(yīng),同時(shí)抑制低質(zhì)量輸出。但在多模態(tài)生成中,單純的條件對(duì)齊并不足以保障音視頻之間的深度協(xié)同。為此,JointDiT 提出聯(lián)合無(wú)分類(lèi)器引導(dǎo)(JointCFG)及其增強(qiáng)版 JointCFG*,在保留圖像條件引導(dǎo)對(duì)齊的同時(shí),強(qiáng)化了模型對(duì)跨模態(tài)之間交互的關(guān)注,進(jìn)而提升了音視頻之間的語(yǔ)義一致性與時(shí)間同步性。該策略不僅優(yōu)化了生成質(zhì)量,還顯著增強(qiáng)了視頻的動(dòng)態(tài)表現(xiàn)力。

實(shí)驗(yàn)結(jié)果如何?高質(zhì)量、高一致性!


研究團(tuán)隊(duì)在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集(AVSync15、Landscape 和 GreatestHits)上進(jìn)行了大量測(cè)試,從視頻質(zhì)量、音頻質(zhì)量、同步性和語(yǔ)義一致性四個(gè)維度全面評(píng)估。
結(jié)果顯示,JointDiT 在視頻質(zhì)量與音頻自然度方面均實(shí)現(xiàn)顯著提升,F(xiàn)VD、FAD 等核心指標(biāo)全面優(yōu)于基于 pipeline 組合的多階段方法。音視頻同步性表現(xiàn)優(yōu)異,在自動(dòng)評(píng)價(jià)指標(biāo)上與當(dāng)前最強(qiáng)的音頻驅(qū)動(dòng)視頻生成模型持平。語(yǔ)義匹配也更為精準(zhǔn),視頻畫(huà)面與聲音的「含義」更加契合。
相比之下,諸如 CogVideoX、HunyuanVideo 等文本驅(qū)動(dòng)的大模型,雖然具備強(qiáng)大的生成能力,但由于依賴(lài)圖片生成文本描述(caption)作為中介,過(guò)程中伴隨大量視覺(jué)信號(hào)丟失,導(dǎo)致最終畫(huà)面和輸入圖片匹配度(如 FVD、IB-IV 指標(biāo))表現(xiàn)不如直接采用圖像生成音視頻的 JointDiT。事實(shí)表明,直接建模圖像到音視頻的統(tǒng)一路徑,能更有效保留原始視覺(jué)信息,生成結(jié)果更加真實(shí)一致。

在用戶(hù)主觀(guān)打分測(cè)試中,JointDiT 在「視頻質(zhì)量」、「音頻質(zhì)量」、「語(yǔ)義一致性」、「同步性」與「整體效果」五項(xiàng)評(píng)分中均排名第一,領(lǐng)先第二名近 20%。
一張圖生成動(dòng)態(tài)有聲視頻,背后竟有這么多玄機(jī)?
我們以四個(gè)生成案例為例(輸入圖像均作為視頻首幀):
案例 1:手指演奏畫(huà)面中是一根手指搭在吹奏的小號(hào)上,生成的視頻中指頭輕微顫動(dòng),音頻同步響起清脆的撥弦音,仿佛看見(jiàn)了真實(shí)演奏。

案例 2:棍擊物體輸入圖像中,一只手正握著棍子對(duì)準(zhǔn)物體。JointDiT 生成的視頻中,棍子精準(zhǔn)敲擊目標(biāo),畫(huà)面同步傳來(lái)清脆的敲擊聲,聲音的質(zhì)感還根據(jù)被敲物體的材質(zhì)發(fā)生變化,真實(shí)自然,打擊感十足。

案例 3:保齡球擊瓶靜態(tài)圖中是一顆保齡球朝瓶子方向滾動(dòng)。生成視頻中,保齡球沿軌道前行,撞擊瓶子時(shí)發(fā)出「砰」的撞擊聲,瓶子傾倒時(shí)伴隨一連串碰撞與倒地聲,整個(gè)過(guò)程視聽(tīng)同步、節(jié)奏自然,細(xì)節(jié)豐富,極具臨場(chǎng)感。

案例 4:閃電雷鳴輸入圖像為烏云密布的天空。JointDiT 生成的視頻中,一道閃電劃破長(zhǎng)空,緊接著傳來(lái)低沉有力的雷鳴聲,電光與聲響之間保留自然的時(shí)間延遲,模擬真實(shí)物理世界中的視聽(tīng)順序,帶來(lái)逼真的沉浸式體驗(yàn)。

結(jié)語(yǔ)與展望
JointDiT 的提出,不僅是一次生成技術(shù)的突破,更彰顯了 AI 向多模態(tài)統(tǒng)一建模演進(jìn)的趨勢(shì)。它不僅可應(yīng)用于娛樂(lè)內(nèi)容創(chuàng)作、影視制作等實(shí)際場(chǎng)景,也為多模態(tài)通用模型乃至「世界模型」的研究提供了新的思路與啟發(fā)。接下來(lái),研究團(tuán)隊(duì)計(jì)劃將 JointDiT 擴(kuò)展至圖像、文本、音頻、視頻四模態(tài)的聯(lián)合建模,為構(gòu)建更通用、更智能的多模態(tài)生成系統(tǒng)奠定基礎(chǔ)。
未來(lái),或許我們只需一張照片、一段文字,就能完整聽(tīng)到看到它講述的故事。
如需了解更多技術(shù)細(xì)節(jié)與案例演示,請(qǐng)?jiān)L問(wèn)官方 Demo 頁(yè),論文、代碼和模型將近期公開(kāi),敬請(qǐng)期待!



































