騰訊混元最新開源：一鍵生成電影級(jí)音效，性能表現(xiàn)全面SOTA

2025-08-29 08:59:59

最新趕到的是騰訊混元：剛剛正式開源端到端的視頻音效生成模型HunyuanVideo-Foley。

自帶聲音的視頻生成模型，開源版開卷！

最新趕到的是騰訊混元：剛剛正式開源端到端的視頻音效生成模型HunyuanVideo-Foley。

文本描述：片段一(0-6s): footsteps;片段二(6-21s): gunshot;片段三(21-27s): Flick whoosh, Haaah.

官方介紹這是一款專為視頻內(nèi)容創(chuàng)作者打造的音頻生成工具，無論是短視頻創(chuàng)作者、電影制作人、廣告創(chuàng)意人員，還是游戲開發(fā)者，HunyuanVideo-Foley都能提供專業(yè)級(jí)別的音頻配音能力，真正實(shí)現(xiàn)“看懂畫面、讀懂文字、配準(zhǔn)聲音”。

夸張滑稽的卡通音效和真實(shí)演奏配音都不在話下。

文字描述：The sound of the number 3’s bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

文字描述：Electric guitar power chords ringing out loudly and resonating.

并且完全開源，具體鏈接可見文末。

專業(yè)級(jí)別視頻配音自動(dòng)化

視頻生成領(lǐng)域的最新進(jìn)展已能產(chǎn)出視覺效果逼真的內(nèi)容，但缺乏同步音頻，嚴(yán)重影響了沉浸感。

視頻轉(zhuǎn)音頻（V2A）生成仍面臨三大關(guān)鍵挑戰(zhàn) ——

1、多模態(tài)數(shù)據(jù)集匱乏：現(xiàn)有音視頻數(shù)據(jù)集規(guī)模有限、質(zhì)量參差，導(dǎo)致模型面對(duì)集外場(chǎng)景時(shí)難以生成貼合的音效，無法覆蓋多樣化視頻配音場(chǎng)景。

2、語義響應(yīng)不均衡：音頻嚴(yán)重依賴文本語義，而忽略視頻語義，導(dǎo)致無法響應(yīng)視頻中文本未描述的音頻內(nèi)容。

3、音質(zhì)粗糙：現(xiàn)有方法生成的音頻仍存在較明顯的背景噪音和雜音，無法滿足專業(yè)制作對(duì)音質(zhì)的要求。

為解決以上挑戰(zhàn)，騰訊混元團(tuán)隊(duì)推出端到端多模態(tài)音頻生成框架——HunyuanVideo-Foley，可合成與視覺動(dòng)態(tài)和語義語境精確匹配的高保真音頻，真正實(shí)現(xiàn)了專業(yè)級(jí)別的視頻配音自動(dòng)化。

亮點(diǎn)一：泛化能力好，多場(chǎng)景音畫同步

HunyuanVideo-Foley對(duì)各種場(chǎng)景的視頻輸入都能夠生成音畫一致、語義對(duì)齊的音頻。

人物互動(dòng)、動(dòng)物活動(dòng)、自然景觀、卡通動(dòng)畫、科幻等各種場(chǎng)景，都能生成與畫面精準(zhǔn)匹配的音頻。

文本描述：With a faint sound as their hands parted, the two embraced. With soft background music.

文本描述：Creaking of old wooden windmill.

亮點(diǎn)二：多模態(tài)語義均衡響應(yīng)，文本畫面全兼顧

HunyuanVideo-Foley既能理解視頻畫面，又能結(jié)合文字描述，自動(dòng)平衡不同信息源，生成層次豐富的復(fù)合音效，不會(huì)因?yàn)檫^度依賴于文本語義而只生成部分音效。

例如，當(dāng)輸入一段包含海浪、沙灘人群及海鷗的視頻，且文字描述為“海浪聲”時(shí)，HunyuanVideo-Foley不僅能精準(zhǔn)生成與海浪畫面同步的波浪音效，響應(yīng)文本需求，還能捕捉視頻中人群交談的聲音、海鷗盤旋的鳴叫聲。

甚至根據(jù)場(chǎng)景氛圍自然融入輕柔的背景環(huán)境音，形成層次豐富的復(fù)合音效。

這種對(duì)文本描述與視頻細(xì)節(jié)的雙重響應(yīng)，避免了“顧文失畫”的問題，讓生成的音頻與整體場(chǎng)景高度契合，顯著提升視頻觀看的沉浸感。

文本描述：The sound of waves crashing.

亮點(diǎn)三：專業(yè)級(jí)音頻保真度

無論是汽車駛過濕滑路面的細(xì)節(jié)質(zhì)感，還是環(huán)境音的空間層次，HunyuanVideo-Foley均達(dá)到專業(yè)制作水準(zhǔn)。

HunyuanVideo-Foley生成的音頻還能精準(zhǔn)還原引擎從怠速到轟鳴的動(dòng)態(tài)變化、呈現(xiàn)輪胎與地面摩擦的質(zhì)感，甚至通過聲場(chǎng)變化體現(xiàn)車輛加速時(shí)的空間位移感。

文字描述：A car drives over the wet road.

性能表現(xiàn)全面領(lǐng)先

在多個(gè)權(quán)威評(píng)測(cè)基準(zhǔn)上，HunyuanVideo-Foley的性能表現(xiàn)全面領(lǐng)先。

在音頻保真度、視覺語義對(duì)齊、時(shí)間對(duì)齊和分布匹配等維度均達(dá)到了新的SOTA水平，超越了所有開源方案。

在權(quán)威評(píng)測(cè)基準(zhǔn)MovieGen-Audio-Bench中，HunyuanVideo-Foley的核心指標(biāo)相對(duì)當(dāng)前最先進(jìn)的MMAudio模型實(shí)現(xiàn)顯著提升：

音頻質(zhì)量指標(biāo)PQ（AudioBox-Aesthetics）從6.17提升至6.59；
視覺語義對(duì)齊指標(biāo)IB從0.27提升至0.35；
在時(shí)序?qū)R指標(biāo)DeSync上從0.80優(yōu)化至0.74，均達(dá)到當(dāng)前SOTA水平。

在主觀評(píng)測(cè)中，HunyuanVideo-Foley在音頻質(zhì)量、語義對(duì)齊和時(shí)間對(duì)齊三個(gè)維度的平均意見得分均超過4.1分（滿分5分），展現(xiàn)了接近專業(yè)水準(zhǔn)的音頻生成效果。

技術(shù)方案解讀

1、自動(dòng)化標(biāo)注與數(shù)據(jù)過濾的數(shù)據(jù)管線

首先，為實(shí)現(xiàn)可擴(kuò)展的多模態(tài)數(shù)據(jù)集構(gòu)建，騰訊混元團(tuán)隊(duì)開發(fā)了自動(dòng)化標(biāo)注與數(shù)據(jù)過濾的數(shù)據(jù)管線，成功構(gòu)建了約10萬小時(shí)級(jí)的高質(zhì)量TV2A數(shù)據(jù)集。

為模型訓(xùn)練提供了強(qiáng)大支撐，使得模型擁有強(qiáng)大的泛化能力，能夠在各種復(fù)雜的視頻條件下生成音畫一致、語義對(duì)齊的高質(zhì)量音頻，包括音效與背景音樂。

生成的音頻能夠與無聲視頻相結(jié)合，極大提升了視頻的真實(shí)感和沉浸感。

2、創(chuàng)新MMDiT架構(gòu)，實(shí)現(xiàn)多模態(tài)幀級(jí)對(duì)齊及文本注入

針對(duì)模態(tài)不平衡問題，HunyuanVideo-Foley創(chuàng)新設(shè)計(jì)了雙流多模態(tài)擴(kuò)散變換器（MMDiT）架構(gòu)，通過聯(lián)合自注意力機(jī)制建模視頻和音頻之間的幀級(jí)別對(duì)齊關(guān)系，再通過交叉注意力注入文本信息。

3、引入REPA損失函數(shù)，提供語義和聲學(xué)指導(dǎo)

HunyuanVideo-Foley采用了表征對(duì)齊（REPA）損失，通過將單流音頻DiT模塊的隱層嵌入與預(yù)訓(xùn)練自監(jiān)督模型提取的音頻特征對(duì)齊，顯著提升音頻質(zhì)量。

此外，騰訊混元團(tuán)隊(duì)還提出了一種改進(jìn)的DAC-VAE，采用滿足高保真要求的48kHz采樣率，并將離散表征擴(kuò)展至128維連續(xù)表征，大幅提升了HunyuanVideo-Foley的音頻重建能力。

在這種框架下搭建出的HunyuanVideo-Foley視頻音效生成能力，正為多元行業(yè)帶來高效便捷的解決方案：

針對(duì)短視頻創(chuàng)作者，能自動(dòng)適配搞笑段子、生活vlog、AI視頻等內(nèi)容的場(chǎng)景氛圍，一鍵生成貼合畫面節(jié)奏的背景音效，讓創(chuàng)意表達(dá)更具感染力；
助力電影制作團(tuán)隊(duì)突破傳統(tǒng)音效制作的周期與成本瓶頸，快速構(gòu)建環(huán)境音、擬音等細(xì)節(jié)豐富的聲效場(chǎng)景，實(shí)現(xiàn)降本提效的后期制作升級(jí)；
為廣告公司提供專業(yè)級(jí)音效定制服務(wù)，精準(zhǔn)匹配產(chǎn)品宣傳片的風(fēng)格調(diào)性，通過沉浸式聲效增強(qiáng)視覺沖擊力與品牌記憶點(diǎn)；
面向游戲開發(fā)者，則能依據(jù)游戲場(chǎng)景的動(dòng)態(tài)變化實(shí)時(shí)生成沉浸式環(huán)境音、角色動(dòng)作音效等，助力打造更具代入感的互動(dòng)體驗(yàn)。

項(xiàng)目官網(wǎng)：https://szczesnys.github.io/hunyuanvideo-foley/

代碼倉庫：https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

Hugging Face：https://huggingface.co/tencent/HunyuanVideo-Foley

一鍵體驗(yàn)視頻配音：https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=143

介紹頁：https://hunyuan.tencent.com/video/zh?tabIndex=0

責(zé)任編輯：張燕妮來源：量子位