騰訊混元最新開源:一鍵生成電影級(jí)音效,性能表現(xiàn)全面SOTA
自帶聲音的視頻生成模型,開源版開卷!
最新趕到的是騰訊混元:剛剛正式開源端到端的視頻音效生成模型HunyuanVideo-Foley。

文本描述:片段一(0-6s): footsteps;片段二(6-21s): gunshot;片段三(21-27s): Flick whoosh, Haaah.
官方介紹這是一款專為視頻內(nèi)容創(chuàng)作者打造的音頻生成工具,無論是短視頻創(chuàng)作者、電影制作人、廣告創(chuàng)意人員,還是游戲開發(fā)者,HunyuanVideo-Foley都能提供專業(yè)級(jí)別的音頻配音能力,真正實(shí)現(xiàn)“看懂畫面、讀懂文字、配準(zhǔn)聲音”。
夸張滑稽的卡通音效和真實(shí)演奏配音都不在話下。

文字描述:The sound of the number 3’s bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

文字描述:Electric guitar power chords ringing out loudly and resonating.
并且完全開源,具體鏈接可見文末。
專業(yè)級(jí)別視頻配音自動(dòng)化
視頻生成領(lǐng)域的最新進(jìn)展已能產(chǎn)出視覺效果逼真的內(nèi)容,但缺乏同步音頻,嚴(yán)重影響了沉浸感。
視頻轉(zhuǎn)音頻(V2A)生成仍面臨三大關(guān)鍵挑戰(zhàn) ——
1、多模態(tài)數(shù)據(jù)集匱乏:現(xiàn)有音視頻數(shù)據(jù)集規(guī)模有限、質(zhì)量參差,導(dǎo)致模型面對(duì)集外場(chǎng)景時(shí)難以生成貼合的音效,無法覆蓋多樣化視頻配音場(chǎng)景。
2、語義響應(yīng)不均衡:音頻嚴(yán)重依賴文本語義,而忽略視頻語義,導(dǎo)致無法響應(yīng)視頻中文本未描述的音頻內(nèi)容。
3、音質(zhì)粗糙:現(xiàn)有方法生成的音頻仍存在較明顯的背景噪音和雜音,無法滿足專業(yè)制作對(duì)音質(zhì)的要求。
為解決以上挑戰(zhàn),騰訊混元團(tuán)隊(duì)推出端到端多模態(tài)音頻生成框架——HunyuanVideo-Foley,可合成與視覺動(dòng)態(tài)和語義語境精確匹配的高保真音頻,真正實(shí)現(xiàn)了專業(yè)級(jí)別的視頻配音自動(dòng)化。
亮點(diǎn)一:泛化能力好,多場(chǎng)景音畫同步
HunyuanVideo-Foley對(duì)各種場(chǎng)景的視頻輸入都能夠生成音畫一致、語義對(duì)齊的音頻。
人物互動(dòng)、動(dòng)物活動(dòng)、自然景觀、卡通動(dòng)畫、科幻等各種場(chǎng)景,都能生成與畫面精準(zhǔn)匹配的音頻。

文本描述:With a faint sound as their hands parted, the two embraced. With soft background music.

文本描述:Creaking of old wooden windmill.
亮點(diǎn)二:多模態(tài)語義均衡響應(yīng),文本畫面全兼顧
HunyuanVideo-Foley既能理解視頻畫面,又能結(jié)合文字描述,自動(dòng)平衡不同信息源,生成層次豐富的復(fù)合音效,不會(huì)因?yàn)檫^度依賴于文本語義而只生成部分音效。
例如,當(dāng)輸入一段包含海浪、沙灘人群及海鷗的視頻,且文字描述為“海浪聲”時(shí),HunyuanVideo-Foley不僅能精準(zhǔn)生成與海浪畫面同步的波浪音效,響應(yīng)文本需求,還能捕捉視頻中人群交談的聲音、海鷗盤旋的鳴叫聲。
甚至根據(jù)場(chǎng)景氛圍自然融入輕柔的背景環(huán)境音,形成層次豐富的復(fù)合音效。
這種對(duì)文本描述與視頻細(xì)節(jié)的雙重響應(yīng),避免了“顧文失畫”的問題,讓生成的音頻與整體場(chǎng)景高度契合,顯著提升視頻觀看的沉浸感。

文本描述:The sound of waves crashing.
亮點(diǎn)三:專業(yè)級(jí)音頻保真度
無論是汽車駛過濕滑路面的細(xì)節(jié)質(zhì)感,還是環(huán)境音的空間層次,HunyuanVideo-Foley均達(dá)到專業(yè)制作水準(zhǔn)。
HunyuanVideo-Foley生成的音頻還能精準(zhǔn)還原引擎從怠速到轟鳴的動(dòng)態(tài)變化、呈現(xiàn)輪胎與地面摩擦的質(zhì)感,甚至通過聲場(chǎng)變化體現(xiàn)車輛加速時(shí)的空間位移感。

文字描述:A car drives over the wet road.
性能表現(xiàn)全面領(lǐng)先

在多個(gè)權(quán)威評(píng)測(cè)基準(zhǔn)上,HunyuanVideo-Foley的性能表現(xiàn)全面領(lǐng)先。
在音頻保真度、視覺語義對(duì)齊、時(shí)間對(duì)齊和分布匹配等維度均達(dá)到了新的SOTA水平,超越了所有開源方案。

在權(quán)威評(píng)測(cè)基準(zhǔn)MovieGen-Audio-Bench中,HunyuanVideo-Foley的核心指標(biāo)相對(duì)當(dāng)前最先進(jìn)的MMAudio模型實(shí)現(xiàn)顯著提升:
- 音頻質(zhì)量指標(biāo)PQ(AudioBox-Aesthetics)從6.17提升至6.59;
 - 視覺語義對(duì)齊指標(biāo)IB從0.27提升至0.35;
 - 在時(shí)序?qū)R指標(biāo)DeSync上從0.80優(yōu)化至0.74,均達(dá)到當(dāng)前SOTA水平。
 
在主觀評(píng)測(cè)中,HunyuanVideo-Foley在音頻質(zhì)量、語義對(duì)齊和時(shí)間對(duì)齊三個(gè)維度的平均意見得分均超過4.1分(滿分5分),展現(xiàn)了接近專業(yè)水準(zhǔn)的音頻生成效果。
技術(shù)方案解讀

1、自動(dòng)化標(biāo)注與數(shù)據(jù)過濾的數(shù)據(jù)管線
首先,為實(shí)現(xiàn)可擴(kuò)展的多模態(tài)數(shù)據(jù)集構(gòu)建,騰訊混元團(tuán)隊(duì)開發(fā)了自動(dòng)化標(biāo)注與數(shù)據(jù)過濾的數(shù)據(jù)管線,成功構(gòu)建了約10萬小時(shí)級(jí)的高質(zhì)量TV2A數(shù)據(jù)集。
為模型訓(xùn)練提供了強(qiáng)大支撐,使得模型擁有強(qiáng)大的泛化能力,能夠在各種復(fù)雜的視頻條件下生成音畫一致、語義對(duì)齊的高質(zhì)量音頻,包括音效與背景音樂。
生成的音頻能夠與無聲視頻相結(jié)合,極大提升了視頻的真實(shí)感和沉浸感。

2、創(chuàng)新MMDiT架構(gòu),實(shí)現(xiàn)多模態(tài)幀級(jí)對(duì)齊及文本注入
針對(duì)模態(tài)不平衡問題,HunyuanVideo-Foley創(chuàng)新設(shè)計(jì)了雙流多模態(tài)擴(kuò)散變換器(MMDiT)架構(gòu),通過聯(lián)合自注意力機(jī)制建模視頻和音頻之間的幀級(jí)別對(duì)齊關(guān)系,再通過交叉注意力注入文本信息。
3、引入REPA損失函數(shù),提供語義和聲學(xué)指導(dǎo)
HunyuanVideo-Foley采用了表征對(duì)齊(REPA)損失,通過將單流音頻DiT模塊的隱層嵌入與預(yù)訓(xùn)練自監(jiān)督模型提取的音頻特征對(duì)齊,顯著提升音頻質(zhì)量。
此外,騰訊混元團(tuán)隊(duì)還提出了一種改進(jìn)的DAC-VAE,采用滿足高保真要求的48kHz采樣率,并將離散表征擴(kuò)展至128維連續(xù)表征,大幅提升了HunyuanVideo-Foley的音頻重建能力。
在這種框架下搭建出的HunyuanVideo-Foley視頻音效生成能力,正為多元行業(yè)帶來高效便捷的解決方案:
- 針對(duì)短視頻創(chuàng)作者,能自動(dòng)適配搞笑段子、生活vlog、AI視頻等內(nèi)容的場(chǎng)景氛圍,一鍵生成貼合畫面節(jié)奏的背景音效,讓創(chuàng)意表達(dá)更具感染力;
 - 助力電影制作團(tuán)隊(duì)突破傳統(tǒng)音效制作的周期與成本瓶頸,快速構(gòu)建環(huán)境音、擬音等細(xì)節(jié)豐富的聲效場(chǎng)景,實(shí)現(xiàn)降本提效的后期制作升級(jí);
 - 為廣告公司提供專業(yè)級(jí)音效定制服務(wù),精準(zhǔn)匹配產(chǎn)品宣傳片的風(fēng)格調(diào)性,通過沉浸式聲效增強(qiáng)視覺沖擊力與品牌記憶點(diǎn);
 - 面向游戲開發(fā)者,則能依據(jù)游戲場(chǎng)景的動(dòng)態(tài)變化實(shí)時(shí)生成沉浸式環(huán)境音、角色動(dòng)作音效等,助力打造更具代入感的互動(dòng)體驗(yàn)。
 
項(xiàng)目官網(wǎng):https://szczesnys.github.io/hunyuanvideo-foley/
代碼倉庫:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley
一鍵體驗(yàn)視頻配音:https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=143
介紹頁:https://hunyuan.tencent.com/video/zh?tabIndex=0















 
 
 














 
 
 
 