偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

騰訊混元最新開源:一鍵生成電影級(jí)音效,性能表現(xiàn)全面SOTA

人工智能 新聞
最新趕到的是騰訊混元:剛剛正式開源端到端的視頻音效生成模型HunyuanVideo-Foley。

自帶聲音的視頻生成模型,開源版開卷!

最新趕到的是騰訊混元:剛剛正式開源端到端的視頻音效生成模型HunyuanVideo-Foley。

文本描述:片段一(0-6s): footsteps;片段二(6-21s): gunshot;片段三(21-27s): Flick whoosh, Haaah.

官方介紹這是一款專為視頻內(nèi)容創(chuàng)作者打造的音頻生成工具,無論是短視頻創(chuàng)作者、電影制作人、廣告創(chuàng)意人員,還是游戲開發(fā)者,HunyuanVideo-Foley都能提供專業(yè)級(jí)別的音頻配音能力,真正實(shí)現(xiàn)“看懂畫面、讀懂文字、配準(zhǔn)聲音”。

夸張滑稽的卡通音效和真實(shí)演奏配音都不在話下。

文字描述:The sound of the number 3’s bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

文字描述:Electric guitar power chords ringing out loudly and resonating.

并且完全開源,具體鏈接可見文末。

專業(yè)級(jí)別視頻配音自動(dòng)化

視頻生成領(lǐng)域的最新進(jìn)展已能產(chǎn)出視覺效果逼真的內(nèi)容,但缺乏同步音頻,嚴(yán)重影響了沉浸感。

視頻轉(zhuǎn)音頻(V2A)生成仍面臨三大關(guān)鍵挑戰(zhàn) ——

1、多模態(tài)數(shù)據(jù)集匱乏:現(xiàn)有音視頻數(shù)據(jù)集規(guī)模有限、質(zhì)量參差,導(dǎo)致模型面對(duì)集外場(chǎng)景時(shí)難以生成貼合的音效,無法覆蓋多樣化視頻配音場(chǎng)景。

2、語義響應(yīng)不均衡:音頻嚴(yán)重依賴文本語義,而忽略視頻語義,導(dǎo)致無法響應(yīng)視頻中文本未描述的音頻內(nèi)容。

3、音質(zhì)粗糙:現(xiàn)有方法生成的音頻仍存在較明顯的背景噪音和雜音,無法滿足專業(yè)制作對(duì)音質(zhì)的要求。

為解決以上挑戰(zhàn),騰訊混元團(tuán)隊(duì)推出端到端多模態(tài)音頻生成框架——HunyuanVideo-Foley,可合成與視覺動(dòng)態(tài)和語義語境精確匹配的高保真音頻,真正實(shí)現(xiàn)了專業(yè)級(jí)別的視頻配音自動(dòng)化。

亮點(diǎn)一:泛化能力好,多場(chǎng)景音畫同步

HunyuanVideo-Foley對(duì)各種場(chǎng)景的視頻輸入都能夠生成音畫一致、語義對(duì)齊的音頻。

人物互動(dòng)、動(dòng)物活動(dòng)、自然景觀、卡通動(dòng)畫、科幻等各種場(chǎng)景,都能生成與畫面精準(zhǔn)匹配的音頻。

文本描述:With a faint sound as their hands parted, the two embraced. With soft background music.

文本描述:Creaking of old wooden windmill.

亮點(diǎn)二:多模態(tài)語義均衡響應(yīng),文本畫面全兼顧

HunyuanVideo-Foley既能理解視頻畫面,又能結(jié)合文字描述,自動(dòng)平衡不同信息源,生成層次豐富的復(fù)合音效,不會(huì)因?yàn)檫^度依賴于文本語義而只生成部分音效。

例如,當(dāng)輸入一段包含海浪、沙灘人群及海鷗的視頻,且文字描述為“海浪聲”時(shí),HunyuanVideo-Foley不僅能精準(zhǔn)生成與海浪畫面同步的波浪音效,響應(yīng)文本需求,還能捕捉視頻中人群交談的聲音、海鷗盤旋的鳴叫聲。

甚至根據(jù)場(chǎng)景氛圍自然融入輕柔的背景環(huán)境音,形成層次豐富的復(fù)合音效。

這種對(duì)文本描述與視頻細(xì)節(jié)的雙重響應(yīng),避免了“顧文失畫”的問題,讓生成的音頻與整體場(chǎng)景高度契合,顯著提升視頻觀看的沉浸感。

文本描述:The sound of waves crashing.

亮點(diǎn)三:專業(yè)級(jí)音頻保真度

無論是汽車駛過濕滑路面的細(xì)節(jié)質(zhì)感,還是環(huán)境音的空間層次,HunyuanVideo-Foley均達(dá)到專業(yè)制作水準(zhǔn)。

HunyuanVideo-Foley生成的音頻還能精準(zhǔn)還原引擎從怠速到轟鳴的動(dòng)態(tài)變化、呈現(xiàn)輪胎與地面摩擦的質(zhì)感,甚至通過聲場(chǎng)變化體現(xiàn)車輛加速時(shí)的空間位移感。

文字描述:A car drives over the wet road.

性能表現(xiàn)全面領(lǐng)先

在多個(gè)權(quán)威評(píng)測(cè)基準(zhǔn)上,HunyuanVideo-Foley的性能表現(xiàn)全面領(lǐng)先。

在音頻保真度、視覺語義對(duì)齊、時(shí)間對(duì)齊和分布匹配等維度均達(dá)到了新的SOTA水平,超越了所有開源方案。

在權(quán)威評(píng)測(cè)基準(zhǔn)MovieGen-Audio-Bench中,HunyuanVideo-Foley的核心指標(biāo)相對(duì)當(dāng)前最先進(jìn)的MMAudio模型實(shí)現(xiàn)顯著提升:

  • 音頻質(zhì)量指標(biāo)PQ(AudioBox-Aesthetics)從6.17提升至6.59;
  • 視覺語義對(duì)齊指標(biāo)IB從0.27提升至0.35;
  • 在時(shí)序?qū)R指標(biāo)DeSync上從0.80優(yōu)化至0.74,均達(dá)到當(dāng)前SOTA水平。

在主觀評(píng)測(cè)中,HunyuanVideo-Foley在音頻質(zhì)量、語義對(duì)齊和時(shí)間對(duì)齊三個(gè)維度的平均意見得分均超過4.1分(滿分5分),展現(xiàn)了接近專業(yè)水準(zhǔn)的音頻生成效果。

技術(shù)方案解讀

1、自動(dòng)化標(biāo)注與數(shù)據(jù)過濾的數(shù)據(jù)管線

首先,為實(shí)現(xiàn)可擴(kuò)展的多模態(tài)數(shù)據(jù)集構(gòu)建,騰訊混元團(tuán)隊(duì)開發(fā)了自動(dòng)化標(biāo)注與數(shù)據(jù)過濾的數(shù)據(jù)管線,成功構(gòu)建了約10萬小時(shí)級(jí)的高質(zhì)量TV2A數(shù)據(jù)集。

為模型訓(xùn)練提供了強(qiáng)大支撐,使得模型擁有強(qiáng)大的泛化能力,能夠在各種復(fù)雜的視頻條件下生成音畫一致、語義對(duì)齊的高質(zhì)量音頻,包括音效與背景音樂。

生成的音頻能夠與無聲視頻相結(jié)合,極大提升了視頻的真實(shí)感和沉浸感。

2、創(chuàng)新MMDiT架構(gòu),實(shí)現(xiàn)多模態(tài)幀級(jí)對(duì)齊及文本注入

針對(duì)模態(tài)不平衡問題,HunyuanVideo-Foley創(chuàng)新設(shè)計(jì)了雙流多模態(tài)擴(kuò)散變換器(MMDiT)架構(gòu),通過聯(lián)合自注意力機(jī)制建模視頻和音頻之間的幀級(jí)別對(duì)齊關(guān)系,再通過交叉注意力注入文本信息。

3、引入REPA損失函數(shù),提供語義和聲學(xué)指導(dǎo)

HunyuanVideo-Foley采用了表征對(duì)齊(REPA)損失,通過將單流音頻DiT模塊的隱層嵌入與預(yù)訓(xùn)練自監(jiān)督模型提取的音頻特征對(duì)齊,顯著提升音頻質(zhì)量。

此外,騰訊混元團(tuán)隊(duì)還提出了一種改進(jìn)的DAC-VAE,采用滿足高保真要求的48kHz采樣率,并將離散表征擴(kuò)展至128維連續(xù)表征,大幅提升了HunyuanVideo-Foley的音頻重建能力。

在這種框架下搭建出的HunyuanVideo-Foley視頻音效生成能力,正為多元行業(yè)帶來高效便捷的解決方案:

  • 針對(duì)短視頻創(chuàng)作者,能自動(dòng)適配搞笑段子、生活vlog、AI視頻等內(nèi)容的場(chǎng)景氛圍,一鍵生成貼合畫面節(jié)奏的背景音效,讓創(chuàng)意表達(dá)更具感染力;
  • 助力電影制作團(tuán)隊(duì)突破傳統(tǒng)音效制作的周期與成本瓶頸,快速構(gòu)建環(huán)境音、擬音等細(xì)節(jié)豐富的聲效場(chǎng)景,實(shí)現(xiàn)降本提效的后期制作升級(jí);
  • 為廣告公司提供專業(yè)級(jí)音效定制服務(wù),精準(zhǔn)匹配產(chǎn)品宣傳片的風(fēng)格調(diào)性,通過沉浸式聲效增強(qiáng)視覺沖擊力與品牌記憶點(diǎn);
  • 面向游戲開發(fā)者,則能依據(jù)游戲場(chǎng)景的動(dòng)態(tài)變化實(shí)時(shí)生成沉浸式環(huán)境音、角色動(dòng)作音效等,助力打造更具代入感的互動(dòng)體驗(yàn)。

項(xiàng)目官網(wǎng):https://szczesnys.github.io/hunyuanvideo-foley/

代碼倉庫:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley

一鍵體驗(yàn)視頻配音:https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=143

介紹頁:https://hunyuan.tencent.com/video/zh?tabIndex=0

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-05-22 18:10:38

2019-12-26 15:31:17

騰訊框架開源

2025-08-14 18:23:20

AI視頻生成工具

2025-08-04 08:43:00

模型訓(xùn)練數(shù)據(jù)

2025-09-18 12:39:10

2024-05-15 17:30:51

開源模型

2020-08-20 15:16:27

微軟開源Windows

2023-12-19 15:45:07

Linux工具

2024-06-06 14:27:21

2025-03-04 09:00:00

2025-06-04 09:03:00

2023-02-09 15:37:04

AI技術(shù)

2024-11-06 09:47:00

2024-03-18 09:38:42

騰訊清華模型

2024-04-08 14:07:51

Animagine開源

2021-12-02 07:50:29

分支服務(wù)git worktre

2024-06-21 11:44:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)