偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華大學(xué)x生數(shù)科技:從波形到隱空間,AudioLBM引領(lǐng)音頻超分新范式

人工智能 新聞
清華大學(xué)與生數(shù)科技(Shengshu AI)團(tuán)隊圍繞橋類生成模型與音頻超分任務(wù)展開系統(tǒng)研究,先后在語音領(lǐng)域頂級會議ICASSP 2025和機(jī)器學(xué)習(xí)頂級會議NeurIPS 2025發(fā)表了兩項連續(xù)成果。

音頻超分辨率(Audio Super-Resolution, Audio SR),即從低采樣率音頻恢復(fù)出高采樣率版本,是提升語音清晰度、音樂細(xì)節(jié)與沉浸式音頻體驗的關(guān)鍵技術(shù)。

無論是在老舊錄音修復(fù)、語音通信增強(qiáng),還是音樂制作與多模態(tài)生成中,高分辨率音頻都能顯著提升聽感與表現(xiàn)力。然而,由于高頻細(xì)節(jié)在低采樣率信號中被嚴(yán)重?fù)p失,這一任務(wù)一直是音頻生成領(lǐng)域的核心挑戰(zhàn)。

值得注意的是,近期由OpenAI推出的有聲視頻模型Sora 2已能生成采樣率高達(dá)96 kHz的音頻,為高保真音頻生成樹立了新的技術(shù)標(biāo)桿。而現(xiàn)有學(xué)術(shù)界的音頻超分模型大多仍局限于48 kHz以內(nèi),缺乏能夠穩(wěn)定支持更高采樣率的通用框架。

在這一背景下,清華大學(xué)與生數(shù)科技(Shengshu AI)團(tuán)隊圍繞橋類生成模型與音頻超分任務(wù)展開系統(tǒng)研究,先后在語音領(lǐng)域頂級會議ICASSP 2025和機(jī)器學(xué)習(xí)頂級會議NeurIPS 2025發(fā)表了兩項連續(xù)成果:

輕量化語音波形超分模型Bridge-SR,以及面向高達(dá)192 kHz母帶級音頻的多功能超分框架AudioLBM。

其中,AudioLBM覆蓋語音、音效與音樂等多類內(nèi)容,在通用高分辨率音頻生成方面展現(xiàn)出重要的擴(kuò)展?jié)摿Α?/span>

從數(shù)據(jù)到數(shù)據(jù):Bridge-SR的探索

2025年發(fā)表于ICASSP的Bridge-SR工作首次將薛定諤橋(Schr?dinger Bridge)模型引入語音超分任務(wù),在“數(shù)據(jù)到數(shù)據(jù)”的生成范式下建立了低分辨率波形與高分辨率波形之間的可解橋接過程。

不同于擴(kuò)散模型從隨機(jī)噪聲逐步生成信號的“噪聲到數(shù)據(jù)”方式,Bridge-SR直接利用低分辨率波形作為生成先驗,使模型在輕量化網(wǎng)絡(luò)(僅1.7M參數(shù))下就能以“數(shù)據(jù)到數(shù)據(jù)”范式實現(xiàn)高效、高保真的語音超分,并在VCTK語音測試集上優(yōu)于多項主流方法。

這一工作為先驗驅(qū)動的音頻超分提供了新思路,也為后續(xù)更通用、更高質(zhì)量的音頻超分模型奠定了理論與實驗基礎(chǔ)。

△圖一:波形空間的輕量化橋類超分模塊設(shè)計

通過非對稱的噪聲調(diào)度設(shè)計,頻域幅度譜、相位譜的輔助監(jiān)督,與一階PF-ODE采樣,Bridge-SR在音頻波形空間采用基線模型中最輕量級的1.7M網(wǎng)絡(luò)即實現(xiàn)了語音超分的質(zhì)量突破。

△圖二:VCTK Benchmark測試集的語音超分質(zhì)量對比

近日,團(tuán)隊繼續(xù)深入研究,開發(fā)針對語音、音效、音樂全音頻信號的通用超分模型,設(shè)計“隱空間橋類模型”AudioLBM,在Any-to-48 kHz的音頻超分任務(wù)中大幅超越基線模型,實現(xiàn)音頻超分新范式。并成功實現(xiàn)了96kHz和192kHz音頻超分的工程突破,使得母帶音質(zhì)不再稀缺。

從隱變量到隱變量:AudioLBM的突破

在 Bridge-SR 的基礎(chǔ)上,團(tuán)隊進(jìn)一步提出了AudioLBM,論文已發(fā)表于 NeurIPS 2025。

該研究探索了從“波形域生成”到“隱空間建模”的轉(zhuǎn)變,實現(xiàn)了基于橋類模型的通用音頻超分。AudioLBM首次在波形連續(xù)隱空間中構(gòu)建低分辨率到高分辨率的隱變量橋接生成過程。

研究團(tuán)隊通過變分自編碼器(VAE)將波形壓縮為連續(xù)隱空間表征,并在該空間中學(xué)習(xí)概率生成映射,從而保留輸入波形的結(jié)構(gòu)化先驗信息,同時提升模型的泛化建模能力。

下圖為,音頻超分任務(wù)(上)、傳統(tǒng)在頻譜隱空間的擴(kuò)散模型(中)、和波形隱空間橋類模型(下):

為應(yīng)對高分辨率數(shù)據(jù)稀缺問題,提升訓(xùn)練效率,AudioLBM提出了頻率感知機(jī)制(frequency-aware LBM),在訓(xùn)練中顯式感知先驗采樣率與基于團(tuán)隊設(shè)計的信號處理手段自動檢測的目標(biāo)采樣率,使模型能夠?qū)W習(xí)“任意采樣率到任意采樣率”(any-to-any)的超分過程。

進(jìn)一步地,為了有效實現(xiàn)采樣率上限突破,團(tuán)隊設(shè)計了級聯(lián)橋類模型(cascaded LBM),將模型能力從48 kHz擴(kuò)展至96 kHz與192 kHz,首次實現(xiàn)了音頻超分研究中覆蓋192 kHz工業(yè)級采樣率的探索。

通過先驗增強(qiáng)(prior augmentation)與潛空間模糊(latent blurring)策略,模型能夠在多階段生成中保持高頻細(xì)節(jié)與能量一致性。同時,團(tuán)隊對各階段壓縮網(wǎng)絡(luò)和橋模型進(jìn)行級聯(lián)微調(diào),有效利用低分辨率模型作為更高分辨率模型的強(qiáng)大先驗。

△圖四:級聯(lián)橋類模型設(shè)計

在跨語音、音效與音樂的多域評測中,AudioLBM在Any-to-48kHz超分任務(wù)上取得新的SOTA(state-of-the-art)表現(xiàn):

△圖五:通用音頻超分的質(zhì)量對比

相較于基線模型AudioSR與FlowHigh,在對數(shù)譜距離(LSD)上均明顯下降,同時在96 kHz與192 kHz任務(wù)中保持穩(wěn)定性能。該方法在統(tǒng)一框架下實現(xiàn)了對語音、音效與音樂的高保真重建,顯著提升了通用性。實現(xiàn)了從語音到音樂的統(tǒng)一高分辨率生成。

△圖六:音頻超分結(jié)果的頻譜展示

針對音頻數(shù)據(jù)的其他表征空間,如波形空間、譜空間,團(tuán)隊也做出消融實驗。對于語音、音效、音樂通用音頻超分任務(wù),波形隱空間達(dá)到最佳效果:

△圖七:音頻波形空間、譜空間、波形隱空間超分結(jié)果與真值的頻譜展示

作者介紹

此兩項目的第一作者均為李暢和陳澤華。

李暢是中國科學(xué)技術(shù)大學(xué)少年班學(xué)院的本科生,主要研究方向是語音,音頻相關(guān)的生成建模與表征學(xué)習(xí),曾以第一作者身份在多個CCF-A/B類會議發(fā)表音頻相關(guān)學(xué)術(shù)研究。

陳澤華是清華大學(xué)計算機(jī)系水木學(xué)者博士后,博士畢業(yè)于英國帝國理工學(xué)院電氣與電子工程系,主要研究方向為概率生成模型,及其在語音、音效、生物電信號合成等方面的應(yīng)用。在語音和機(jī)器學(xué)習(xí)領(lǐng)域的重要會議與期刊上持續(xù)發(fā)表相關(guān)研究工作。

【Bridge-SR】論文地址:https://arxiv.org/pdf/2501.07897樣本展示:https://bridge-sr.github.io/

【AudioLBM】論文地址:https://arxiv.org/pdf/2509.17609樣本展示:https://audiolbm.github.io/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2025-07-25 15:22:20

AI模型數(shù)據(jù)

2012-06-21 14:30:40

超算大賽

2013-09-27 17:29:16

清華大學(xué)IT運(yùn)維RIIL

2011-10-26 10:57:56

EqualLogic戴爾存儲

2012-07-13 11:35:06

超算競賽清華大學(xué)

2025-10-28 09:03:08

2010-03-09 16:11:10

虛擬化vmware

2020-06-08 13:00:33

開源技術(shù) 軟件

2015-05-22 17:26:56

浪潮

2013-05-06 13:51:28

亞洲大學(xué)生超級計算機(jī)競ASC13

2018-06-28 17:55:03

浪潮

2024-01-19 16:35:00

模型動畫

2021-03-16 14:48:42

人臉識別人工智能數(shù)據(jù)

2009-05-27 09:00:45

搜狐張朝陽打坐

2012-09-26 16:15:29

初志

2022-11-11 15:16:36

機(jī)器學(xué)習(xí)開源

2023-11-16 12:39:13

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號