偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擊敗擴散模型,清華朱軍團隊基于薛定諤橋的新語音合成系統(tǒng)來了

人工智能 新聞
本次語音合成領(lǐng)域的最新研究工作,Bridge-TTS,憑借其基于薛定諤橋的生成框架,實現(xiàn)了「數(shù)據(jù)到數(shù)據(jù)」的生成過程,首次將語音合成的先驗信息由噪聲修改為干凈數(shù)據(jù),由分布修改為確定性表征。

近日,由清華大學(xué)計算機系朱軍教授課題組發(fā)布的基于薛定諤橋的語音合成系統(tǒng) [1],憑借其 「數(shù)據(jù)到數(shù)據(jù)」的生成范式,在樣本質(zhì)量和采樣速度兩方面,均擊敗了擴散模型的 「噪聲到數(shù)據(jù)」范式。

圖片

論文鏈接:https://arxiv.org/abs/2312.03491

項目網(wǎng)站:https://bridge-tts.github.io/ 

代碼實現(xiàn):https://github.com/thu-ml/Bridge-TTS

問題背景

自 2021 年起,擴散模型(diffusion models)開始成為文本到語音合成(text-to-speech, TTS)領(lǐng)域的核心生成方法之一,如華為諾亞方舟實驗室提出的 Grad-TTS [2]、浙江大學(xué)提出的 DiffSinger [3] 等方法均實現(xiàn)了較高的生成質(zhì)量。此后,又有眾多研究工作有效提升了擴散模型的采樣速度,如通過先驗優(yōu)化 [2,3,4]、模型蒸餾 [5,6]、殘差預(yù)測 [7] 等方法。然而,如此項研究所示,由于擴散模型受限于「噪聲到數(shù)據(jù)」的生成范式,其先驗分布對生成目標(biāo)提供的信息始終較為有限,對條件信息無法利用充分。

圖片

本次語音合成領(lǐng)域的最新研究工作,Bridge-TTS,憑借其基于薛定諤橋的生成框架,實現(xiàn)了「數(shù)據(jù)到數(shù)據(jù)」的生成過程,首次將語音合成的先驗信息由噪聲修改為干凈數(shù)據(jù),由分布修改為確定性表征。

該方法的主要架構(gòu)如上圖所示,輸入文本首先經(jīng)由文本編碼器提取出生成目標(biāo)(mel-spectrogram, 梅爾譜)的隱空間表征。此后,與擴散模型將此信息并入噪聲分布或用作條件信息不同,Bridge-TTS 的方法支持直接將其作為先驗信息,并支持通過隨機或確定性采樣的方式,高質(zhì)量、快速地生成目標(biāo)。

工作成果

在驗證語音合成質(zhì)量的標(biāo)準(zhǔn)數(shù)據(jù)集 LJ-Speech 上,研究團隊將 Bridge-TTS 與 9 項高質(zhì)量的語音合成系統(tǒng)和擴散模型的加速采樣方法進(jìn)行了對比。如下所示,該方法在樣本質(zhì)量上(1000 步、50 步采樣)擊敗了基于擴散模型的高質(zhì)量 TTS 系統(tǒng) [2,3,7],并在采樣速度上,在無需任何后處理如額外模型蒸餾的條件下,超過了眾多加速方法,如殘差預(yù)測、漸進(jìn)式蒸餾、以及最新的一致性蒸餾等工作 [5,6,7]。

圖片

以下是 Bridge-TTS 與基于擴散模型方法的生成效果示例,更多生成樣本對比可訪問項目網(wǎng)站:https://bridge-tts.github.io/

  • 1000 步合成效果對比

輸入文本:「Printing, then, for our purpose, may be considered as the art of making books by means of movable types.」

真實樣本,機器之心,7秒

Bridge-TTS-1000,機器之心,6秒

Grad-TTS-1000,機器之心,6秒

  • 4 步合成效果對比

輸入文本:「The first books were printed in black letter, i.e. the letter which was a Gothic development of the ancient Roman character,」

真實樣本,機器之心,7秒

Bridge-TTS-4,機器之心,7秒

Fast Grad-TTS-4,機器之心,7秒

ResGrad-4,機器之心,6秒

  •  2 步合成效果對比

輸入文本:「The prison population fluctuated a great deal,」

真實樣本-2,機器之心,2秒

Bridge-TTS-2,機器之心,2秒

CoMoSpeech-2,機器之心,3秒

下面展示了 Bridge-TTS 一個在 2 步和 4 步的一個確定性合成(ODE sampling)案例。在 4 步合成中,該方法相較于擴散模型顯著合成了更多樣本細(xì)節(jié),并沒有噪聲殘留的問題。在 2 步合成中,該方法展示出了完全純凈的采樣軌跡,并在每一步采樣完善了更多的生成細(xì)節(jié)。

圖片

在頻域中,更多的生成樣本如下所示,在 1000 步合成中,該方法相較于擴散模型生成了更高質(zhì)量的梅爾譜,當(dāng)采樣步數(shù)降到 50 步時,擴散模型已經(jīng)犧牲了部分采樣細(xì)節(jié),而基于薛定諤橋的該方法仍然保持著高質(zhì)量的生成效果。在 4 步和 2 步合成中,該方法不需蒸餾、多階段訓(xùn)練、和對抗損失函數(shù),仍然實現(xiàn)了高質(zhì)量的生成效果。

圖片

在 1000 步合成中,Bridge-TTS與基于擴散模型的方法的梅爾譜對比

圖片

在 50 步合成中,Bridge-TTS與基于擴散模型的方法的梅爾譜對比

圖片

在 4 步合成中,Bridge-TTS與基于擴散模型的方法的梅爾譜對比

在 2 步合成中,Bridge-TTS與基于擴散模型的方法的梅爾譜對比

Bridge-TTS一經(jīng)發(fā)布,憑借其在語音合成上新穎的設(shè)計與高質(zhì)量的合成效果,在 Twitter 上引起了熱烈關(guān)注,獲得了百余次轉(zhuǎn)發(fā)和數(shù)百次點贊,入選了 Huggingface 在 12.7 的 Daily Paper 并在當(dāng)日獲得了支持率第一名,同時在 LinkedIn、微博、知乎、小紅書等多個國內(nèi)外平臺被關(guān)注與轉(zhuǎn)發(fā)報道。

圖片

多個外文網(wǎng)站也進(jìn)行了報道和討論:

圖片

方法介紹

薛定諤橋(Schrodinger Bridge)是一類繼擴散模型之后,近期新興的深度生成模型,在圖像生成、圖像翻譯等領(lǐng)域都有了初步應(yīng)用 [8,9]。不同于擴散模型在數(shù)據(jù)和高斯噪聲之間建立變換過程,薛定諤橋支持任意兩個邊界分布之間的轉(zhuǎn)換。在 Bridge-TTS 的研究中,作者們提出了基于成對數(shù)據(jù)間薛定諤橋的語音合成框架,靈活支持著多種前向過程、預(yù)測目標(biāo)、及采樣過程。其方法概覽如下圖所示:

圖片


  • 前向過程:此研究在強信息先驗和生成目標(biāo)之間搭建了一種完全可解的薛定諤橋,支持靈活的前向過程選擇,如對稱式噪聲策略圖片、常數(shù)圖片,和非對稱噪聲策略圖片、線性圖片,以及直接與擴散模型相對應(yīng)的方差保持(VP)噪聲策略。該方法發(fā)現(xiàn)在語音合成任務(wù)中非對稱噪聲策略:即線性圖片(gmax)和 VP 過程,相較于對稱式噪聲策略有更好的生成效果。

圖片

圖片


  • 模型訓(xùn)練:該方法保持了擴散模型訓(xùn)練過程的多個優(yōu)點,如單階段、單模型、和單損失函數(shù)等。并且其對比了多種模型參數(shù)化(Model parameterization)的方式,即網(wǎng)絡(luò)訓(xùn)練目標(biāo)的選擇,包括噪聲預(yù)測(Noise)、生成目標(biāo)預(yù)測(Data)、和對應(yīng)于擴散模型中流匹配技術(shù) [10,11] 的速度預(yù)測(Velocity)等。文章發(fā)現(xiàn)以生成目標(biāo),即梅爾譜為網(wǎng)絡(luò)預(yù)測目標(biāo)時,可以取得相對更佳的生成效果。

圖片

圖片

  • 采樣過程:得益于該研究中薛定諤橋完全可解的形式,對薛定諤橋?qū)?yīng)的前 - 后向 SDE 系統(tǒng)進(jìn)行變換,作者們得到了 Bridge SDE 和 Bridge ODE 用于推斷。同時,由于直接模擬 Bridge SDE/ODE 推斷速度較慢,為加快采樣,該研究借助了擴散模型中常用的指數(shù)積分器 [12,13],給出了薛定諤橋的一階 SDE 與 ODE 采樣形式:

圖片

在 1 步采樣時,其一階 SDE 與 ODE 的采樣形式共同退化為網(wǎng)絡(luò)的單步預(yù)測。同時,它們與后驗采樣 / 擴散模型 DDIM 采樣有著密切聯(lián)系,文章在附錄中給出了詳細(xì)分析。文章也同時給出了薛定諤橋的二階采樣 SDE 與 ODE 采樣算法。作者發(fā)現(xiàn),在語音合成中,其生成質(zhì)量與一階采樣過程類似。

在其他任務(wù)如語音增強、語音分離、語音編輯等先驗信息同樣較強的任務(wù)中,作者們期待此研究也會帶來較大的應(yīng)用價值。

作者簡介

此項研究有三位共同第一作者:陳澤華,何冠德,鄭凱文,均屬于清華大學(xué)計算機系朱軍課題組,文章通訊作者為朱軍教授,微軟亞洲研究院首席研究經(jīng)理譚旭為項目合作者。

圖片

朱軍教授

圖片

微軟亞洲研究院首席研究經(jīng)理譚旭

圖片

陳澤華是清華大學(xué)計算機系水木學(xué)者博士后,主要研究方向為概率生成模型,及其在語音、音效、生物電信號合成等方面的應(yīng)用。曾在微軟、京東、TikTok 等多家公司實習(xí),在語音和機器學(xué)習(xí)領(lǐng)域重要國際會議 ICML/NeurIPS/ICASSP 等發(fā)表多篇論文。

圖片

何冠德是清華大學(xué)在讀的三年級碩士生,主要研究方向是不確定性估計與生成模型,此前在 ICLR 等會議以第一作者身份發(fā)表論文。

圖片

鄭凱文是清華大學(xué)在讀的二年級碩士生,主要研究方向是深度生成模型的理論與算法,及其在圖像、音頻和 3D 生成中的應(yīng)用。此前在 ICML/NeurIPS/CVPR 等頂級會議發(fā)表多篇論文,涉及了擴散模型中的流匹配和指數(shù)積分器等技術(shù)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-03-13 15:56:00

模型框架

2025-10-23 16:56:40

AI模型訓(xùn)練

2025-04-28 09:00:00

2017-09-06 10:51:22

Facebook

2025-04-01 09:40:00

2025-08-13 09:07:00

2025-10-23 09:02:12

2023-07-03 09:41:12

算法AI

2025-10-29 09:05:04

2014-12-08 09:40:38

ACAT語音系統(tǒng)

2025-03-12 09:05:02

2022-10-19 14:17:32

圖像模型

2023-05-29 10:39:00

AI算法

2025-05-16 11:03:48

2025-08-21 15:51:49

2025-07-02 09:21:30

2024-12-24 10:30:00

2023-10-11 12:32:26

模型訓(xùn)練

2025-09-03 14:00:08

AI模型神經(jīng)網(wǎng)絡(luò)

2023-06-19 19:26:54

模型開源
點贊
收藏

51CTO技術(shù)棧公眾號