偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何用緊湊型語音表征打造高性能語音合成系統(tǒng)

人工智能 深度學習
語音合成(Text-to-Speech, 簡稱 TTS)是把文本轉(zhuǎn)化為語音的一種技術(shù),被廣泛應(yīng)用于視頻配音、音視頻內(nèi)容創(chuàng)作、智能人機交互等產(chǎn)品中。本文提出采用矢量量化變分自編碼器(VQ-VAE)從目標數(shù)據(jù)中挖掘出一種更好的緊湊型表示。

小紅書多媒體智能算法團隊和香港中文大學首次聯(lián)合提出了基于多階段多碼本緊湊型語音表征的高性能語音合成方案 MSMC-TTS?;谑噶苛炕兎肿跃幋a器(VQ-VAE)的特征分析器采用若干碼本對聲學特征進行階段式編碼,形成一組具有不同時間分辨率的隱序列集合。這些隱序列可以由多階段預(yù)測器從文本中預(yù)測獲得,并且通過神經(jīng)聲碼器轉(zhuǎn)換成目標音頻。該方案,對比基于Mel-Spectrogram的Fastspeech 基線系統(tǒng),音質(zhì)和自然度有明顯的改善。該工作現(xiàn)已總結(jié)成論文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”,并被語音領(lǐng)域會議 INTERSPEECH 2022 接收。

一、背景介紹

語音合成(Text-to-Speech, 簡稱 TTS)是把文本轉(zhuǎn)化為語音的一種技術(shù),被廣泛應(yīng)用于視頻配音、音視頻內(nèi)容創(chuàng)作、智能人機交互等產(chǎn)品中。主流語音合成系統(tǒng)后端的聲學建模技術(shù)通常包括特征提取器,聲學模型和聲碼器三部分。TTS 通常會對基于信號處理獲得的聲學特征(例如梅爾譜 Mel Spectrogram)進行聲學建模,但受限于模型的擬合能力,預(yù)測得到的聲學特征和真實數(shù)據(jù)在分布上存在一定差異,這導(dǎo)致在真實數(shù)據(jù)上訓練的聲碼器難以從預(yù)測特征中生成高質(zhì)量音頻。


圖片

TTS 系統(tǒng)框架圖


針對這一難題,學界使用了更為復(fù)雜的模型結(jié)構(gòu)和更為新穎的生成式算法以減小預(yù)測誤差和縮小分布差異。而本工作另辟蹊徑,以緊湊型語音表征為出發(fā)點來考慮問題。對語音合成來說,1)聲學特征良好的緊湊性能夠保證更為準確的模型預(yù)測結(jié)果和更魯棒的波形生成;2)聲學特征良好的完備性能夠保證更好地重構(gòu)語音信號?;谶@兩點考慮,本文提出采用矢量量化變分自編碼器(VQ-VAE)從目標數(shù)據(jù)中挖掘出一種更好的緊湊型表示。

二、表征學習 MSMC VQ-VAE

VQ-VAE 包括編碼器與解碼器。編碼器將輸入聲學特征序列加工為隱序列并用相應(yīng)碼本進行量化。而解碼器把經(jīng)過量化的序列恢復(fù)為原始聲學特征序列。這種量化序列作為離散化表征具有較好的緊湊性(特征參數(shù)量較少)。其中量化程度越高,即碼本容量越小,特征緊湊程度就越高。但這也造成了信息壓縮,使特征完備度變差。為了確保足夠的完備性,一般都會使用更多的碼字。但隨著碼本容量的增加,碼本更新所需的數(shù)據(jù)量以及訓練次數(shù)將呈指數(shù)級遞增,這使得 VQ-VAE 難以通過增大碼本來有效增強表征完備性。針對此問題,本文提出多頭矢量量化(MHVQ)方法。


圖片

VQ-VAE 模型結(jié)構(gòu)圖


MHVQ 將單個碼本按特征維度方向均分為若干個子碼本。量化時還將每個輸入向量相等地切割成若干個子向量,并分別用相應(yīng)子碼本量化,最終拼接成輸出向量。這樣我們就能更加有效地提高碼本利用率及表征容量,而無需增加碼本參數(shù)量。例如,要使壓縮率減少1倍,碼字本來要增加到原碼本數(shù)的平方。采用 MHVQ 后,只要把碼本切分成兩部分就可以實現(xiàn)相同的壓縮率。因此,本方法能夠更加有效地調(diào)節(jié)量化表征的完備性。


圖片

MHVQ 示例圖


另外在對語音序列進行量化時,語音特征中蘊含的各類信息都有不同程度地丟失。這些信息在時間粒度上是不一樣的,如粗粒度的音色,發(fā)音風格等,以及細粒度的音調(diào),發(fā)音細節(jié)等。在任何時間尺度上過度壓縮信息都可能使語音質(zhì)量遭到一定程度的破壞。為了緩解這一問題,本工作提出了一種多時間尺度的語音建模方法。如圖所示,聲學特征序列通過若干個編碼器將聲學特征序列階段式編碼至不同時間尺度,然后再通過解碼器端逐層量化,解碼得到若干個具有不同時間分辨率的量化序列。這類序列集合構(gòu)成的表征, 即為本工作提出的多階段多碼本表征。


圖片

多階段建模示例圖


三、聲學建模 MSMC-TTS

針對多階段多碼本表征 MSMCR ,本論文提出了相應(yīng)的 TTS 系統(tǒng),即 MSMC-TTS 系統(tǒng)。系統(tǒng)包括分析、合成和預(yù)測3個部分。在系統(tǒng)訓練中,該系統(tǒng)先對分析模塊進行訓練。訓練集中的音頻經(jīng)過信號處理后轉(zhuǎn)化為高完備性聲學特征(如本次工作中用到的 Mel-Spectrogram 特征)。利用這些聲學特征對基于 MSMC-VQ-VAE 的特征分析器進行訓練,訓練結(jié)束時將其轉(zhuǎn)化為相應(yīng)的MSMCR,再對聲學模型及神經(jīng)聲碼器進行訓練。解碼過程中,該系統(tǒng)利用聲學模型從文本中預(yù)測 MSMCR,然后利用神經(jīng)聲碼器產(chǎn)生目標音頻。


圖片

MSMC-TTS 系統(tǒng)框架圖


本工作還提出一種多階段預(yù)測器來適配 MSMCR 建模。該模型是以 FastSpeech 為基礎(chǔ)實現(xiàn)的,但在解碼器端有所不同。該模型首先對文本進行編碼,并根據(jù)預(yù)測時長信息對文本上采樣。然后再將序列降采樣至 MSMCR 對應(yīng)的各個時間分辨率。這些序列將由不同解碼器由低分辨率向高分辨率逐級解碼量化。同時將低分辨率量化序列發(fā)送給下一階段的解碼器以協(xié)助預(yù)測。最后將預(yù)測所得 MSMCR 送入神經(jīng)聲碼器中產(chǎn)生目標音頻。


圖片

多階段預(yù)測器結(jié)構(gòu)圖


對多階段預(yù)測器進行訓練與推斷時,本工作選擇直接在連續(xù)空間預(yù)測目標表征。這種方法能較好地顧及向量間及碼字間在線性連續(xù)空間上的距離關(guān)系。訓練準則除了采用常用于 TTS 建模的 MSE 損失函數(shù)外,還使用了 “triplet loss” 以迫使預(yù)測向量遠離非目標碼字并靠近目標碼字。通過將兩種損失函數(shù)項組合,該模型能夠更好地預(yù)測目標碼字。

四、實驗效果

本工作在公開的英文單說話人數(shù)據(jù)集 Nancy (Blizzard Challenge 2011) 上進行實驗。我們組織了主觀意見得分測試 (MOS)對 MSMC-TTS 合成效果進行評價。實驗結(jié)果顯示:原始錄音為 4.50 分的情況下, MSMC-TTS 的得分為 4.41分,基線系統(tǒng) Mel-FS(Mel-Spectrogram based FastSpeech)為 3.62 分。我們對基線系統(tǒng)的聲碼器進行調(diào)優(yōu),使之與Mel-FS輸出特征相適配,結(jié)果為 3.69 分。該對比結(jié)果證明了文中所提方法對 TTS 系統(tǒng)的顯著改進作用。

圖片

另外我們還進一步討論了建模復(fù)雜度對于 TTS 的性能影響。由 M1 至 M3 模型參數(shù)量呈倍數(shù)下降,  Mel-FS 合成效果降至 1.86 分。反觀 MSMC-TTS, 參數(shù)量減少并未對合成質(zhì)量造成顯著的影響。當聲學模型參數(shù)量為 3.12 MB 時, MOS 仍可保持 4.47 分。這既證明了以緊湊型特征為基礎(chǔ)的 MSMC-TTS 建模復(fù)雜度需求較低,同時也展示了該方法應(yīng)用于輕量級 TTS 系統(tǒng)的潛力。

圖片


最后我們在不同 MSMCR 基礎(chǔ)上進行了 MSMC-TTS 比較,以探討 MHVQ 與多階段建模對 TTS 的影響。其中 V1 系統(tǒng)采用單階段單碼本的表征, V2 系統(tǒng)基于 V1 采用 4-head 矢量量化, V3 系統(tǒng)則基于 V2 采用兩階段建模。首先,V1 系統(tǒng)使用的表征擁有最高的特征壓縮比,但在分析合成實驗中表現(xiàn)出最低的完備性,同時在 TTS 實驗中表現(xiàn)出最差的合成質(zhì)量。經(jīng)過 MHVQ 增強完備性, V2 系統(tǒng)在 TTS 效果上也得到了明顯提升。V3 所使用的的多階段表征雖然沒有展現(xiàn)進一步完備性的提升,但是在 TTS 上展現(xiàn)出了最佳的效果,無論是韻律自然度還是音頻質(zhì)量均有明顯改善。這進一步表明多階段建模、多尺度信息保留在MSMC-TTS 中具有重要意義。

圖片

五、總結(jié)

該工作從研究緊湊型語音表征角度出發(fā),提出一套新的高性能 TTS(MSMC-TTS)建模方法。該系統(tǒng)從音頻中提取多階段多碼本表征,以代替?zhèn)鹘y(tǒng)聲學特征。輸入文本可被多階段預(yù)測器轉(zhuǎn)換為這種由多個時間分辨率不同的序列組成的語音表征,并通過神經(jīng)聲碼器轉(zhuǎn)換到目標語音信號。實驗結(jié)果表明,相較于主流的基于 Mel-Spectrogram 的 FastSpeech 系統(tǒng),該系統(tǒng)展示出了更優(yōu)秀的合成質(zhì)量,以及對建模復(fù)雜度更低的要求。

六、作者信息

郭浩瀚:小紅書多媒體智能算法團隊實習生。本碩畢業(yè)于西北工業(yè)大學,期間在 ASLP 實驗室學習,師從謝磊教授?,F(xiàn)博士就讀于香港中文大學 HCCL 實驗室,師從蒙美玲教授。迄今為止,作為一作,先后在 ICASSP、INTERSPEECH、SLT 國際語音會議上發(fā)表論文六篇。

解奉龍:小紅書多媒體智能算法團隊語音技術(shù)負責人。曾在ICASSP、INTERSPEECH、SPEECHCOM等語音領(lǐng)域會議及期刊發(fā)表論文十余篇, 長期擔任ICASSP、INTERSPEECH等主要語音會議的審稿人,主要研究方向為語音信號處理與建模。

責任編輯:龐桂玉 來源: 小紅書技術(shù)REDtech
相關(guān)推薦

2022-07-20 09:38:31

Python語音合成代碼

2016-02-17 10:39:18

語音識別語音合成語音交互

2009-08-21 15:28:23

C#英文

2017-09-06 10:51:22

Facebook

2022-12-05 07:17:14

人工智能語音合成

2021-08-19 10:11:10

微軟Windows 10Windows 11

2013-10-14 13:41:36

PoE交換機交換機

2015-08-19 09:38:29

云集群高性能計算云計算

2021-11-11 16:14:15

NVIDIA

2025-04-10 08:23:11

2015-09-23 09:40:17

高性能Java應(yīng)用

2023-07-27 16:51:05

微軟語音模型人工智能

2020-09-03 11:22:35

音頻騰訊云AI

2011-07-01 09:36:30

高性能Web

2023-07-05 16:07:02

JavaScriptWeb 應(yīng)用程序

2025-06-27 05:00:00

AI語音詐騙AI語音識別人工智能

2022-09-15 09:59:55

火山語音語音建模

2017-09-18 01:21:05

美團IDC集群銳捷網(wǎng)絡(luò)

2012-09-04 13:55:58

華為Mini-OLT SmFTTx
點贊
收藏

51CTO技術(shù)棧公眾號