偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于線性網(wǎng)絡(luò)的語音合成說話人自適應(yīng)

原創(chuàng)
人工智能 語音識(shí)別
一種基于低秩分解(low-rank plus diagonal,LRPD)的模型壓縮算法被應(yīng)用于線性網(wǎng)絡(luò)。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)數(shù)據(jù)量較少的時(shí)候,通過LRPD來移除一些冗余的參數(shù),從而能夠使得系統(tǒng)合成的聲音更加穩(wěn)定。

【51CTO.com原創(chuàng)稿件】 說話人自適應(yīng)算法利用說話人少量語料來建立說話人自適應(yīng)語音合成系統(tǒng),該系統(tǒng)能夠合成令人滿意的語音。在本文中,我們提出了基于線性網(wǎng)絡(luò)的語音合成說話人自適應(yīng)算法。該算法對每個(gè)說話人學(xué)習(xí)特定的線性網(wǎng)絡(luò),從而獲得屬于目標(biāo)說話人的聲學(xué)模型。通過該算法,使用200句目標(biāo)說話人的自適應(yīng)語料訓(xùn)練的說話人自適應(yīng)系統(tǒng)能夠獲得和使用1000句訓(xùn)練的說話人相關(guān)系統(tǒng)相近的合成效果。

研究背景

對于一個(gè)目標(biāo)說話人,如果他(她)擁有充足的訓(xùn)練數(shù)據(jù),那么我們便可以建立一個(gè)說話人相關(guān)的聲學(xué)模型,基于該聲學(xué)模型的系統(tǒng)稱之為說話人相關(guān)的語音合成系統(tǒng)。利用該系統(tǒng),我們能夠合成和目標(biāo)說話人聲音很像的語音。但是,大多數(shù)時(shí)候,目標(biāo)說話人沒有充足的數(shù)據(jù),這使得合成出來的語音效果不太理想。利用說話人自適應(yīng)算法,能夠基于比較有限的數(shù)據(jù)來獲得較好的語音合成系統(tǒng),該類算法節(jié)省了大量的錄音、轉(zhuǎn)錄和檢查工作,使得建立新的聲音的代價(jià)變得很小。

本文中,我們提出了基于線性網(wǎng)絡(luò)(Linear Network, LN)的語音合成說話人自適應(yīng)算法。該算法通過在源說話人聲學(xué)模型的層間插入線性網(wǎng)絡(luò),然后利用目標(biāo)說話人的數(shù)據(jù)來更新該線性網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的輸出層,從而能夠獲得屬于目標(biāo)說話人的聲學(xué)模型。另外,一種基于低秩分解(low-rank plus diagonal,LRPD)的模型壓縮算法被應(yīng)用于線性網(wǎng)絡(luò)。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)數(shù)據(jù)量較少的時(shí)候,通過LRPD來移除一些冗余的參數(shù),從而能夠使得系統(tǒng)合成的聲音更加穩(wěn)定。

算法描述

本文中,源說話人聲學(xué)模型是一個(gè)基于多任務(wù)(multi-task)DNN-BLSTM的聲學(xué)模型,見Fig. 1左側(cè)。聲學(xué)模型的輸入為語音學(xué)特征,輸出為聲學(xué)特征。聲學(xué)特征包括梅爾倒譜系數(shù)等。實(shí)驗(yàn)證明,在聲學(xué)模型的底層使用深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)可以獲得更好的底層特征,并且收斂速度上相比于不使用DNN更快。在輸出層上,不同的聲學(xué)特征使用各自的輸出層,它們僅共享聲學(xué)模型的隱層。

基于線性網(wǎng)絡(luò)的自適應(yīng)算法首先被提出于語音識(shí)別領(lǐng)域,它的系統(tǒng)結(jié)構(gòu)見Fig. 1右側(cè)。根據(jù)線性網(wǎng)絡(luò)插入的位置不同,它可以被分為線性輸入網(wǎng)絡(luò)(Linear Input Network,LIN)、線性隱層網(wǎng)絡(luò)(Linear Hidden Network,LHN)和線性輸出網(wǎng)絡(luò)(Linear Output Network,LON)。

實(shí)驗(yàn)

本文提出的算法,在中文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含3個(gè)說話人,每個(gè)說話人有5000句話,時(shí)長約5h。數(shù)據(jù)集中語音的采樣率為16k,特征提取中的窗長和窗移分別為25ms和5ms。分別用A-male、B- female和C-female來命名這三個(gè)說話人。本實(shí)驗(yàn)中,源說話人聲學(xué)模型訓(xùn)練過程所使用的句子數(shù)為5000。為了對比不同句子數(shù)目下的合成效果,目標(biāo)說話人的自適應(yīng)數(shù)據(jù)集對應(yīng)的句子數(shù)從50到1000不等。在自適應(yīng)數(shù)據(jù)集之外,我們?nèi)?00句話作為開發(fā)集,取20句話作為測試集(用于主觀打分)。為了分析性別對自適應(yīng)效果的影響,進(jìn)行了三對源說話人-目標(biāo)說話人之間的實(shí)驗(yàn):女生-女生、男生-女生和女生-男生。另外,使用客觀度量和主觀測聽兩種方式來衡量模型的性能??陀^度量主要包括:Mel-Cepstral Distortion (MCD)、root mean squared error (RMSE) of F0、unvoiced/voiced (U/V) prediction errors和開發(fā)集的MSE。主觀測聽主要是對系統(tǒng)合成的聲音樣本進(jìn)行自然度和相似度上的打分——mean opinion score (MOS) 。

 

以女生-女生(C-female – B-female)為例,F(xiàn)ig. 3顯示了不同自適應(yīng)句子數(shù)目和客觀度量之間的關(guān)系曲線圖。其中,SD表示說話人相關(guān)系統(tǒng),OL表示只更新源說話人聲學(xué)模型輸出層的說話人自適應(yīng)系統(tǒng),OL+Full-LN和OL+LRPD-LN分別表示基于Full-LN和LRPD-LN的說話人自適應(yīng)系統(tǒng)。根據(jù)Fig. 3,隨著訓(xùn)練/自適應(yīng)句子數(shù)的增加,所有系統(tǒng)間的客觀度量趨于相近。對比SD和另外三個(gè)自適應(yīng)系統(tǒng),自適應(yīng)系統(tǒng)的性能在相同句子數(shù)目下要更優(yōu)。另外,OL+LRPD-LN和OL+Full-LN相比于OL均出現(xiàn)性能上的跳變(提升),說明只更新輸出層而不對其他層進(jìn)行更新不能夠得到較好的自適應(yīng)效果。同時(shí),當(dāng)自適應(yīng)句子數(shù)較少的時(shí)候,OL+Full-LN在客觀性能上要差于OL+LRPD-LN,這是因?yàn)镺L+Full-LN引入太多的參數(shù)量,出現(xiàn)過擬合問題。反之,在句子數(shù)多的時(shí)候OL+Full-LN在客觀性能上要優(yōu)于OL+LRPD-LN,此時(shí)OL+LRPD-LN由于參數(shù)量少,出現(xiàn)欠擬合問題。

Fig. 4上對比了不同系統(tǒng)間的自然度和相似度。隨著句子數(shù)的減少,SD系統(tǒng)的性能出現(xiàn)急劇下降,OL+LRPD-LN相比于SD和OL+Full-LN要更加穩(wěn)定。與客觀度量一致,在相同句子數(shù)下,OL+Full-LN和OL+LRPD-LN在性能上要優(yōu)于SD。并且,OL+Full-LN和OL+LRPD-LN在200句話的性能和SD在1000句話時(shí)的性能相近。與客觀度量不同,OL+LRPD-LN在500句以下的時(shí)候性能上就優(yōu)于OL+Full-LN。這是因?yàn)檫^擬合導(dǎo)致合成出來的聲音不穩(wěn)定(雖然客觀度量更優(yōu))聲音的可懂度下降導(dǎo)致的。由此,我們依然可以得到相同的結(jié)論:當(dāng)自適應(yīng)句子數(shù)較少的時(shí)候,過擬合使得OL+Full-LN的性能變差。

結(jié)論

本文中,基于線性網(wǎng)絡(luò)的說話人自適應(yīng)算法被應(yīng)用于語音合成領(lǐng)域,基于LRPD的模型壓縮算法能夠提高聲音的穩(wěn)定性。通過三對不同的源說話人-目標(biāo)說話人的實(shí)驗(yàn),我們發(fā)現(xiàn),當(dāng)自適應(yīng)句子數(shù)目非常少的時(shí)候,LRPD能夠提升聲音的穩(wěn)定性。另外,通過提出的算法,使用200句目標(biāo)說話人的訓(xùn)練語料訓(xùn)練的說話人自適應(yīng)系統(tǒng)能夠獲得和使用1000句訓(xùn)練的說話人相關(guān)系統(tǒng)相近的效果。

【本月排行***0】

  1. 張真:AIOps六大技術(shù)難點(diǎn)與宜信運(yùn)維的重大變革
  2. 新炬網(wǎng)絡(luò)程永新:插上AI翅膀 運(yùn)維平臺(tái)煥發(fā)出嶄新生命力
  3. 從SIEM&AI到SIEM@AI AI構(gòu)建下一代企業(yè)安全大腦
  4. 基于線性網(wǎng)絡(luò)的語音合成說話人自適應(yīng)
  5. 轉(zhuǎn)轉(zhuǎn)公司架構(gòu)算法部孫玄:AI下的微服務(wù)架構(gòu)

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2017-10-09 11:21:46

神經(jīng)網(wǎng)絡(luò)OpenAI非線性

2020-09-09 09:51:41

神經(jīng)網(wǎng)絡(luò)DA技術(shù)感知器

2017-06-06 10:30:12

前端Web寬度自適應(yīng)

2022-05-13 12:46:06

開源深度學(xué)習(xí)技術(shù)

2019-08-07 18:45:40

語音助手TTS前端

2018-03-25 20:51:07

語音合成深度前饋序列記憶網(wǎng)絡(luò)

2025-03-12 00:00:22

2024-03-14 14:16:13

2022-10-24 17:57:06

CSS容器查詢

2025-05-26 17:16:51

2025-01-21 08:00:00

自適應(yīng)框架框架開發(fā)

2010-08-30 10:26:20

DIV自適應(yīng)高度

2023-07-31 08:24:34

MySQL索引計(jì)數(shù)

2014-04-15 13:09:08

Android配色colour

2016-02-17 10:39:18

語音識(shí)別語音合成語音交互

2010-08-30 09:52:03

DIV高度自適應(yīng)

2012-05-09 10:58:25

JavaMEJava

2014-09-05 10:10:32

Android自適應(yīng)布局設(shè)計(jì)

2022-07-06 13:13:36

SWIL神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集

2009-08-21 15:28:23

C#英文
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)