偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="fow6f"></style>

<legend id="fow6f"><track id="fow6f"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

從技術(shù)到產(chǎn)品，蘋果Siri深度學(xué)習(xí)語音合成技術(shù)揭秘

作者：佚名 2017-08-30 09:20:47

人工智能深度學(xué)習(xí)

Siri 是一個使用語音合成技術(shù)與人類進(jìn)行交流的個人助手。從 iOS 10 開始，蘋果已經(jīng)在 Siri 的語音中用到了深度學(xué)習(xí)，iOS 11 中的 Siri 依然延續(xù)這一技術(shù)。使用深度學(xué)習(xí)使得 Siri 的語音變的更自然、流暢，更人性化。

Siri 是一個使用語音合成技術(shù)與人類進(jìn)行交流的個人助手。從 iOS 10 開始，蘋果已經(jīng)在 Siri 的語音中用到了深度學(xué)習(xí)，iOS 11 中的 Siri 依然延續(xù)這一技術(shù)。使用深度學(xué)習(xí)使得 Siri 的語音變的更自然、流暢，更人性化。機(jī)器之心對蘋果期刊的該技術(shù)博客進(jìn)行了介紹，更詳細(xì)的技術(shù)請查看原文。

介紹

語音合成，也就是人類聲音的人工產(chǎn)品，被廣泛應(yīng)用于從助手到游戲、娛樂等各種領(lǐng)域。最近，配合語音識別，語音合成已經(jīng)成為了 Siri 這樣的語音助手不可或缺的一部分。

如今，業(yè)內(nèi)主要使用兩種語音合成技術(shù)：單元選擇 [1] 和參數(shù)合成 [2]。單元選擇語音合成技術(shù)在擁有足夠高質(zhì)量錄音時能夠合成***質(zhì)量的語音，也因此成為商業(yè)產(chǎn)品中最常用的語音合成技術(shù)。另外，參數(shù)合成能夠提供高度可理解的、流暢的語音，但整體質(zhì)量略低。因此，在語料庫較小、低占用的情況下，通常使用參數(shù)合成技術(shù)?，F(xiàn)代的單元選擇系統(tǒng)結(jié)合這兩種技術(shù)的優(yōu)勢，因此被稱為混合系統(tǒng)?；旌蠁卧x擇方法類似于傳統(tǒng)的單元選擇技術(shù)，但其中使用了參數(shù)合成技術(shù)來預(yù)測選擇的單元。

近期，深度學(xué)習(xí)對語音領(lǐng)域沖擊巨大，極大的超越了傳統(tǒng)的技術(shù)，例如隱馬爾可夫模型。參數(shù)合成技術(shù)也從深度學(xué)習(xí)技術(shù)中有所收益。深度學(xué)習(xí)也使得一種全新的語音合成技術(shù)成為了可能，也就是直接音波建模技術(shù)(例如 WaveNet)。該技術(shù)極有潛力，既能提供單元選擇技術(shù)的高質(zhì)量，又能提供參數(shù)選擇技術(shù)的靈活性。然而，這種技術(shù)計算成本極高，對產(chǎn)品而言還不成熟。為了讓所有平臺的 Siri 語音提供***質(zhì)量，蘋果邁出了這一步，在設(shè)備中的混合單元選擇系統(tǒng)上使用了深度學(xué)習(xí)。

蘋果深度語音合成技術(shù)工作原理

為個人助手建立高質(zhì)量的文本轉(zhuǎn)語音(TTS)系統(tǒng)并非簡單的任務(wù)。首先，***個階段是找到專業(yè)的播音人才，她/他的聲音既要悅耳、易于理解，又要符合 Siri 的個性。為了覆蓋各種人類語音，我們首先在錄音棚中記錄了 10-20 小時的語音。錄制的腳本從音頻簿到導(dǎo)航指導(dǎo)，從提示答案到笑話，不一而足。通常來說，這種天然的語音不能像錄制的那樣使用，因?yàn)椴豢赡茕浿浦謺f的每一句話。因此，單元選擇 TTS 系統(tǒng)把記錄的語音切片成基礎(chǔ)元件，比如半音素，然后根據(jù)輸入文本把它們重新結(jié)合，創(chuàng)造全新的語音。在實(shí)踐中，選擇合適的音素并組合起來并非易事，因?yàn)槊總€音素的聲學(xué)特征由相鄰的音素、語音的韻律所決定，這通常使得語音單元之間不相容。圖 1 展示了如何使用被分割為半音素的數(shù)據(jù)庫合成語音。

圖 1：展示了使用半音素進(jìn)行單元選擇語音合成。合成的發(fā)音是「Unit selection synthesis」，圖的頂部是使用半音素的標(biāo)音法。相應(yīng)的合成波形與光譜圖在圖下部分。豎線劃分的語音段是來自數(shù)據(jù)集的持續(xù)語音段，數(shù)據(jù)集可能包含一個或多個半音素。

單元選擇 TTS 技術(shù)的基本難題是找到一系列單元(例如，半音素)，既要滿足輸入文本、預(yù)測目標(biāo)音韻，又要能夠在沒有明顯錯誤的情況下組合在一起。傳統(tǒng)方式上，該流程包含兩部分：前端和后端(見圖 2)，盡管現(xiàn)代系統(tǒng)中其界限可能會很模糊。前端的目的是基于原始文本輸入提供語音轉(zhuǎn)錄和音韻信息。這包括將包含數(shù)字、縮寫等在內(nèi)的原始文本規(guī)范化寫成單詞，并向每個單詞分配語音轉(zhuǎn)錄，解析來自文本的句法、音節(jié)、單詞、重音、分句。要注意，前端高度依賴語言。

圖 2：文本轉(zhuǎn)語音合成流程。

使用由文本分析模塊創(chuàng)建的符號語言學(xué)表征，音韻生成模塊預(yù)測音調(diào)、音長等聲學(xué)特征的值。這些值被用于選擇合適的單元。單元選擇的任務(wù)極其復(fù)雜，所以現(xiàn)代的合成器使用機(jī)器學(xué)習(xí)方法學(xué)習(xí)文本與語音之間的一致性，然后根據(jù)未知文本的特征值預(yù)測其語音特征值。這一模塊必須要在合成器的訓(xùn)練階段使用大量的文本和語音數(shù)據(jù)進(jìn)行學(xué)習(xí)。音韻模型輸入的是數(shù)值語言學(xué)特征，例如音素特性、音素語境、音節(jié)、詞、短語級別的位置特征轉(zhuǎn)換為適當(dāng)?shù)臄?shù)值形式。音韻模型的輸出由語音的數(shù)值聲學(xué)特征組成，例如頻譜、基頻、音素時長。在合成階段，訓(xùn)練的統(tǒng)計模型用于把輸入文本特征映射到語音特征，然后用來指導(dǎo)單元選擇后端流程，該流程中聲調(diào)與音長的合適度極其重要。

與前端不同，后端通常是語言獨(dú)立的。它包括單元選擇和波形拼接部分。當(dāng)系統(tǒng)接受訓(xùn)練時，使用強(qiáng)制對齊將錄制的語音和腳本對齊(使用語音識別聲學(xué)模型)以使錄制的語音數(shù)據(jù)被分割成單獨(dú)的語音段。然后使用語音段創(chuàng)建單元數(shù)據(jù)庫。使用重要的信息，如每個單元的語言環(huán)境(linguistic context)和聲學(xué)特征，將該數(shù)據(jù)庫進(jìn)一步增強(qiáng)。我們將該數(shù)據(jù)叫作單元索引(unit index)。使用構(gòu)建好的單元數(shù)據(jù)庫和指導(dǎo)選擇過程的預(yù)測音韻特征，即可在語音空間內(nèi)執(zhí)行 Viterbi 搜索，以找到單元合成的***路徑(見圖 3)。

圖 3. 使用 Viterbi 搜索在柵格中尋找單元合成***路徑。圖上方是合成的目標(biāo)半音素，下面的每個框?qū)?yīng)一個單獨(dú)的單元。Viterbi 搜索找到的***路徑為連接被選中單元的線。

該選擇基于兩個標(biāo)準(zhǔn)：(1)單元必須遵循目標(biāo)音韻;(2)在任何可能的情況下，單元應(yīng)該在單元邊界不產(chǎn)生聽覺故障的情況下完成拼接。這兩個標(biāo)準(zhǔn)分別叫作目標(biāo)成本和拼接成本。目標(biāo)成本是已預(yù)測的目標(biāo)聲學(xué)特征和從每個單元抽取出的聲學(xué)特征(存儲在單元索引中)的區(qū)別，而拼接成本是后項(xiàng)單元之間的聲學(xué)區(qū)別(見圖 4)?？偝杀景凑杖缦鹿接嬎悖?/p>

其中 u_n 代表第 n 個單元，N 代表單元的數(shù)量，w_t 和 w_c 分別代表目標(biāo)成本和拼接成本的權(quán)重。確定單元的***順序之后，每個單元波形被拼接，以創(chuàng)建連續(xù)的合成語音。

圖 4. 基于目標(biāo)成本和拼接成本的單元選擇方法。

Siri 新聲音背后的技術(shù)

因?yàn)殡[馬爾可夫模型對聲學(xué)參數(shù)的分布直接建模，所以該模型通常用于對目標(biāo)預(yù)測 [5][6] 的統(tǒng)計建模，因此我們可以利用如 KL 散度那樣的函數(shù)非常簡單地計算目標(biāo)成本。然而，基于深度學(xué)習(xí)的方法通常在參數(shù)化的語音合成中更加出色，因此我們也希望深度學(xué)習(xí)的優(yōu)勢能轉(zhuǎn)換到混合單元選擇合成(hybrid unit selection synthesis)中。

Siri 的 TTS 系統(tǒng)的目標(biāo)是訓(xùn)練一個基于深度學(xué)習(xí)的統(tǒng)一模型，該模型能自動并準(zhǔn)確地預(yù)測數(shù)據(jù)庫中單元的目標(biāo)成本和拼接成本(concatenation costs)。因此該方法不使用隱馬爾可夫模型，而是使用深度混合密度模型(deep mixture density network /MDN)[7][8] 來預(yù)測特征值的分布。MDS 結(jié)合了常規(guī)的深度神經(jīng)網(wǎng)絡(luò)和高斯混合模型(GMM)。

常規(guī) DNN 是一種在輸入層和輸出層之間有多個隱藏層的人工神經(jīng)網(wǎng)絡(luò)。因此這樣的深度神經(jīng)網(wǎng)絡(luò)才能對輸入特征與輸出特征之間的復(fù)雜和非線性關(guān)系建模。通常深度神經(jīng)網(wǎng)絡(luò)使用反向傳播算法通過誤差的傳播而更新整個 DNN 的權(quán)重。相比之下，GMM 在使用一系列高斯分布給定輸入數(shù)據(jù)的情況下，再對輸出數(shù)據(jù)的分布進(jìn)行建模。GMM 通常使用期望***化(expectation maximization /EM)算法執(zhí)行訓(xùn)練。MDN 結(jié)合了 DNN 和 GMM 模型的優(yōu)點(diǎn)，即通過 DNN 對輸入和輸出之間的復(fù)雜關(guān)系進(jìn)行建模，但是卻提高概率分布作為輸出(如下圖 5)。

圖 5：用于對聲音特征的均值和方差建模的深度混合密度網(wǎng)絡(luò)，輸出的聲學(xué)均值和方差可用于引導(dǎo)單元選擇合成

對于 Siri 來說，我們使用了基于 MDN 統(tǒng)一的目標(biāo)和拼接模型，該模型能預(yù)測語音目標(biāo)特征(頻譜、音高和音長)和拼接成本分布，并引導(dǎo)單元的搜索。因?yàn)? MDN 的分布是一種高斯概率表分布形式，所以我們能使用似然度函數(shù)作為目標(biāo)和拼接成本的損失函數(shù)：

其中 x_i 是第 i 個目標(biāo)特征，μ_i 為預(yù)測均值而 (σ_i)^2 為預(yù)測方差。在實(shí)際的成本計算中，使用負(fù)對數(shù)似然函數(shù)和移除常數(shù)項(xiàng)將變得更加方便，經(jīng)過以上處理將簡化為以下簡單的損失函數(shù)：

其中 w_i 為特征權(quán)重。

當(dāng)我們考慮自然語言時，這種方法的優(yōu)勢將變得非常明顯。像元音那樣，有時候語音特征(如話音素)相當(dāng)穩(wěn)定，演變也非常緩慢。而有時候又如有聲語音和無聲語音的轉(zhuǎn)換那樣變化非常迅速?？紤]到這種變化性，模型需要能夠根據(jù)這種變化性對參數(shù)作出調(diào)整，深度 MDN 的做法是在模型中使用嵌入方差(variances embedded)。因?yàn)轭A(yù)測的方差是依賴于上下文的(context-dependent)，所以我們將它們視為成本的自動上下文依賴權(quán)重。這對提升合成質(zhì)量是極為重要的，因?yàn)槲覀兿Ｍ诋?dāng)前上下文下計算目標(biāo)成本和拼接成本：

其中 w_t 和 w_c 分別為目標(biāo)和拼接成本權(quán)重。在***的公式中，目標(biāo)成本旨在確保合成語音(語調(diào)和音長)中再現(xiàn)音韻。而拼接成本確保了流暢的音韻和平滑的拼接。

在使用深度 MDN 對單元的總成本進(jìn)行評分后，我們執(zhí)行了一種傳統(tǒng)的維特比搜索(Viterbi search)以尋找單元的***路徑。然后，我們使用波形相似重疊相加算法(waveform similarity overlap-add/WSOLA)找出***拼接時刻，因此生成平滑且連續(xù)合成語音。

結(jié)論

我們?yōu)?Siri 的新聲音搭建了一整套基于深度 MDN 的混合單元選擇 TTS 系統(tǒng)。訓(xùn)練語音數(shù)據(jù)包括在 48KHz 的頻率下采樣的最少 15 小時高質(zhì)量語音。我們采取了強(qiáng)制對齊的方式將這些語音數(shù)據(jù)分割為半音素(half-phones)，即通過自動語音識別將輸入音素序列和從語音信號抽取出的聲學(xué)特征相匹配。這個分割的過程根據(jù)語音數(shù)據(jù)量產(chǎn)生 1~2 百萬的半音素單元。

為了引導(dǎo)單元的選擇過程，我們使用 MDN 架構(gòu)訓(xùn)練了統(tǒng)一的目標(biāo)和拼接模型。深度 MDN 的輸入由帶有一些額外 continuously-valued 特征的二值組成。該特征表示一系列語句中的多元音素(quinphones)信息(2 個過去的、現(xiàn)在的和對后的音素)，音節(jié)、短語和句子級的信息，還有額外的突出和重讀特征。

輸出向量包含以下聲學(xué)特征：梅爾倒頻譜系數(shù)(MFCC)、delta-MFCC、基頻(fundamental frequency – f0)和 delta-f0(包含每個單元的開始和結(jié)束的值)，以及每個單元的音長時間。因?yàn)槲覀兪褂?MDN 作為聲學(xué)模型，所以輸出同樣包含每一個特征的方差，并作為自動上下文依賴權(quán)重。

此外，語音區(qū)的基本頻率整體上高度依賴發(fā)音，為了創(chuàng)建語調(diào)自然生動的合成語音，我們部署了一個循環(huán)深度 MDN 模型以建模 f0 特征。

訓(xùn)練的深度 MDN 的架構(gòu)包括 3 個隱藏層，每一層有 512 個修正線性單元(ReLU)作為非線性激活函數(shù)。輸入特征和輸出特征在訓(xùn)練前接受均值和方差歸一化處理。最終的單元選擇聲音包括單元數(shù)據(jù)庫(含有每個單元的特征和語音數(shù)據(jù))和訓(xùn)練的深度 MDN 模型。新的 TTS 系統(tǒng)的質(zhì)量優(yōu)于之前的 Siri 系統(tǒng)。在一個 AB 成對主觀聽力測試中，被試者明確地選擇基于深度 MDN 的新聲音，而不是之前的聲音。結(jié)果如圖 6 所示。質(zhì)量的改善與 TTS 系統(tǒng)中的多個改進(jìn)有關(guān)，如基于深度 MDN 的后端使得單元選擇和拼接變得更好，采樣率更高(22 kHz vs 48 kHz)，音頻壓縮更好。

圖 6：AB 成對主觀聽力測試的結(jié)果。新聲音要顯著地優(yōu)于以前版本的聲音。

因?yàn)?TTS 系統(tǒng)需要在移動設(shè)備上運(yùn)行，我們在速度、內(nèi)存使用和占用上使用快速預(yù)選機(jī)制、單元剪枝和計算并行化優(yōu)化了它的運(yùn)行時(Runtime)性能。

新聲音

對于 IOS 11，我們選擇了一位新的女性聲優(yōu)來提升 Siri 聲音的自然度、個性度及表達(dá)能力。在選出***聲優(yōu)之前，我們評估了成百上千的后選人。在選定之后，我們錄制了 20 多小時的語音并使用新的深度學(xué)習(xí) TTS 技術(shù)構(gòu)建了一個新的 TTS 聲音。***，新的美式英語 Siri 聽起來要比以前好。下表包含一些語音的對比(無法展示，請查看原文)。

更多技術(shù)詳情請查看論文：Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System[9]

表 1. iOS 11 中的 Siri 新聲音示例

責(zé)任編輯：龐桂玉來源： 36大數(shù)據(jù)

深度學(xué)習(xí)語音合成 Siri

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營