偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文概覽基于深度學(xué)習(xí)的監(jiān)督語音分離

人工智能 深度學(xué)習(xí)
語音分離是指將目標(biāo)語音從背景干擾中分離出來的任務(wù)。傳統(tǒng)上,語音分離被當(dāng)作一個信號處理問題。最近出現(xiàn)一種新方法把語音分離作為監(jiān)督學(xué)習(xí)問題處理,從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)語音、說話人和背景噪聲的判別模式(discriminative pattern)。

一文概覽基于深度學(xué)習(xí)的監(jiān)督語音分離

摘要:語音分離是指將目標(biāo)語音從背景干擾中分離出來的任務(wù)。傳統(tǒng)上,語音分離被當(dāng)作一個信號處理問題。最近出現(xiàn)一種新方法把語音分離作為監(jiān)督學(xué)習(xí)問題處理,從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)語音、說話人和背景噪聲的判別模式(discriminative pattern)。過去十年內(nèi)已經(jīng)有很多監(jiān)督分離算法被提出,特別是最近提出的基于深度學(xué)習(xí)的監(jiān)督語音分離有很多進步之處,在分離任務(wù)中的表現(xiàn)有很大的提高。這篇論文對最近幾年基于深度學(xué)習(xí)的監(jiān)督語音分離的研究進行了概述。我們首先介紹語音分離的背景和監(jiān)督分離的形成。然后我們將討論監(jiān)督分離中的三個主要組成部分:學(xué)習(xí)機器、訓(xùn)練目標(biāo)和聲學(xué)特征。本文對監(jiān)督語音分離的概述主要著眼于分離算法,我們將回顧單聲道方法,包括語音增強(語音-非語音分離)、說話人分離(多人談話分離)、語音混響削減(speech dereverberation),以及麥克風(fēng)陣列技術(shù)(multi-microphone technique)。本文還討論了泛化這一重要問題。本文從歷史視角敘述監(jiān)督語音分離的技術(shù)發(fā)展過程。此外,我們還討論了很多概念上的東西,比如目標(biāo)源的構(gòu)成。

1. 引言

語音分離的目標(biāo)是把目標(biāo)語音從背景干擾中分離出來。在信號處理中,語音分離屬于很基本的任務(wù)類型,應(yīng)用范圍很廣泛,包括聽力假體、移動通信、魯棒的自動語音以及說話人識別。人類聽覺系統(tǒng)能輕易地將一個人的聲音和另一個人的分離開來。即使在雞尾酒會那樣的聲音環(huán)境中,我們似乎也能毫不費力地在其他人的說話聲和環(huán)境噪聲的包圍中聽到一個人的說話內(nèi)容。因此語音分離問題通常也被叫做「雞尾酒會問題」(cocktail party problem),該術(shù)語由 Cherry 在他 1953 年那篇著名論文中提出 [22]。

人類最重要的交流方式就是語言,對我們來說,從背景干擾中分離出語音是至關(guān)重要的。感興趣的演講或者目標(biāo)談話經(jīng)常被其它來源的多余噪聲和表面反射產(chǎn)生的混響所干擾。雖然人類能輕易地分離語音,但事實證明,在這項基本任務(wù)中,構(gòu)建一個能夠媲美人類聽覺系統(tǒng)的自動化系統(tǒng)是很有挑戰(zhàn)性的。在 Cherry 1953 年出版的書 [23] 中,他觀察到:「目前為止沒有任何機器能解決『雞尾酒會問題』?!购懿恍业氖?,雖然本文提到的近期研究進展已經(jīng)開始解決這個問題,但在我們這個領(lǐng)域中,他的結(jié)論一直保持了 60 多年的正確性。

語音分離非常重要,已經(jīng)在信號處理領(lǐng)域被研究了幾十年。根據(jù)傳感器或麥克風(fēng)的數(shù)量,分離方法可分為單聲道方法(單個麥克風(fēng))和陣列方法(多個麥克風(fēng))。單聲道分離的兩個傳統(tǒng)方法是語音增強 [95] 和計算聽覺場景分析(CASA)[140]。語音增強方法分析語音和噪聲的全部數(shù)據(jù),然后經(jīng)過帶噪語音的噪聲估計,進而對清晰語音進行估計 [32][95]。最簡單以及應(yīng)用最廣泛的增強方法是頻譜相減法(spectral subtraction)[10],其中估計噪聲的功率譜會從帶噪語音中刪去。為了估計背景噪聲,語音增強技術(shù)一般假定背景噪音是穩(wěn)定的,也就是說,其頻譜特性不會隨時間變化,或者至少比語音穩(wěn)定一些。CASA 建立在聽覺場景分析的感知理論基礎(chǔ)上 [12],利用聚類約束(grouping cue)如基音頻率(pitch)和起音(onset)。例如,tandem 算法通過交換 pitch 估計和基于 pitch 的聚類進行語音分離 [65]。

由兩個或更多的麥克風(fēng)組成的陣列使用不同的語音分離方法。波束成形,或者說空間濾波器,通過恰當(dāng)?shù)年嚵薪Y(jié)構(gòu)增強從特定的方向到達的信號,進而削減來自其它方向的干擾 [134][11][7][74]。最簡單的波束成形是一種延遲-疊加技術(shù),能將來自目標(biāo)方向的多個麥克風(fēng)的信號以相同的相位相加,并根據(jù)相差削減來自其它方向的信號。噪聲的削減量取決于陣列的間隔、尺寸和結(jié)構(gòu),通常隨著麥克風(fēng)數(shù)量和陣列長度的增加,削減量也會增加。顯然,當(dāng)目標(biāo)源和干擾源被共置,或者很靠近的時候,空間濾波器是無法應(yīng)用的。此外,在回聲場景中,波束成形的效用大幅降低,對聲源方向的判定變得模糊不清。

一種最近提出的方法將語音分離當(dāng)作一個監(jiān)督學(xué)習(xí)問題。監(jiān)督語音分離的最初形成受 CASA 中時頻掩膜(time-frequency (T-F) masking)概念的啟發(fā) [98][140][138]。CASA 的主要目標(biāo)是理想二值掩膜(ideal binary mask,IBM)[63],表示目標(biāo)信號是否控制混合信號時頻表示中的一個 T-F 單元。聽力研究顯示,理想二值掩膜能夠顯著提高正常聽力者(NH)和聽力受損者(HI)在嘈雜環(huán)境中的語音理解能力 [13][1][91][141]。以 IBM 作為計算目標(biāo),則語音分離變成了二值分類問題,這正是監(jiān)督學(xué)習(xí)的一種基本形式。在這種情況下,IBM 被當(dāng)做訓(xùn)練中的目標(biāo)信號或目標(biāo)函數(shù)。在測試中,學(xué)習(xí)機器的目的就是估計 IBM,這也是監(jiān)督語音分離的***訓(xùn)練目標(biāo)(參見 Sect. III)。

由于語音分離已經(jīng)變成分類問題,因此數(shù)據(jù)驅(qū)動的方法在語音處理領(lǐng)域得到了廣泛研究。在過去的十年內(nèi),通過運用大型訓(xùn)練數(shù)據(jù)和增加計算資源,監(jiān)督語音分離大幅提高了***進性能 [17]。監(jiān)督分離從深度學(xué)習(xí)的發(fā)展中受益良多,這也是本文的主題。監(jiān)督語音分離算法可以大體上分為以下幾個部分:學(xué)習(xí)機器、訓(xùn)練目標(biāo)和聲學(xué)特征。本文,我們首先回顧這三個部分。然后介紹代表性算法,包括單聲道方法和基于陣列的算法。泛化作為監(jiān)督語音分離的特有議題,也將在本文中進行討論。

為避免混淆,我們需要厘清本文使用的幾個相關(guān)術(shù)語。speech separation 或 speech segregation(語音分離)都指從背景干擾(可能包括非語音噪聲、干擾語音,或者都有,以及室內(nèi)混響)中分離目標(biāo)語音的任務(wù)。此外,「雞尾酒會問題」(cocktail party problem)也指語音分離(speech separation)。語音增強或去噪(speech enhancement or denoising)指語音和非語音噪聲的分離。如果是多個說話人的語音分離問題,我們使用術(shù)語「多說話人分離」(speaker separation)。

本文的結(jié)構(gòu)如下:首先回顧監(jiān)督語音分離的三個主要方面,即學(xué)習(xí)機器、訓(xùn)練目標(biāo)和特征(分別在第二、三、四章進行介紹)。第五章介紹單聲道分離算法,第六章介紹基于陣列的算法。第七章是總結(jié)。

 

圖 1. 對混合了 -5 dB SNR 工廠噪聲的 TIMIT 音頻數(shù)據(jù)使用不同訓(xùn)練目標(biāo)圖示。

 

 

圖 2. 使用不同訓(xùn)練目標(biāo)的訓(xùn)練結(jié)果比較。(a)STOI。(b)PESQ。分別用清晰語音混合信噪比為-5dB、0dB、5dB 的工廠噪聲。可從 http://web.cse.ohio-state.edu/pnl/DNN_toolbox/的 Matlab toolbox 中獲取這張圖的結(jié)果和數(shù)據(jù)。

 

圖 3. DNN 進行特征學(xué)習(xí)的圖示,使用線性 SVM 對學(xué)得的特征進行 IBM 值估計 [147]。

 

圖 4. 用于語音分離的二階 DNN(two-stage DNN)的圖示 [52]。

 

圖 5. 語音增強中基于 DNN 的頻譜映射方法圖示 [161]。 

 

圖 6. 配置自動編碼器以進行無監(jiān)督調(diào)試的語音增強 DNN 架構(gòu) [182]。AE 堆疊在 DNN 的頂部作為純度檢測器,估計來自 DNN 的清晰語音。

 

圖 7. 基于 LSTM 的語音分離系統(tǒng)的結(jié)構(gòu)展示 [16]。

 

圖 8. 前饋 DNN 和基于 LSTM 的 RNN 的 STOI 改進。(a)信噪比為-5dB 的經(jīng)訓(xùn)練說話人的結(jié)果。(b)信噪比為-5dB 的未訓(xùn)練說話人的結(jié)果。

 

圖 9. 基于頻譜映射的語音混響削減 DNN 圖示 [45]。

 

圖 10. 語音混響削減的混響時間響應(yīng) DNN 結(jié)構(gòu)圖示(根據(jù) [156] 重畫)。

 

圖 11. 基于 DNN 的兩個說話人分離方法圖示。

 

圖 12. 聽力正常者和聽力受損者傾聽混合干擾語句的目標(biāo)語句并將目標(biāo)語句從中分離出來時的平均清晰度得分和標(biāo)準(zhǔn)偏差 [151]。圖中展示了四種不同目標(biāo)-干擾比率的正確率百分比結(jié)果。

 

圖 14. 雙聲道分離算法的結(jié)構(gòu)圖示 [171]。

 

圖 15. 單聲道掩膜估計的 MVDR 波束成形器 [34]。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-11-20 05:08:16

深度學(xué)習(xí)激活函數(shù)神經(jīng)網(wǎng)絡(luò)

2017-10-22 06:05:28

語音識別深度學(xué)習(xí)ASR

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2022-04-26 10:27:52

機器算法KNN數(shù)據(jù)

2017-10-24 11:19:16

深度學(xué)習(xí)機器學(xué)習(xí)數(shù)據(jù)

2023-09-26 22:13:09

深度學(xué)習(xí)

2022-07-06 10:23:13

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-02-01 07:34:41

讀寫分離數(shù)據(jù)庫

2019-09-17 08:18:19

HTTP網(wǎng)絡(luò)協(xié)議狀態(tài)碼

2023-10-23 18:04:42

Rust深度學(xué)習(xí)框架

2018-07-20 14:58:16

深度學(xué)習(xí)梯度下降損失函數(shù)

2025-04-27 09:59:38

深度學(xué)習(xí)AI人工智能

2024-03-01 19:26:22

2018-08-31 14:51:30

人工智能深度學(xué)習(xí)機器學(xué)習(xí)

2018-07-03 09:12:23

深度學(xué)習(xí)正則化Python

2018-08-08 16:08:45

深度學(xué)習(xí)機器學(xué)習(xí)NLP

2018-08-16 08:19:30

2019-11-06 17:00:51

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2019-09-30 09:19:54

Redis分離云數(shù)據(jù)庫

2017-08-07 10:08:29

深度學(xué)習(xí)分類體系信息檢索
點贊
收藏

51CTO技術(shù)棧公眾號