偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從技術(shù)角度出發(fā) 回顧2016年語音識別的發(fā)展

人工智能 語音識別
得益于深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,語音識別在2016年取得了一系列突破性的進(jìn)展,在產(chǎn)品應(yīng)用上也越來越成熟。作為語音交互領(lǐng)域中極其重要的一環(huán),語音識別一直是科技巨頭研究的重點,國內(nèi)外也涌現(xiàn)出了一批優(yōu)秀的創(chuàng)業(yè)公司。

得益于深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,語音識別在2016年取得了一系列突破性的進(jìn)展,在產(chǎn)品應(yīng)用上也越來越成熟。作為語音交互領(lǐng)域中極其重要的一環(huán),語音識別一直是科技巨頭研究的重點,國內(nèi)外也涌現(xiàn)出了一批優(yōu)秀的創(chuàng)業(yè)公司。

[[185805]]

今年年初,機(jī)器之心發(fā)布來自ACM中文版的文章《深度 | 四十年的難題與榮耀——從歷史視角看語音識別發(fā)展》,文中微軟首席語音科學(xué)家黃學(xué)東為我們深入解讀了語音識別的歷史以及發(fā)展難題。

長久以來,人與機(jī)器交談一直是人機(jī)交互領(lǐng)域內(nèi)的一個夢想。語音識別做為很基礎(chǔ)的技術(shù)在這一年中再次有了更大的發(fā)展。

一年中,機(jī)器之心拜訪過科大訊飛,接觸過云知聲、思必馳等創(chuàng)業(yè)公司,在微軟的英語語音識別取得突破后更是深度專訪了微軟的黃學(xué)東、俞棟,不久之前的百度語音開發(fā)平臺三周年的主題活動上我們也向百度首席科學(xué)家吳恩達(dá)了解過百度的語音識別發(fā)展。我們希望從機(jī)器之心文章中梳理出的線索,能為接下來語音識別的發(fā)展提供一絲洞見。

在這篇文章中,我們會依次梳理2016年機(jī)器之心關(guān)注到的語音識別領(lǐng)域的突破性研究、未來待解決的難題、語音識別發(fā)展歷史中較為重要的時間點。

一、2016 年語音識別有哪些突破?

這一部分盤點了 2016 年機(jī)器之心所關(guān)注到的在語音識別準(zhǔn)確率上取得的突破,主要涉及的公司包括百度、IBM 和微軟等。根據(jù)這些突破,我們梳理出了一條語音識別技術(shù)發(fā)展的線路。

1. 百度 Deep Speech 2 的短語識別的詞錯率降到了 3.7%

發(fā)生時間:2016 年 2 月

Deep Speech 2 于 2015 年 12 月首次發(fā)布時,首席科學(xué)家吳恩達(dá)表示其識別的精度已經(jīng)超越了 Google Speech API、wit.ai、微軟的 Bing Speech 和蘋果的 Dictation 至少 10 個百分點。到今年 2 月份時,Deep Speech 2 的短語識別的詞錯率已經(jīng)降到了 3.7%

不久之前,百度又將 Deep CNN 應(yīng)用于語音識別研究,使用了 VGGNet,以及包含 Residual 連接的深層 CNN 等結(jié)構(gòu),并將 LSTM 和 CTC 的端對端語音識別技術(shù)相結(jié)合,使得識別錯誤率相對下降了 10%(原錯誤率的 90%)以上。

據(jù)百度語音技術(shù)部識別技術(shù)負(fù)責(zé)人、Deep Speech 中文研發(fā)負(fù)責(zé)人李先剛博士介紹說,百度正在努力推進(jìn) Deep Speech 3,這項研究不排除將會是 Deep Speech 3 的核心組成部分。

技術(shù)提升基礎(chǔ):1. 端到端深度學(xué)習(xí)方法;2. 深層卷積神經(jīng)網(wǎng)絡(luò)技術(shù)(Deep CNN)應(yīng)用于語音識別聲學(xué)建模中,與基于長短時記憶單元(LSTM)和連接時序分類(CTC)的端對端語音識別技術(shù)相結(jié)合。

2.IBM Watson 會話詞錯率低至 6.9%

發(fā)生時間:2016 年 5 月

2015 年,IBM Watson 公布了英語會話語音識別領(lǐng)域的一個重大里程碑:系統(tǒng)在非常流行的評測基準(zhǔn) Switchboard 數(shù)據(jù)庫中取得了 8% 的詞錯率(WER)。到了今年 5 月份,IBM Watson 團(tuán)隊再次宣布在同樣的任務(wù)中他們的系統(tǒng)創(chuàng)造了 6.9% 的詞錯率新紀(jì)錄。

技術(shù)提升基礎(chǔ):聲學(xué)和語言建模兩方面技術(shù)的提高

3. 微軟新系統(tǒng)英語語音識別詞錯率低至 6.3%

發(fā)生時間:2016 年 9 月

在產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語音識別任務(wù)上,微軟研究者取得了產(chǎn)業(yè)中最低的 6.3% 的詞錯率(WER)。

技術(shù)提升基礎(chǔ):基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)和語言模型的發(fā)展,數(shù)個聲學(xué)模型的結(jié)合,把 ResNet 用到語音識別。

4. 微軟英語語音識別詞錯率達(dá)到了 5.9%,媲美人類

發(fā)生時間:2016 年 10 月

微軟人工智能與研究部門的團(tuán)隊報告出他們的語音識別系統(tǒng)實現(xiàn)了和專業(yè)速錄員相當(dāng)甚至更低的詞錯率(WER),達(dá)到了 5.9%。5.9% 的詞錯率已經(jīng)等同于人速記同樣一段對話的水平,而且這是目前行業(yè)標(biāo)準(zhǔn) Switchboard 語音識別任務(wù)中的最低記錄。這個里程碑意味著,一臺計算機(jī)在識別對話中的詞上第一次能和人類做得一樣好。

技術(shù)提升基礎(chǔ):系統(tǒng)性地使用了卷積和 LSTM 神經(jīng)網(wǎng)絡(luò),并結(jié)合了一個全新的空間平滑方法(spatial smoothing method)和 lattice-free MMI 聲學(xué)訓(xùn)練。

雖然在準(zhǔn)確率的突破上都給出了數(shù)字基準(zhǔn),但百度與微軟、IBM(switchboard 上測試)有較大的不同。微軟的研究更加學(xué)術(shù),是在標(biāo)準(zhǔn)數(shù)據(jù)庫——口語數(shù)據(jù)庫 switchboard 上面完成的,這個數(shù)據(jù)庫只有 2000 小時。

微軟研究院的研究關(guān)注點是基于 switchboard 數(shù)據(jù)庫,語音識別最終能做到什么樣的性能。而據(jù)百度語音識別技術(shù)負(fù)責(zé)人李先剛介紹,他們的關(guān)注點是語音技術(shù)能夠深入到大家的日常應(yīng)用中,他們用的數(shù)據(jù)長達(dá)數(shù)萬小時。

黃學(xué)東在之前接受機(jī)器之心專訪時也表示他們的這個語音識別系統(tǒng)里面沒有 bug,因為要在標(biāo)準(zhǔn)數(shù)據(jù)上做到這樣的水平,實際上體現(xiàn)了工程的完美。

就各項突破的技術(shù)提升基礎(chǔ),我們可以很明晰的梳理出一條線:

1. 之前 LSTM 這樣的模型開始成功應(yīng)用于語音識別,今年的后續(xù)研究不斷提升 LSTM 的模型效果。

2. 另外一個比較大的進(jìn)展是 Deep CNN。Deep CNN 比起雙向 LSTM(雙向效果比較好)有一個好處——時延。所以在實時系統(tǒng)里會更傾向于用 Deep CNN 而不是雙向 LSTM。

3. 端到端學(xué)習(xí),這也是百度首席科學(xué)家吳恩達(dá)在 NIPS 2016 上重點提到的。比如語音識別,輸入的是語音,輸出的是文本,這是比較純粹的端對端學(xué)習(xí)。但是它也有缺點——需要足夠大的訓(xùn)練集。

從技術(shù)角度出發(fā) 回顧2016年語音識別的發(fā)展

圖:吳恩達(dá) NIPS 2016 ppt

這方面現(xiàn)在的研究工作主要集中在兩類模型上。一類就是 CTC 模型,包括 Johns Hopkins 大學(xué)的 Dan Povey 博士從 CTC 發(fā)展出來的 lattice-free MMI;還有一類是基于注意的序列到序列模型。今天它們的表現(xiàn)也還是比混合模型遜色,訓(xùn)練的穩(wěn)定性也更差,但是這些模型有比較大的潛力(參考機(jī)器之心對俞棟老師的專訪)。

國內(nèi)還有其他幾家做語音識別的公司,這里對科大訊飛、搜狗、云知聲的語音識別系統(tǒng)做個簡單介紹。

去年年底,科大訊飛提出了以前饋型序列記憶網(wǎng)絡(luò)(FSMN, Feed-forward Sequential Memory Network)為代表的新一代語音識別系統(tǒng)。

今年,科大訊飛又推出了全新的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network, DFCNN)語音識別框架,使用大量的卷積層直接對整句語音信號進(jìn)行建模,更好的表達(dá)了語音的長時相關(guān)性。據(jù)介紹,該框架的表現(xiàn)比學(xué)術(shù)界和工業(yè)界最好的雙向 RNN 語音識別系統(tǒng)識別率提升了 15% 以上。其結(jié)構(gòu)圖如下:

從技術(shù)角度出發(fā) 回顧2016年語音識別的發(fā)展

科大訊飛 DFCNN 的結(jié)構(gòu)圖

同時,我也附上搜狗、云知聲提供的各自的語音識別系統(tǒng)的流程,以供大家學(xué)習(xí)、比較、參考:

從技術(shù)角度出發(fā) 回顧2016年語音識別的發(fā)展

語音識別系統(tǒng)流程:語音信號經(jīng)過前端信號處理、端點檢測等處理后,逐幀提取語音特征,傳統(tǒng)的特征類型包括 MFCC、PLP、FBANK 等特征,提取好的特征送至解碼器,在聲學(xué)模型、語言模型以及發(fā)音詞典的共同指導(dǎo)下,找到最為匹配的詞序列作為識別結(jié)果輸出。

從技術(shù)角度出發(fā) 回顧2016年語音識別的發(fā)展

搜狗 CNN 語音識別系統(tǒng)建模流程

從技術(shù)角度出發(fā) 回顧2016年語音識別的發(fā)展

云知聲語音識別系統(tǒng)

二、難題與前沿方向

在語音識別高速發(fā)展的一年,我們曾專訪過黃學(xué)東、俞棟等多位領(lǐng)域內(nèi)的專家,不可避免的探討了未來語音識別領(lǐng)域所面臨的方向、挑戰(zhàn)、抑或是難題。現(xiàn)如今整理如下,希望能對大家接下來的語音識別研究有所幫助:

1. 語義理解

黃學(xué)東認(rèn)為,要做好語音識別需要更好的語義理解,二者相輔相成?!溉说聂敯粜苑浅:?,一個新的課題過來,他可以通過會話的方式跟你溝通,也能得到很好的結(jié)果。而機(jī)器對噪音的抗噪性不夠強(qiáng),對新的課題會話溝通能力比較差。最重要的一點是,語音識別并沒有理解你的語義。理解語義是人工智能下一個需要攻克的難題,這也是我們團(tuán)隊花很多時間和精力正在做的事情。」

2. 值得關(guān)注的四大方向

在之前機(jī)器之心對俞棟的專訪中,他為我們指出了語音識別領(lǐng)域的幾大前沿:

在安靜環(huán)境下并使用近距麥克風(fēng)的場合,語音識別的識別率已越過了實用的門檻;但是在某些場景下效果還不是那么好,這就是我們這個領(lǐng)域的 frontier?,F(xiàn)在大家主攻幾點:

首先,是不是能夠進(jìn)一步提升在遠(yuǎn)場識別尤其是有人聲干擾情況下的識別率。目前一般遠(yuǎn)場識別的錯誤率是近場識別錯誤率的兩倍左右,所以在很多情況下語音識別系統(tǒng)還不盡如人意。遠(yuǎn)場識別至少目前還不能單靠后端的模型加強(qiáng)來解決?,F(xiàn)在大家的研究集中在結(jié)合多通道信號處理(例如麥克風(fēng)陣列)和后端處理從拾音源頭到識別系統(tǒng)全程優(yōu)化來增強(qiáng)整個系統(tǒng)的表現(xiàn)。

另外,大家還在研究更好的識別算法。這個「更好」有幾個方面:一個方面是能不能更簡單。現(xiàn)在的模型訓(xùn)練過程還是比較復(fù)雜的,需要經(jīng)過很多步驟。如果沒有 HTK 和 Kaldi 這樣的開源軟件和 recipe 的話,很多團(tuán)隊都要用很長時間才能搭建一個還 OK 的系統(tǒng),即使 DNN 的使用已經(jīng)大幅降低了門檻?,F(xiàn)在因為有了開源軟件和 recipe,包括像 CNTK 這樣的深度學(xué)習(xí)工具包,事情已經(jīng)容易多了,但還有繼續(xù)簡化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary?,F(xiàn)在的研究主要還是基于 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預(yù)處理的部分去掉。雖然目前效果還不能超越傳統(tǒng)的 hybrid system,但是已經(jīng)接近 hybrid system 的 performance 了。

另外一個方面,最近的幾年里大家已經(jīng)從一開始使用簡單的 DNN 發(fā)展到了后來相對復(fù)雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現(xiàn)得還不夠好。所以一個研究方向是尋找一些特殊的網(wǎng)絡(luò)結(jié)構(gòu)能夠把我們想要 model 的那些東西都放在里面。我們之前做過一些嘗試,比如說人在跟另外一個人對話的過程中,他會一直做 prediction,這個 prediction 包括很多東西,不單是包括你下一句想要說什么話,還包括根據(jù)你的口音來判斷你下面說的話會是怎樣等等。我們曾嘗試把這些現(xiàn)象建在模型里以期提升識別性能。很多的研究人員也在往這個方向走。

還有一個方向是快速自適應(yīng)的方法—就是快速的不需要人工干預(yù)的自適應(yīng)方法(unsupervised adaptation)。現(xiàn)在雖然已經(jīng)有一些自適應(yīng)的算法了,但是它們相對來說自適應(yīng)的速度比較慢,或者需要較多的數(shù)據(jù)。有沒有辦法做到更快的自適應(yīng)?就好像第一次跟一個口音很重的人說話的時候,你可能開始聽不懂,但兩三句話后你就可以聽懂了。大家也在尋找像這種非??爝€能夠保證良好性能的自適應(yīng)方法??焖僮赃m應(yīng)從實用的角度來講還是蠻重要的。因為自適應(yīng)確實在很多情況下能夠提升識別率。

三、語音識別歷史的梳理

在這一部分我簡單的梳理了一下語音識別歷史上比較關(guān)鍵的一些時間點,至于詳細(xì)的語音識別技術(shù)研究歷史可參考之前提到的黃學(xué)東老師寫的《四十年的難題與榮耀——從歷史視角看語音識別發(fā)展》。

  • 1952 年,貝爾實驗室 Davis 等人研制了世界上第一個能識別 10 個英文數(shù)字發(fā)音的實驗系統(tǒng),但只能識別一人的發(fā)音。

  • 1962 年,IBM 展示了 Shoebox。Shoebox 能理解 16 個口語單詞以及 0-9 的英文數(shù)字。

  • 1969 年,貝爾實驗室的 John Pierce 預(yù)言成熟的語音識別在數(shù)十年內(nèi)不會成為現(xiàn)實,因為它需要人工智能。

  • 1970 年,普林斯頓大學(xué)的 Lenny Baum 發(fā)明隱馬爾可夫模型(Hidden Markov Model)。

  • 20 世紀(jì) 70 年代,卡耐基梅隆大學(xué)研發(fā) harpy speech recognition system,能夠識別 1011 個單詞,相當(dāng)于 3 歲兒童的詞匯量。

  • 20 世紀(jì) 80 年代,語音識別引入了隱馬爾可夫模型(Hidden Markov Model)。

  • 20 世紀(jì) 90 年代出現(xiàn)首個消費級產(chǎn)品 DragonDictate,由國際語音識別公司 Nuance 發(fā)布。

  • 2007 年,Dag Kittlaus 和 Adam Cheyer 創(chuàng)立 Siri.Inc。后被蘋果收購并于 2011 年首次出現(xiàn)在 iPhone 4s 上。

  • 2009 年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進(jìn)的發(fā)展。

  • 2011 年微軟率先取得突破,使用深度神經(jīng)網(wǎng)絡(luò)模型之后,語音識別錯誤率降低 30%。

  • 2015 年,IBM Watson 公布了英語會話語音識別領(lǐng)域的一個重大里程碑:系統(tǒng)在非常流行的評測基準(zhǔn) Switchboard 數(shù)據(jù)庫中取得了 8% 的詞錯率(WER)。

語音識別,在這一年有了極大的發(fā)展,從算法到模型都有了質(zhì)的變化,在加上語音領(lǐng)域(語音合成等)的其他研究,語音技術(shù)陸續(xù)進(jìn)入工業(yè)、家庭機(jī)器人、通信、車載導(dǎo)航等各個領(lǐng)域中。當(dāng)有一天,機(jī)器能夠真正「理解」人類語言,并作出回應(yīng),那時我們必將迎來一個嶄新的時代。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2017-01-03 16:03:56

2022-07-06 13:21:52

語音識別

2021-11-17 10:37:39

語音識別技術(shù)人工智能

2021-04-14 14:49:47

語音識別技術(shù)人工智能

2019-10-29 08:00:00

語音識別

2022-08-29 10:57:09

語音識蘋果頻率

2015-12-24 09:39:11

2017-01-19 10:28:34

云計算

2009-01-13 17:02:05

RIAFlashSilverlight

2016-09-13 22:36:54

2010-08-10 11:21:15

2018-02-25 13:15:10

智能制造

2016-11-18 12:08:53

2016-12-06 07:37:58

LinuxOS

2016-01-06 10:11:02

2016SDN

2016-10-24 10:46:47

大數(shù)據(jù)

2017-01-09 07:00:26

存儲閃存存儲技術(shù)

2022-12-01 07:03:22

語音識別人工智能技術(shù)

2018-12-25 09:23:08

大數(shù)據(jù)評測

2015-01-15 09:55:49

F5IT發(fā)展
點贊
收藏

51CTO技術(shù)棧公眾號