語音識別技術(shù)是如何發(fā)展的?
語音識別技術(shù)是從20世紀(jì)50年代開始發(fā)展的?,F(xiàn)在讓我們看看這些年來這項技術(shù)是如何發(fā)展的,以及我們使用的語音識別和語音轉(zhuǎn)文本功能的方式是如何隨著技術(shù)的發(fā)展而發(fā)展的。
20世紀(jì)50-80年代:第一臺能聽聲音的電腦誕生
自動語音識別(ASR)的強大力量意味著它的發(fā)展總是與大公司聯(lián)系在一起。
貝爾實驗室在1952年率先研制出語音號碼識別系統(tǒng)——AUDERY。在嚴(yán)格控制的條件下,AUDERY系統(tǒng)識別語音號碼的準(zhǔn)確率為97-99%。然而,根據(jù)科學(xué)家、前貝爾實驗室電氣工程師James Flanagan的說法,AUDERY坐在“一個六英尺高的繼電器架上,消耗了大量的電力,并表現(xiàn)出與復(fù)雜的真空管電路相關(guān)的無數(shù)維護問題。”即使對于特定的用途而言,AUDREY太昂貴且不方便。
1962年,IBM推出了能夠識別數(shù)字和簡單數(shù)學(xué)術(shù)語的Shoebox。與此同時,日本的實驗室正在開發(fā)元音和音素識別器以及第一個語音分詞器。對于計算機來說,理解一小部分?jǐn)?shù)字(比如0-9)是一回事,但京都大學(xué)的突破是“分割”一段語音,這樣這項技術(shù)就可以用于語音的范圍。
在20世紀(jì)70年代,美國國防部(DARPA)資助了語音理解研究(SUR)項目。該研究的成果包括卡耐基梅隆大學(xué)的HARPY語音識別系統(tǒng)。HARPY從1011個單詞的詞匯表中識別出句子,使這套系統(tǒng)的語音能力相當(dāng)于三歲兒童的平均水平。
HARPY是最早使用HMM的語音識別模型之一。這種概率方法推動了20世紀(jì)80年代ASR的發(fā)展。事實上,在20世紀(jì)80年代,隨著IBM的實驗轉(zhuǎn)錄系統(tǒng)Tangora,語音到文本工具的第一個可行使用案例出現(xiàn)了。經(jīng)過適當(dāng)?shù)挠?xùn)練,Tangora可以識別并輸入2萬個英語單詞。然而,對于商業(yè)用途來說,該系統(tǒng)仍然過于笨重。
20世紀(jì)90年代到2010年代:消費級ASR
“我們認(rèn)為讓機器模仿人是錯誤的,”IBM的語音識別創(chuàng)新者Fred Jelinek回憶道。“畢竟,如果一臺機器必須移動,它是通過輪子而不是步行來移動的。我們不是竭盡全力地研究人們是如何聽和理解語言的,而是希望找到讓機器來做這件事的自然方式。”
1990年,Dragon Dictate作為第一款商用語音識別軟件推出。當(dāng)時它的成本約為9000美元。在1997年推出Dragon Naturally Speaking之前,用戶仍然需要在每個單詞之間停頓。
1992年,AT&T推出了貝爾實驗室的語音識別呼叫處理(VRCP)服務(wù)。VRCP現(xiàn)在每年處理大約12億次語音交易。
但在20世紀(jì)90年代,大多數(shù)關(guān)于語音識別的工作都是在幕后進行的。個人電腦和無處不在的網(wǎng)絡(luò)為創(chuàng)新創(chuàng)造了新的視角。這正是Mike Cohen發(fā)現(xiàn)的機會,他在2004年加入谷歌,啟動了該公司的語音技術(shù)發(fā)展。谷歌Voice Search(2007)向大眾提供了語音識別技術(shù)。但它也回收了數(shù)百萬網(wǎng)絡(luò)用戶的語音數(shù)據(jù),作為機器學(xué)習(xí)的培訓(xùn)材料。
蘋果(Siri)和微軟(Cortana)緊隨其后。在2010年代早期,深度學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)和長短期記憶(LSTM)的出現(xiàn),導(dǎo)致ASR技術(shù)能力的超空間飛躍。這種前進勢頭在很大程度上也受到低成本計算和大規(guī)模算法進步的出現(xiàn)和可用性的推動。
ASR的現(xiàn)狀
在數(shù)十年的發(fā)展基礎(chǔ)上,為了響應(yīng)用戶日益增長的期望,語音識別技術(shù)在過去五年中取得了進一步的飛躍。優(yōu)化不同的音頻保真度和苛刻的硬件要求的解決方案,使語音識別通過語音搜索和物聯(lián)網(wǎng),日常使用更為方便。
例如,智能音箱使用熱詞檢測,通過嵌入式軟件傳遞即時結(jié)果。同時,句子的其余部分被發(fā)送到云進行處理。谷歌的VoiceFilter-Lite在交易的設(shè)備端優(yōu)化個人的語音。這使得消費者可以用自己的聲音“訓(xùn)練”他們的設(shè)備。培訓(xùn)降低了源失真比(SDR),提高了聲控輔助應(yīng)用程序的可用性。
單詞錯誤率(WER——語音到文本轉(zhuǎn)換過程中出現(xiàn)的錯誤單詞的百分比)正在大幅下降。研究人員認(rèn)為,到本世紀(jì)20年代末,99%的轉(zhuǎn)錄工作將是自動化的。人們只會介入質(zhì)量控制和糾正。
21世紀(jì)20年代的ASR使用案例
隨著網(wǎng)絡(luò)時代的發(fā)展,ASR能力正在共生發(fā)展。下面是自動語音識別的三個引人注目的案例。
2021年,播客產(chǎn)業(yè)將突破10億美元大關(guān)。聽眾的數(shù)量在飆升,詞匯不斷涌現(xiàn)。
播客平臺正在尋找具有高準(zhǔn)確性和每字時間戳的ASR提供商,以幫助人們更容易創(chuàng)建播客,并最大化其內(nèi)容的價值。像Description這樣的應(yīng)用程序可以將音頻轉(zhuǎn)換為可以快速編輯的文本。
此外,每個單詞的時間戳節(jié)省了時間,使編輯可以像粘土一樣塑造完成的播客。這些文本還可以讓所有觀眾更容易獲取內(nèi)容,并幫助創(chuàng)作者通過搜索引擎優(yōu)化提高他們節(jié)目的可搜索性和可發(fā)現(xiàn)性。
由于新冠疫情的大流行,越來越多的會議在線上進行。雖然會議記錄需要耗費大量的時間,但是它對于與會者而言是一個非常實用的工具。因為會議記錄可以讓與會人員了解會議的概要并跟進細節(jié)。Streaming ASR能夠?qū)崟r轉(zhuǎn)換語音到文字,為會議和研討會提供更為便捷的字幕及現(xiàn)場轉(zhuǎn)錄。
法律作證、招聘等流程也正在走向虛擬。ASR可以使視頻內(nèi)容更容易被獲取。但更重要的是,端到端(E2E)機器學(xué)習(xí)(ML)模型進一步改進了語音分割技術(shù)——記錄誰在場,誰說了什么。


























