偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文概覽語(yǔ)音識(shí)別中尚未解決的問(wèn)題

開(kāi)發(fā) 開(kāi)發(fā)工具
深度學(xué)習(xí)應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域之后,詞錯(cuò)率有了顯著降低。但是語(yǔ)音識(shí)別并未達(dá)到人類(lèi)水平,仍然存在多個(gè)亟待解決的問(wèn)題。本文從口音、噪聲、多說(shuō)話人、語(yǔ)境、部署等多個(gè)方面介紹了語(yǔ)音識(shí)別中尚未解決的問(wèn)題。

深度學(xué)習(xí)被應(yīng)用在語(yǔ)音識(shí)別領(lǐng)域之后,詞錯(cuò)率有了顯著地降低。然而,盡管你已經(jīng)讀到了很多這類(lèi)的論文,但是我們?nèi)匀粵](méi)有實(shí)現(xiàn)人類(lèi)水平的語(yǔ)音識(shí)別。語(yǔ)音識(shí)別器有很多失效的模式。認(rèn)識(shí)到這些問(wèn)題并且采取措施去解決它們則是語(yǔ)音識(shí)別能夠取得進(jìn)步的關(guān)鍵。這是把自動(dòng)語(yǔ)音識(shí)別(ASR)從「在大部分時(shí)間對(duì)部分人服務(wù)」變成「在所有時(shí)間對(duì)每個(gè)人服務(wù)」的唯一途徑。

詞錯(cuò)率

上圖中:詞錯(cuò)率在 Switchboard 對(duì)話語(yǔ)音識(shí)別基準(zhǔn)上的提升。該測(cè)試集于 2000 年收集,包括 40 個(gè)電話錄音,每段對(duì)話都發(fā)生在隨機(jī)抽取的兩個(gè)英語(yǔ)母語(yǔ)者之間。

如果說(shuō)基于 Switchboard 的對(duì)話語(yǔ)音識(shí)別結(jié)果達(dá)到了人類(lèi)水平,這無(wú)異于說(shuō)自動(dòng)駕駛在陽(yáng)光明媚、交通順暢的小鎮(zhèn)上達(dá)到了人類(lèi)的駕駛水平。盡管語(yǔ)音識(shí)別在對(duì)話語(yǔ)音上的進(jìn)步很明顯。但是認(rèn)為其達(dá)到人類(lèi)水平的說(shuō)法終究太寬泛了。以下是語(yǔ)音識(shí)別領(lǐng)域仍待提升的一些方面。

口音和噪聲

語(yǔ)音識(shí)別最明顯的一個(gè)缺陷在于對(duì)口音和背景噪聲的處理。最直接的原因就是:絕大多數(shù)訓(xùn)練數(shù)據(jù)都由具有高信噪比的美式英語(yǔ)組成。例如,Switchboard 對(duì)話語(yǔ)音訓(xùn)練和測(cè)試集都是英語(yǔ)母語(yǔ)者(大部分是美國(guó)人)在幾乎無(wú)噪聲的環(huán)境中錄制的。

但是,更多訓(xùn)練數(shù)據(jù)本身也沒(méi)有克服這個(gè)問(wèn)題。很多語(yǔ)言都是有方言和口音的。對(duì)每一種情況都收集足夠多的標(biāo)注數(shù)據(jù)是不可行的。開(kāi)發(fā)一款僅僅針對(duì)美式英語(yǔ)的語(yǔ)音識(shí)別器就需要 5 千多個(gè)小時(shí)的轉(zhuǎn)錄音頻數(shù)據(jù)!

不同類(lèi)型的語(yǔ)音數(shù)據(jù)

上圖中:不同類(lèi)型的語(yǔ)音數(shù)據(jù)上,百度 Deep Speech 2 模型和人類(lèi)聽(tīng)寫(xiě)員的詞錯(cuò)率對(duì)比。我們注意到在非美國(guó)口音的語(yǔ)音上,人類(lèi)聽(tīng)寫(xiě)員表現(xiàn)得要差勁一些。這可能是因?yàn)槁?tīng)寫(xiě)員大多數(shù)是美國(guó)人。我希望在某個(gè)區(qū)域的本地聽(tīng)寫(xiě)員要有更低的錯(cuò)誤率。

至于背景噪聲,一輛行駛的汽車(chē)內(nèi)的噪聲幾乎不可能有-5dB 那么低。人類(lèi)在這種環(huán)境中能夠輕易理解彼此所說(shuō)的話,然而語(yǔ)音識(shí)別器的性能則會(huì)因?yàn)樵肼暤拇嬖诙眲∠陆怠纳蠄D中我們可以發(fā)現(xiàn),人類(lèi)和模型的詞錯(cuò)率差距在低信噪比和高信噪比音頻之間存在巨大的差距。

語(yǔ)義錯(cuò)誤

通常,詞錯(cuò)率并不是一個(gè)語(yǔ)音識(shí)別系統(tǒng)的實(shí)際目標(biāo)。我們所關(guān)心的是語(yǔ)義錯(cuò)誤率,即未正確理解含義的話語(yǔ)片段所占的比例。

舉一個(gè)例子:如果某人說(shuō)「let's meet up Tuesday」(周二見(jiàn)),而語(yǔ)音識(shí)別器理解成了「let's meet up today」(今天見(jiàn))。在沒(méi)有語(yǔ)義錯(cuò)誤的情況下也會(huì)出現(xiàn)詞錯(cuò)率。在這個(gè)例子中,如果語(yǔ)音識(shí)別器丟掉了「up」,將語(yǔ)音識(shí)別成了「let's meet Tuesday」,則這個(gè)句子的語(yǔ)義并沒(méi)有發(fā)生改變。

在使用詞錯(cuò)率作為標(biāo)準(zhǔn)的時(shí)候我們必須謹(jǐn)慎一些。5% 的詞錯(cuò)率大約對(duì)應(yīng)每 20 個(gè)單詞會(huì)有一個(gè)出錯(cuò)。如果一個(gè)句子共有 20 個(gè)單詞(英文句子平均就是這個(gè)長(zhǎng)度),那么在這種情況下句錯(cuò)率就是 100%。我們希望出錯(cuò)的單詞不會(huì)改變句子的意思,否則即使詞錯(cuò)率只有 5%,語(yǔ)音識(shí)別器也有可能把整句的意思都弄錯(cuò)。

將模型與人類(lèi)相比較的時(shí)候,很重要的一點(diǎn)是要去檢查錯(cuò)誤的本質(zhì),而不是僅僅關(guān)注詞錯(cuò)率(WER)這個(gè)結(jié)論性的數(shù)字。從我的經(jīng)驗(yàn)來(lái)看,人類(lèi)轉(zhuǎn)錄的時(shí)候一般會(huì)比識(shí)別器較少出錯(cuò),尤其是嚴(yán)重的語(yǔ)義錯(cuò)誤。

微軟的研究者最近對(duì)比了人類(lèi)和微軟人類(lèi)級(jí)別語(yǔ)音識(shí)別器所犯的錯(cuò)誤 [3]。他們發(fā)現(xiàn)二者的一個(gè)差異是:模型比人類(lèi)更頻繁地混淆「uh」(嗯)和「uh huh」(嗯哼)。這兩個(gè)詞組的語(yǔ)義有很大不同:「uh」只是一個(gè)語(yǔ)氣填充詞,而「uh huh」表示附和和認(rèn)同。人類(lèi)和模型都犯了不少類(lèi)似的錯(cuò)誤。

單聲道、多個(gè)說(shuō)話人

Switchboard 對(duì)話語(yǔ)音識(shí)別任務(wù)比較容易,因?yàn)槊總€(gè)說(shuō)話人都使用獨(dú)立的麥克風(fēng)進(jìn)行錄音。在同一段音頻流中不存在多個(gè)說(shuō)話人的語(yǔ)音重疊。然而,人類(lèi)即使在多個(gè)說(shuō)話人同時(shí)說(shuō)話的時(shí)候也能夠理解說(shuō)話內(nèi)容。

一個(gè)好的對(duì)話語(yǔ)音識(shí)別器必須能夠根據(jù)正在說(shuō)話的人(音源)來(lái)分割音頻。它還應(yīng)該理解多個(gè)說(shuō)話人語(yǔ)音重疊的音頻(聲源分離)。這應(yīng)該在無(wú)需給每個(gè)說(shuō)話人嘴邊安裝一個(gè)麥克風(fēng)的情況下實(shí)現(xiàn),這樣對(duì)話語(yǔ)音識(shí)別就能夠在任意位置奏效。

域變化

口音和背景噪聲只是語(yǔ)音識(shí)別器增強(qiáng)魯棒性以解決的兩個(gè)問(wèn)題。這里還有其他一些因素:

  • 變化的聲學(xué)環(huán)境中的回音
  • 硬件的缺陷
  • 音頻編解碼和壓縮的缺陷
  • 采樣率
  • 說(shuō)話人的年齡

大多數(shù)人甚至分不清 mp3 文件和 wav 文件的差異。在我們宣稱(chēng)語(yǔ)音識(shí)別器的性能達(dá)到人類(lèi)水平之前,它需要對(duì)這些問(wèn)題足夠魯棒。

語(yǔ)境

你會(huì)注意到人類(lèi)水平的錯(cuò)誤率在類(lèi)似于 Switchboard 的基準(zhǔn)測(cè)試集上實(shí)際是很高的。如果在和朋友交談的時(shí)候,他在每 20 個(gè)詞中誤解一個(gè)詞,那么你是很難與他交流下去的。

其中的原因是,這個(gè)測(cè)評(píng)是在不考慮語(yǔ)境的情況下進(jìn)行的。在現(xiàn)實(shí)生活中,有很多其他的線索幫助我們理解某人在說(shuō)什么。人類(lèi)使用但是語(yǔ)音識(shí)別器不使用的語(yǔ)境包括:

  • 談話的歷史過(guò)程和正在討論的話題。
  • 人在說(shuō)話時(shí)的視覺(jué)線索,例如面部表情和唇部運(yùn)動(dòng)。
  • 對(duì)談話對(duì)象的了解。

現(xiàn)在,Android 的語(yǔ)音識(shí)別器掌握你的通訊錄,所以它能夠準(zhǔn)確地識(shí)別你朋友的名字。地圖類(lèi)產(chǎn)品中的語(yǔ)音搜索會(huì)使用你的地理定位來(lái)縮小你想要導(dǎo)航的位置的范圍。

自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)的準(zhǔn)確度確實(shí)在這類(lèi)信號(hào)的幫助下得到了提升。但是,這里我們僅對(duì)可以使用的語(yǔ)境類(lèi)型和如何使用又有一個(gè)初步了解。

部署與應(yīng)用

對(duì)話語(yǔ)音識(shí)別的***進(jìn)展都是不可部署的。在思考什么讓一個(gè)新的語(yǔ)音識(shí)別算法變得可部署的時(shí)候,衡量其延遲和所需算力是有幫助的。這二者是有關(guān)聯(lián)的,一般情況下,如果一個(gè)算法所需要的計(jì)算力增加,那么它帶來(lái)的延遲也會(huì)隨之增加。但是為了簡(jiǎn)單起見(jiàn),我將分開(kāi)討論它們。

延遲:我所指的「延遲」指從用戶說(shuō)話結(jié)束到轉(zhuǎn)錄完成所經(jīng)歷的時(shí)間。低延遲是 ASR 中的一個(gè)常見(jiàn)產(chǎn)品約束。它能夠顯著地影響用戶體驗(yàn)。ASR 系統(tǒng)中數(shù)十毫秒的延遲需求是很常見(jiàn)的。雖然這聽(tīng)起來(lái)很極端,但是請(qǐng)別忘記,產(chǎn)生轉(zhuǎn)錄結(jié)果通常是一系列昂貴計(jì)算中的***步。例如在語(yǔ)音搜索中,實(shí)際的網(wǎng)絡(luò)規(guī)模搜索必須在語(yǔ)音識(shí)別之后才能進(jìn)行。

雙向循環(huán)層是消除延遲的改進(jìn)中的很好的例子。所有***的對(duì)話語(yǔ)音識(shí)別的先進(jìn)結(jié)果都使用了它們。問(wèn)題在于:在用戶結(jié)束語(yǔ)音之前,我們不能用***個(gè)雙向?qū)佑?jì)算任何東西。所以延遲會(huì)隨著話語(yǔ)長(zhǎng)度的增加而增加。

左圖:出現(xiàn)前向循環(huán)的時(shí)候我們可以立即開(kāi)始轉(zhuǎn)錄。

右圖:出現(xiàn)雙向循環(huán)的時(shí)候,我們必須等待所有語(yǔ)音都到達(dá)之后才能開(kāi)始轉(zhuǎn)錄。

在語(yǔ)音識(shí)別中結(jié)合未來(lái)信息的有效方式仍待研究和發(fā)現(xiàn)。

計(jì)算:轉(zhuǎn)錄一個(gè)話語(yǔ)所需的計(jì)算力是一種經(jīng)濟(jì)約束。我們必須考慮語(yǔ)音識(shí)別器準(zhǔn)確率提升的性?xún)r(jià)比。如果一項(xiàng)改進(jìn)未能滿足經(jīng)濟(jì)閾值,那么它是無(wú)法部署的。

下一個(gè)五年

語(yǔ)音識(shí)別領(lǐng)域仍然存在不少開(kāi)放性挑戰(zhàn)問(wèn)題,包括:

  • 將語(yǔ)音識(shí)別能力擴(kuò)展至新的領(lǐng)域、口音,以及遠(yuǎn)場(chǎng)、低信噪比的語(yǔ)音中。
  • 在語(yǔ)音識(shí)別過(guò)程中結(jié)合更多的語(yǔ)境信息。
  • 音源和聲源分離。
  • 語(yǔ)義錯(cuò)誤率和新型的語(yǔ)音識(shí)別器評(píng)價(jià)方法
  • 超低延遲和超高效的推理

我期待語(yǔ)音識(shí)別未來(lái)五年能夠在這些方面取得進(jìn)展。

原文:https://awni.github.io/speech-recognition/

【本文是51CTO專(zhuān)欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專(zhuān)欄
相關(guān)推薦

2017-10-25 19:05:18

深度學(xué)習(xí)語(yǔ)音分離

2017-11-20 05:08:16

深度學(xué)習(xí)激活函數(shù)神經(jīng)網(wǎng)絡(luò)

2024-04-26 14:18:43

機(jī)器學(xué)習(xí)人工智能

2023-07-26 07:22:32

2020-05-12 15:40:06

MySQ數(shù)據(jù)庫(kù)索引

2019-09-17 08:18:19

HTTP網(wǎng)絡(luò)協(xié)議狀態(tài)碼

2020-07-07 09:57:24

人臉識(shí)別人工智能數(shù)據(jù)

2022-10-28 13:48:24

Notebook數(shù)據(jù)開(kāi)發(fā)機(jī)器學(xué)習(xí)

2023-07-04 08:56:07

指針類(lèi)型Golang

2017-12-05 15:32:44

深度學(xué)習(xí)語(yǔ)音識(shí)別

2017-12-21 14:48:43

數(shù)據(jù)安全數(shù)據(jù)泄漏檢測(cè)技術(shù)

2025-01-13 12:00:00

反射Java開(kāi)發(fā)

2017-03-07 15:13:28

Scala偏函數(shù)函數(shù)

2022-04-20 11:10:17

bias推薦系統(tǒng)debias

2021-09-02 10:24:54

JavaScript前端語(yǔ)言

2021-12-29 17:38:17

JavaScripttypeof前端

2024-11-19 09:00:00

Pythondatetime模塊

2022-09-18 21:39:42

自動(dòng)駕駛識(shí)別

2021-10-28 10:26:35

Javascript 高階函數(shù)前端

2023-05-11 16:19:31

自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)