重磅公開(kāi)!阿里語(yǔ)音識(shí)別模型端核心技術(shù),讓你“聽(tīng)”見(jiàn)未來(lái)
阿里妹導(dǎo)讀:語(yǔ)音識(shí)別技術(shù)作為人工智能技術(shù)中的重要組成部分,成為影響人機(jī)交互的核心組件之一,從各種智能家用 IoT 設(shè)備的語(yǔ)音交互能力,到公共服務(wù)、智慧政務(wù)等場(chǎng)合的應(yīng)用,語(yǔ)音識(shí)別技術(shù)正在影響著人們生活的方方面面。
本文將全面介紹阿里云語(yǔ)音識(shí)別技術(shù)中的重要模型端技術(shù),希望和業(yè)界同仁交流探討。
本文作者:
鄢志杰、薛少飛、張仕良、鄭昊、雷鳴
聲學(xué)模型、語(yǔ)言模型和解碼器可以看作是現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)最核心的三個(gè)組成部分。雖然最近有一些研究者嘗試構(gòu)建 End2end 的語(yǔ)音識(shí)別系統(tǒng),但包含聲學(xué)模型、語(yǔ)言模型和解碼器的現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)依然是當(dāng)前最主流和使用最廣泛的系統(tǒng)。在這其中,聲學(xué)模型主要用來(lái)構(gòu)建輸入語(yǔ)音和輸出聲學(xué)單元之間的概率映射關(guān)系;語(yǔ)言模型用來(lái)描述不同字詞之間的概率搭配關(guān)系,使得識(shí)別出的句子更像自然文本;解碼器負(fù)責(zé)結(jié)合聲學(xué)單元概率數(shù)值和語(yǔ)言模型在不同搭配上的打分進(jìn)行篩選,最終得到最可能的識(shí)別結(jié)果。
隨著近幾年深度學(xué)習(xí)的火熱,語(yǔ)音識(shí)別領(lǐng)域也紛紛投入深度學(xué)習(xí)的大潮之中。將傳統(tǒng) HMM-GMM 聲學(xué)模型替換成 HMM-DNN 聲學(xué)模型后,可以獲得超過(guò) 20% 的相對(duì)提升,在傳統(tǒng)N-Gram 語(yǔ)言模型基礎(chǔ)上疊加 NN-LM 語(yǔ)言模型也可以獲得進(jìn)一步的提高。
在這過(guò)程中,聲學(xué)模型由于更適合采用深度神經(jīng)網(wǎng)絡(luò)模型,從而受到研究者更多的關(guān)注。本文主要介紹阿里云語(yǔ)音識(shí)別技術(shù)中采用的聲學(xué)模型技術(shù)和語(yǔ)言模型技術(shù),包括 LC-BLSTM 聲學(xué)模型、LFR-DFSMN 聲學(xué)模型和 NN-LM 語(yǔ)言模型,其中 LC-BLSTM 是對(duì)傳統(tǒng) BLSTM 模型的一種改進(jìn),在保持了高準(zhǔn)確率的同時(shí),提供了低延時(shí)的特性;而 DFSMN 是一種新穎的非遞歸結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)卻可以像 RNN 一樣對(duì)信號(hào)的長(zhǎng)時(shí)相關(guān)進(jìn)行建模,同時(shí)可以獲得更穩(wěn)定的訓(xùn)練效果和更好的識(shí)別準(zhǔn)確。NN-LM 語(yǔ)言模型是近年來(lái)在傳統(tǒng)N-Gram 語(yǔ)言模型基礎(chǔ)上獲得的進(jìn)一步改進(jìn)。
Latency-Controlled BLSTM 模型
DNN(即 fully connected DNN)模型的優(yōu)點(diǎn)在于通過(guò)增加神經(jīng)網(wǎng)絡(luò)的層數(shù)和節(jié)點(diǎn)數(shù),擴(kuò)展了網(wǎng)絡(luò)對(duì)于復(fù)雜數(shù)據(jù)的抽象和建模能力,但同時(shí) DNN 模型也存在一些不足,例如 DNN 中一般采用拼幀來(lái)考慮上下文相關(guān)信息對(duì)于當(dāng)前語(yǔ)音幀的影響,這并不是反映語(yǔ)音序列之間相關(guān)性的最佳方法。自回歸神經(jīng)網(wǎng)絡(luò)(RNN)在一定程度上解決了這個(gè)問(wèn)題,它通過(guò)網(wǎng)絡(luò)節(jié)點(diǎn)的自連接達(dá)到利用序列數(shù)據(jù)間相關(guān)性的目的。進(jìn)一步有研究人員提出一種長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM-RNN),它可以有效減輕簡(jiǎn)單 RNN 容易出現(xiàn)的梯度爆炸和梯度消散問(wèn)題,而后研究人員又對(duì) LSTM 進(jìn)行了擴(kuò)展,使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM-RNN)進(jìn)行聲學(xué)模型建模,以充分考慮上下文信息的影響。
BLSTM 模型可以有效地提升語(yǔ)音識(shí)別的準(zhǔn)確率,相比于 DNN 模型,相對(duì)性能提升可以達(dá)到 15%-20%。但同時(shí) BLSTM 模型也存在兩個(gè)非常重要的問(wèn)題:
-
句子級(jí)進(jìn)行更新,模型的收斂速度通常較慢,并且由于存在大量的逐幀計(jì)算,無(wú)法有效發(fā)揮 GPU 等并行計(jì)算工具的計(jì)算能力,訓(xùn)練會(huì)非常耗時(shí);
-
由于需要用到整句遞歸計(jì)算每一幀的后驗(yàn)概率,解碼延遲和實(shí)時(shí)率無(wú)法得到有效保證,很難應(yīng)用于實(shí)際服務(wù)。
對(duì)于這兩個(gè)問(wèn)題,學(xué)術(shù)界首先提出 Context-Sensitive-Chunk BLSTM(CSC-BLSTM)的方法加以解決,而此后又提出了 Latency Controlled BLSTM(LC-BLSTM)這一改進(jìn)版本,更好、更高效地減輕了這兩個(gè)問(wèn)題。我們?cè)诖嘶A(chǔ)上采用 LC-BLSTM-DNN 混合結(jié)構(gòu)配合多機(jī)多卡、16bit 量化等訓(xùn)練和優(yōu)化方法進(jìn)行聲學(xué)模型建模,取得了相比于 DNN 模型約 17-24% 的相對(duì)識(shí)別錯(cuò)誤率下降。
典型的 LSTM 節(jié)點(diǎn)結(jié)構(gòu)由 3 個(gè) gate 組成:input gate、forget gate、output gate 和一個(gè) cell 組成,輸入、輸出節(jié)點(diǎn)以及 cell 同各個(gè)門(mén)之間都存在連接;inputgate、forget gate 同 cell 之間也存在連接,cell 內(nèi)部還有自連接。這樣通過(guò)控制不同門(mén)的狀態(tài),可以實(shí)現(xiàn)更好的長(zhǎng)短時(shí)信息保存和誤差傳播。
LSTM 可以像 DNN 一樣逐層堆積成為 DeepLSTM,為了更好地利用上下文信息,還可以使用 BLSTM 逐層堆積構(gòu)造 Deep BLSTM,其結(jié)構(gòu)如下圖所示,網(wǎng)絡(luò)中沿時(shí)間軸存在正向和反向兩個(gè)信息傳遞過(guò)程,每一個(gè)時(shí)間幀的計(jì)算都依賴于前面所有時(shí)間幀和后面所有時(shí)間幀的計(jì)算結(jié)果,對(duì)于語(yǔ)音信號(hào)這種時(shí)序序列,該模型充分考慮了上下文對(duì)于當(dāng)前語(yǔ)音幀的影響,能夠極大提高音素狀態(tài)的分類準(zhǔn)確率。
然而由于標(biāo)準(zhǔn)的 BLSTM 是對(duì)整句語(yǔ)音數(shù)據(jù)進(jìn)行建模,訓(xùn)練和解碼過(guò)程存在收斂慢、延遲高、實(shí)時(shí)率低等問(wèn)題,針對(duì)這些弊端我們采用了 Latency Controlled BLSTM 進(jìn)行解決,與標(biāo)準(zhǔn)的 BLSTM 使用整句語(yǔ)音進(jìn)行訓(xùn)練和解碼不同,Latency Control BLSTM 使用類似 truncated BPTT 的更新方式,并在 cell 中間狀態(tài)處理和數(shù)據(jù)使用上有著自己的特點(diǎn),如下圖所示,訓(xùn)練時(shí)每次使用一小段數(shù)據(jù)進(jìn)行更新,數(shù)據(jù)由中心 chunk 和右向附加 chunk 構(gòu)成,其中右向附加 chunk 只用于 cell 中間狀態(tài)的計(jì)算,誤差只在中心 chunk 上進(jìn)行傳播。
時(shí)間軸上正向移動(dòng)的網(wǎng)絡(luò),前一個(gè)數(shù)據(jù)段在中心 chunk 結(jié)束時(shí)的 cell 中間狀態(tài)被用于下一個(gè)數(shù)據(jù)段的初始狀態(tài),時(shí)間軸上反向移動(dòng)的網(wǎng)絡(luò),每一個(gè)數(shù)據(jù)段開(kāi)始時(shí)都將 cell 中間狀態(tài)置為0。該方法可以很大程度上加快網(wǎng)絡(luò)的收斂速度,并有助于得到更好的性能。解碼階段的數(shù)據(jù)處理與訓(xùn)練時(shí)基本相同,不同之處在于中心 chunk 和右向附加 chunk 的維度可以根據(jù)需求進(jìn)行調(diào)節(jié),并不必須與訓(xùn)練采用相同配置。
LFR-DFSMN 模型
FSMN 是近期被提出的一種網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)在前饋全連接神經(jīng)網(wǎng)絡(luò)(Feedforward Fully-connectedNeural Networks,F(xiàn)NN)的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效地對(duì)信號(hào)的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。
FSMN 相比于 LCBLSTM 不僅可以更加方便的控制時(shí)延,而且往往也能獲得更好的性能,需要的計(jì)算資源也更少。但是標(biāo)準(zhǔn)的 FSMN 很難訓(xùn)練非常深層的結(jié)構(gòu),由于梯度消失問(wèn)題導(dǎo)致訓(xùn)練效果不好。而深層結(jié)構(gòu)的模型目前在很多領(lǐng)域被證明具有更強(qiáng)的建模能力。因而針對(duì)此我們提出了一種改進(jìn)的 FSMN 模型,稱之為深層的 FSMN(Deep FSMN, DFSMN)。
進(jìn)一步的我們結(jié)合低幀率(Low Frame Rate,LFR)技術(shù)構(gòu)建了一種高效的實(shí)時(shí)語(yǔ)音識(shí)別聲學(xué)模型,相比于去年我們上線的 LFR-LCBLSTM 聲學(xué)模型可以獲得超過(guò) 20% 的相對(duì)性能提升,同時(shí)可以獲得2-3 倍的訓(xùn)練以及解碼的加速,可以顯著的減少我們的系統(tǒng)實(shí)際應(yīng)用時(shí)所需要的計(jì)算資源。
最早提出的 FSMN 的模型結(jié)構(gòu)如上圖(a)所示,其本質(zhì)上是一個(gè)前饋全連接神經(jīng)網(wǎng)絡(luò),通過(guò)在網(wǎng)絡(luò)的某些隱層旁添加一些記憶模塊(memory block)來(lái)對(duì)當(dāng)前時(shí)刻周邊的上下文信息進(jìn)行建模,從而使得模型可以對(duì)時(shí)序信號(hào)的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。記憶模塊采用如上圖(b)所示的抽頭延遲結(jié)構(gòu)將當(dāng)前時(shí)刻以及之前 N 個(gè)時(shí)刻的隱層輸出通過(guò)一組系數(shù)編碼得到一個(gè)固定的表達(dá)。
FSMN 的提出是受到數(shù)字信號(hào)處理中濾波器設(shè)計(jì)理論的啟發(fā):任何無(wú)限響應(yīng)沖擊(Infinite Impulse Response, IIR)濾波器可以采用高階的有限沖擊響應(yīng)(FiniteImpulseResponse, FIR)濾波器進(jìn)行近似。
從濾波器的角度出發(fā),如上圖(c)所示的 RNN 模型的循環(huán)層就可以看作如上圖(d)的一階 IIR 濾波器。而 FSMN 采用的采用如上圖(b)所示的記憶模塊可以看作是一個(gè)高階的 FIR 濾波器。從而 FSMN 也可以像 RNN 一樣有效的對(duì)信號(hào)的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模,同時(shí)由于 FIR 濾波器相比于 IIR 濾波器更加穩(wěn)定,因而 FSMN 相比于 RNN 訓(xùn)練上會(huì)更加簡(jiǎn)單和穩(wěn)定。
根據(jù)記憶模塊編碼系數(shù)的選擇,可以分為:
-
標(biāo)量 FSMN(sFSMN)
-
矢量 FSMN(vFSMN)
sFSMN 和 vFSMN 顧名思義就是分別使用標(biāo)量和矢量作為記憶模塊的編碼系數(shù)。
以上的 FSMN 只考慮了歷史信息對(duì)當(dāng)前時(shí)刻的影響,我們可以稱之為單向的 FSMN。當(dāng)我們同時(shí)考慮歷史信息以及未來(lái)信息對(duì)當(dāng)前時(shí)刻的影響時(shí),我們可以將單向的 FSMN 進(jìn)行擴(kuò)展得到雙向的 FSMN。
FSMN 相比于 FNN,需要將記憶模塊的輸出作為下一個(gè)隱層的額外輸入,這樣就會(huì)引入額外的模型參數(shù)。隱層包含的節(jié)點(diǎn)越多,則引入的參數(shù)越多。研究結(jié)合矩陣低秩分解(Low-rank matrix factorization)的思路,提出了一種改進(jìn)的 FSMN 結(jié)構(gòu),稱之為簡(jiǎn)潔的 FSMN(Compact FSMN,cFSMN)。下圖是一個(gè)第l個(gè)隱層包含記憶模塊的 cFSMN 的結(jié)構(gòu)框圖。
對(duì)于 cFSMN,通過(guò)在網(wǎng)絡(luò)的隱層后添加一個(gè)低維度的線性投影層,并且將記憶模塊添加在這些線性投影層上。進(jìn)一步的,cFSMN 對(duì)記憶模塊的編碼公式進(jìn)行了一些改變,通過(guò)將當(dāng)前時(shí)刻的輸出顯式的添加到記憶模塊的表達(dá)中,從而只需要將記憶模塊的表達(dá)作為下一層的輸入。這樣可以有效的減少模型的參數(shù)量,加快網(wǎng)絡(luò)的訓(xùn)練。
上圖是我們進(jìn)一步提出的 Deep-FSMN(DFSMN)的網(wǎng)絡(luò)結(jié)構(gòu)框圖,其中左邊第一個(gè)方框代表輸入層,右邊最后一個(gè)方框代表輸出層。我們通過(guò)在 cFSMN 的記憶模塊(紅色框框表示)之間添加跳轉(zhuǎn)連接(skip connection),從而使得低層記憶模塊的輸出會(huì)被直接累加到高層記憶模塊里。這樣在訓(xùn)練過(guò)程中,高層記憶模塊的梯度會(huì)直接賦值給低層的記憶模塊,從而可以克服由于網(wǎng)絡(luò)的深度造成的梯度消失問(wèn)題,使得可以穩(wěn)定的訓(xùn)練深層的網(wǎng)絡(luò)。
相比于之前的 cFSMN,DFSMN 優(yōu)勢(shì)在于,通過(guò)跳轉(zhuǎn)連接可以訓(xùn)練很深的網(wǎng)絡(luò)。對(duì)于原來(lái)的 cFSMN,由于每個(gè)隱層已經(jīng)通過(guò)矩陣的低秩分解拆分成了兩層的結(jié)構(gòu),這樣對(duì)于一個(gè)包含 4 層 cFSMN 層以及兩個(gè) DNN 層的網(wǎng)絡(luò),總共包含的層數(shù)將達(dá)到 13 層,從而采用更多的 cFSMN 層,會(huì)使得層數(shù)更多而使得訓(xùn)練出現(xiàn)梯度消失問(wèn)題,導(dǎo)致訓(xùn)練的不穩(wěn)定性。
我們提出的 DFSMN 通過(guò)跳轉(zhuǎn)連接避免了深層網(wǎng)絡(luò)的梯度消失問(wèn)題,使得訓(xùn)練深層的網(wǎng)絡(luò)變得穩(wěn)定。需要說(shuō)明的是,這里的跳轉(zhuǎn)連接不僅可以加到相鄰層之間,也可以加到不相鄰層之間。跳轉(zhuǎn)連接本身可以是線性變換,也可以是非線性變換。具體的實(shí)驗(yàn)我們可以實(shí)現(xiàn)訓(xùn)練包含數(shù)十層的 DFSMN 網(wǎng)絡(luò),并且相比于 cFSMN 可以獲得顯著的性能提升。
從最初的 FSMN 到 cFSMN 不僅可以有效的減少模型的參數(shù),而且可以獲得更好的性能。進(jìn)一步的在 cFSMN 的基礎(chǔ)上,我們提出的 DFSMN,可以更加顯著的提升模型的性能。如下表是在一個(gè) 2000 小時(shí)的英文任務(wù)上基于 BLSTM,cFSMN,DFSMN 的聲學(xué)模型性能對(duì)比。
Model |
BLSTM |
cFSMN |
DFSMN |
WER% |
10. 9 |
10. 8 |
9. 4 |
從上表中可以看到,在 2000 小時(shí)這樣的任務(wù)上,DFSMN 模型可以獲得比 BLSTM 聲學(xué)模型相對(duì) 14% 的錯(cuò)誤率降低,顯著提高了聲學(xué)模型的性能。
傳統(tǒng)的聲學(xué)模型,輸入的是每幀語(yǔ)音信號(hào)提取的聲學(xué)特征,每幀語(yǔ)音的時(shí)長(zhǎng)通常為 10ms,對(duì)于每個(gè)輸入的語(yǔ)音幀信號(hào)會(huì)有相對(duì)應(yīng)的一個(gè)輸出目標(biāo)。最近有研究提出一種低幀率(Low Frame Rate,LFR)建模方案:通過(guò)將相鄰時(shí)刻的語(yǔ)音幀進(jìn)行綁定作為輸入,去預(yù)測(cè)這些語(yǔ)音幀的目標(biāo)輸出得到的一個(gè)平均輸出目標(biāo)。具體實(shí)驗(yàn)中可以實(shí)現(xiàn)三幀(或更多幀)拼接而不損失模型的性能。
從而可以將輸入和輸出減少到原來(lái)的三分之一甚至更多,可以極大的提升語(yǔ)音識(shí)別系統(tǒng)服務(wù)時(shí)聲學(xué)得分的計(jì)算以及解碼的效率。我們結(jié)合 LFR 和以上提出的 DFSMN,構(gòu)建了基于 LFR-DFSMN 的語(yǔ)音識(shí)別聲學(xué)模型,經(jīng)過(guò)多組實(shí)驗(yàn)我們最終確定了采用一個(gè)包含 10 層 cFSMN 層 +2 層 DNN 的 DFSMN 作為聲學(xué)模型,輸入輸出則采用 LFR,將幀率降低到原來(lái)的三分之一。識(shí)別結(jié)果和去年我們上線的最好的 LCBLSTM 基線比較如下表所示。
通過(guò)結(jié)合 LFR 技術(shù),我們可以獲得三倍的識(shí)別加速。從上表中可以看到,在實(shí)際工業(yè)規(guī)模應(yīng)用上,LFR-DFSMN 模型比 LFR-LCBLSTM 模型可以獲得 20% 的錯(cuò)誤率下降,展示了對(duì)大規(guī)模數(shù)據(jù)更好的建模特性。
NN-LM 語(yǔ)言模型
語(yǔ)言模型,顧名思義,對(duì)語(yǔ)言進(jìn)行建模的模型。語(yǔ)言表達(dá)可以看作一串字符序列,不同的字符序列組合代表不同的含義,字符的單位可以是字或者詞。語(yǔ)言模型的任務(wù),可以看作是給定字符序列,如何估計(jì)該序列的概率,或者說(shuō),如何估計(jì)該序列的合理性。
P (上海的工人師傅有力量)>P(上海的工人食腐有力量)
拿這句話做個(gè)例子。比如到底應(yīng)該是“工人師傅有力量”,還是“工人食腐有力量”,哪句話更“合適”。我們?nèi)菀着袛嘧筮呥@句的概率大一點(diǎn)。于是我們希望通過(guò)語(yǔ)言模型的建模,可以給出符合人類預(yù)期的概率分配。就像這句,“工人師傅”的概率,大于“工人食腐”的概率。
基于統(tǒng)計(jì)詞頻的傳統(tǒng)N元文法模型,通過(guò)馬爾可夫假設(shè)簡(jiǎn)化了模型結(jié)構(gòu)和計(jì)算,通過(guò)計(jì)數(shù)的方式計(jì)算,通過(guò)查找的方式使用。擁有估計(jì)簡(jiǎn)單、性能穩(wěn)定、計(jì)算快捷的優(yōu)勢(shì),有超過(guò)三十年的使用歷史。然而其馬爾科夫假設(shè)強(qiáng)制截?cái)嘟iL(zhǎng)度,使得模型無(wú)法對(duì)較長(zhǎng)的歷史建模;基于詞頻的估計(jì)方式也使得模型不夠平滑,對(duì)于低詞頻詞匯估計(jì)不足。隨著神經(jīng)網(wǎng)絡(luò)(Neural Networks,NNs)的第三次崛起,人們開(kāi)始嘗試通過(guò) NN 來(lái)進(jìn)行語(yǔ)言模型建模。
一個(gè)典型的建模結(jié)構(gòu)是遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneural networks,RNNs),其遞歸的結(jié)構(gòu)理論上可以對(duì)無(wú)窮長(zhǎng)序列進(jìn)行建模,彌補(bǔ)了N元文法對(duì)于序列長(zhǎng)度建模的不足;同時(shí)其各層間的全向連接也保證了建模的平滑。此外為了提升模型的性能,研究者們還嘗試了通過(guò)長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)結(jié)構(gòu)來(lái)提升基本 RNN 本身建模能力的不足,進(jìn)一步提升模型性能。
NN 用于大規(guī)模語(yǔ)言建模的系統(tǒng)中,需要面對(duì)一些問(wèn)題,例如大詞表帶來(lái)的存儲(chǔ)和計(jì)算增加。實(shí)際線上系統(tǒng)的詞表往往比較大,而隨著詞表的增加,基本 RNN 結(jié)構(gòu)的存儲(chǔ)和計(jì)算量都會(huì)幾何級(jí)數(shù)爆炸式增長(zhǎng)。
為此,研究者們進(jìn)行了一些嘗試,壓縮詞典尺寸成了一個(gè)最直接的解決方案,一個(gè)經(jīng)典的方法是詞表聚類。該方法可以大幅壓縮詞表尺寸,但往往也會(huì)帶來(lái)一定的性能衰減。更直接的一個(gè)想法是直接過(guò)濾掉低頻詞匯,這樣依然會(huì)帶來(lái)一定的性能衰減,據(jù)此有一個(gè)改進(jìn)策略,我們發(fā)現(xiàn)真正制約速度性能的主要是輸出層節(jié)點(diǎn),輸入層節(jié)點(diǎn)大,借助 projection 層可以很好解決,于是輸入層采用大辭典,而僅對(duì)輸出層詞表進(jìn)行抑制,這樣不僅盡可能地降低了損失,同時(shí)過(guò)濾掉過(guò)低的詞頻,也有利于模型節(jié)點(diǎn)的充分訓(xùn)練,性能往往還會(huì)略有提升。
詞表的壓縮可以提升建模性能,降低計(jì)算量和存儲(chǔ)量,但僅限于一定的量級(jí),不可以無(wú)限制壓縮,如何繼續(xù)降低計(jì)算量依然是一個(gè)問(wèn)題。一些方法被提了出來(lái)。例如 LightRNN,通過(guò)類似聚類的方式,利用 embedding 的思想,把詞表映射到一個(gè)實(shí)值矩陣上,實(shí)際輸出只需要矩陣的行加矩陣的列,計(jì)算量大概也能開(kāi)個(gè)方。和節(jié)點(diǎn)數(shù)多一起造成計(jì)算量大的一個(gè)原因就是 softmax 輸出,需要計(jì)算所有的節(jié)點(diǎn)求個(gè)和,然后得到分母。若是這個(gè)分母能保持一個(gè)常數(shù),實(shí)際計(jì)算的時(shí)候就只算需要的節(jié)點(diǎn),在測(cè)試環(huán)節(jié)就快的多了。
于是就有了正則項(xiàng)相關(guān)的方法,Variance Regularization,如果訓(xùn)練速度可以接受的話,這種方法在基本不損失模型正確性的情況下可以大幅提升前向計(jì)算速度;如果訓(xùn)練的時(shí)候也想提速,還可以考慮基于采樣,sampling 的方法,比如 NCE、Importance Sampling、Black Sampling 等,本質(zhì)上就是說(shuō),在訓(xùn)練的時(shí)候不計(jì)算全部節(jié)點(diǎn),只計(jì)算正樣本(也就是標(biāo)簽為 1 的節(jié)點(diǎn)),以及部分通過(guò)某種分布采樣的到的負(fù)樣本,避免高輸出造成的計(jì)算緩慢。速度上提升還是很明顯的。
從阿里云獲得開(kāi)發(fā)者模型定制能力
想象一個(gè)做智能電話客服或是智能會(huì)議系統(tǒng)的開(kāi)發(fā)者,需要為他的系統(tǒng)接入語(yǔ)音識(shí)別(將語(yǔ)音轉(zhuǎn)寫(xiě)為文字)的能力。擺在他面前的會(huì)是這樣一個(gè)尷尬的局面:
一個(gè)選擇是自己從零開(kāi)始學(xué)做語(yǔ)音識(shí)別,這可能要花費(fèi)大量的時(shí)間和金錢(qián)。畢竟人工智能這種事情,各大互聯(lián)網(wǎng)巨頭投入大量的人力、物力、財(cái)力,也要花較長(zhǎng)的時(shí)間才能積累下技術(shù);
第二個(gè)選擇是用上述巨頭們?cè)诨ヂ?lián)網(wǎng)上提供的開(kāi)箱即用的、one size fits all 的語(yǔ)音識(shí)別接口,時(shí)間是省下了,但語(yǔ)音轉(zhuǎn)文字的準(zhǔn)確率嘛,只能碰碰運(yùn)氣,畢竟巨頭們也很忙,沒(méi)有精力為你關(guān)注的場(chǎng)景進(jìn)行優(yōu)化。
那么問(wèn)題來(lái)了:有沒(méi)有一種手段能夠以最小的投入獲得業(yè)務(wù)上最佳的語(yǔ)音識(shí)別效果呢?答案是肯定的。
阿里云依托達(dá)摩院業(yè)界領(lǐng)先的語(yǔ)音交互智能,打破傳統(tǒng)語(yǔ)音技術(shù)提供商的供給模式,在云計(jì)算時(shí)代讓普通開(kāi)發(fā)者也能夠通過(guò)阿里云提供的語(yǔ)音識(shí)別云端自學(xué)習(xí)技術(shù),獲得定制優(yōu)化自己所關(guān)心的業(yè)務(wù)場(chǎng)景的成套手段。阿里云讓廣大的開(kāi)發(fā)者站在巨頭的肩膀上,通過(guò)自主可控的自學(xué)習(xí),在短時(shí)間內(nèi)實(shí)現(xiàn)對(duì)語(yǔ)音識(shí)別系統(tǒng)應(yīng)用從入門(mén)到精通,并在開(kāi)發(fā)者關(guān)心的場(chǎng)景下輕松擁有業(yè)界頂尖的語(yǔ)音識(shí)別準(zhǔn)確率。這就是云計(jì)算時(shí)代的語(yǔ)音識(shí)別技術(shù)全新的供給模式。
與其它人工智能技術(shù)一樣,語(yǔ)音識(shí)別技術(shù)的關(guān)鍵在于算法、算力和數(shù)據(jù)三個(gè)方面。阿里云依托達(dá)摩院語(yǔ)音交互智能,近年來(lái)持續(xù)在世界前沿進(jìn)行“算法”演進(jìn),近期還將最新的研究成果 DFSMN 聲學(xué)模型開(kāi)源,供全世界的研究者復(fù)現(xiàn)目前最佳的結(jié)果并進(jìn)行持續(xù)提升。
在“算力”方面自不用說(shuō),這本身就是云計(jì)算的天然強(qiáng)項(xiàng)?;诎⒗镌?ODPS-PAI 平臺(tái),我們構(gòu)建了專為語(yǔ)音識(shí)別應(yīng)用優(yōu)化的 CPU/GPU/FPGA/NPU 訓(xùn)練和服務(wù)混布平臺(tái),每天服務(wù)于阿里云上巨量的語(yǔ)音識(shí)別請(qǐng)求。在“數(shù)據(jù)”方面,我們提供通過(guò)海量數(shù)據(jù)訓(xùn)練的、開(kāi)箱即用的場(chǎng)景模型,包括電商、客服、政務(wù)、手機(jī)輸入等等。
同時(shí)應(yīng)該看到,在具體的落地場(chǎng)景下往往會(huì)有一些非常特殊、領(lǐng)域相關(guān)的“說(shuō)法”需要被識(shí)別,很多時(shí)候類似于“碎屑巖巖性地層”、“海相碳酸鹽巖”這種特定說(shuō)法對(duì)于通用場(chǎng)景模型的識(shí)別率提出了挑戰(zhàn)。要獲得開(kāi)發(fā)者關(guān)心的具體場(chǎng)景下最佳的準(zhǔn)確率,開(kāi)箱即用的模型一般還需要一定的定制優(yōu)化工作才可以達(dá)到。傳統(tǒng)上,這樣的定制是通過(guò)語(yǔ)音技術(shù)服務(wù)提供商來(lái)完成的,在成本、周期、可控性等方面都存在明顯不足。
阿里云提供的語(yǔ)音定制“自學(xué)習(xí)”平臺(tái)服務(wù),可以提供多種手段,在很短的時(shí)間內(nèi)、以較低的成本,讓開(kāi)發(fā)者完全掌控模型定制優(yōu)化及上線的工作。阿里云創(chuàng)新工具平臺(tái)及服務(wù)技術(shù),依托強(qiáng)大的基礎(chǔ)設(shè)施,使得在云計(jì)算的大背景下進(jìn)行大規(guī)模定制化語(yǔ)音服務(wù)成為可能。而開(kāi)發(fā)者完全無(wú)需關(guān)心后臺(tái)的技術(shù)和服務(wù),只需要使用阿里云提供的簡(jiǎn)單易用的“自學(xué)習(xí)”工具,利用場(chǎng)景知識(shí)和數(shù)據(jù),就可以獲得該特定場(chǎng)景下最優(yōu)的效果,并按需要持續(xù)迭代提升。
阿里云的智能語(yǔ)音自學(xué)習(xí)平臺(tái)具備以下優(yōu)勢(shì):
-
易:智能語(yǔ)音自學(xué)習(xí)平臺(tái)顛覆性地提供一鍵式自助語(yǔ)音優(yōu)化方案,極大地降低進(jìn)行語(yǔ)音智能優(yōu)化所需要的門(mén)檻,讓不懂技術(shù)的業(yè)務(wù)人員也可以來(lái)顯著提高自身業(yè)務(wù)識(shí)別準(zhǔn)確率。
-
快:自學(xué)習(xí)平臺(tái)能夠在數(shù)分鐘之內(nèi)完成業(yè)務(wù)專屬定制模型的優(yōu)化測(cè)試上線,更能支持業(yè)務(wù)相關(guān)熱詞的實(shí)時(shí)優(yōu)化,一改傳統(tǒng)定制優(yōu)化長(zhǎng)達(dá)數(shù)周甚至數(shù)月的漫長(zhǎng)交付弊端。
-
準(zhǔn):自學(xué)習(xí)平臺(tái)優(yōu)化效果在很多內(nèi)外部合作伙伴和項(xiàng)目上得到了充分驗(yàn)證,很多項(xiàng)目最終通過(guò)自學(xué)習(xí)平臺(tái)不光解決了效果可用性問(wèn)題,還在項(xiàng)目中超過(guò)了競(jìng)爭(zhēng)對(duì)手使用傳統(tǒng)優(yōu)化方式所取得的優(yōu)化效果。
舉例來(lái)說(shuō),開(kāi)發(fā)者可以使用下述多種“自學(xué)習(xí)”手段來(lái)定制自己關(guān)心領(lǐng)域的模型:
a)業(yè)務(wù)熱詞定制
在許多特定場(chǎng)所,要求快速對(duì)特定詞的識(shí)別能力進(jìn)行加強(qiáng)(注:包括兩種模式,模式一為其他詞易被識(shí)別成特定詞;模式二為特定詞易被識(shí)別成其他詞),采用實(shí)時(shí)熱詞加載技術(shù),可以在實(shí)時(shí)場(chǎng)景下,通過(guò)設(shè)置不同的檔位,能夠?qū)崿F(xiàn)熱詞識(shí)別能力的加強(qiáng)。
b)類熱詞定制
很多時(shí)候,相同的發(fā)音相同的屬性在不同上下文上會(huì)需要不同的識(shí)別效果。聯(lián)系人和地名就是典型的案例,對(duì)于不同人的好友,“張陽(yáng)”和“章?lián)P”我們就必須能準(zhǔn)確地識(shí)別出相應(yīng)的名字。同樣,相隔千里的安溪跟安西如果識(shí)別錯(cuò)誤會(huì)給導(dǎo)航帶來(lái)大麻煩。智能語(yǔ)音自學(xué)習(xí)平臺(tái)相信“每個(gè)人都值得被尊重”,提供聯(lián)系人類和地名類的定制能力,“讓天下沒(méi)有難識(shí)的路”。
c)業(yè)務(wù)專屬模型定制
用戶通過(guò)輸入對(duì)應(yīng)領(lǐng)域的相關(guān)文本,如行業(yè)或公司的基本介紹、客服聊天記錄、領(lǐng)域常用詞匯和專有名詞等,即可快速自行生成該行業(yè)下的定制模型,整個(gè)定制過(guò)程無(wú)需用戶人工干預(yù)。
通過(guò)這些手段,阿里云使得開(kāi)發(fā)者不必關(guān)心語(yǔ)音技術(shù)的算法和工程服務(wù)細(xì)節(jié),專注于他們擅長(zhǎng)的垂直領(lǐng)域的知識(shí)和數(shù)據(jù)收集,實(shí)現(xiàn)全新的語(yǔ)音技術(shù)云端供給模式,造福于廣大的開(kāi)發(fā)者及其業(yè)務(wù)結(jié)果。