百度語(yǔ)音技術(shù)獲重大突破開(kāi)發(fā)者將享受先進(jìn)成果
最近,在語(yǔ)音技術(shù)領(lǐng)域,最熱的話題莫過(guò)于百度在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)方面獲得的重大突破——該技術(shù)能夠做到在安靜環(huán)境下,漢語(yǔ)普通話語(yǔ)音識(shí)別的準(zhǔn)確率接近97%。于是,一些創(chuàng)業(yè)的朋友來(lái)問(wèn),開(kāi)發(fā)者能不能使用這項(xiàng)基于新技術(shù)的語(yǔ)音識(shí)別能力?
經(jīng)過(guò)多番詢問(wèn),得到的答案是肯定的。
實(shí)際上,百度語(yǔ)音識(shí)別能力早已在百度開(kāi)發(fā)者中心(http://developer.baidu.com/)對(duì)外開(kāi)放。為了推廣語(yǔ)音技術(shù)的產(chǎn)業(yè)化應(yīng)用,百度還于近期舉辦了“百度開(kāi)發(fā)者創(chuàng)新大賽——智能語(yǔ)音2015”(大賽官網(wǎng)http://developer.baidu.com/event_entry/voicedev2015),提供豐厚獎(jiǎng)品、免費(fèi)APP推廣資源等,鼓勵(lì)開(kāi)發(fā)者調(diào)用百度免費(fèi)開(kāi)放的語(yǔ)音識(shí)別能力,開(kāi)發(fā)出創(chuàng)新的移動(dòng)應(yīng)用。
而不久之后,基于此次重大技術(shù)突破、擁有更精準(zhǔn)識(shí)別率的語(yǔ)音識(shí)別能力,也將登錄百度開(kāi)發(fā)者中心。
那么,這次技術(shù)突破到底有多牛?能給開(kāi)發(fā)者帶來(lái)什么?
“百度研發(fā)出了基于多層單向LSTM的漢語(yǔ)聲韻母整體建模技術(shù),并成功把連接時(shí)序分類(lèi)(CTC)訓(xùn)練技術(shù)嵌入到傳統(tǒng)的語(yǔ)音識(shí)別建??蚣苤校俳Y(jié)合語(yǔ)音識(shí)別領(lǐng)域的決策樹(shù)聚類(lèi)、跨詞解碼和區(qū)分度訓(xùn)練等技術(shù),大幅度提升線上語(yǔ)音識(shí)別產(chǎn)品性能。”
這是百度語(yǔ)音技術(shù)部負(fù)責(zé)人賈磊的介紹,聽(tīng)上去是不是只有一個(gè)感覺(jué)——不明覺(jué)厲?反正技術(shù)君有這樣的感覺(jué)。
于是,技術(shù)君經(jīng)過(guò)艱苦努力,用一句更“人類(lèi)”的語(yǔ)言來(lái)解釋這個(gè)技術(shù),那就是:這技術(shù)牛,非常牛!它成功攻克了語(yǔ)音識(shí)別領(lǐng)域十多年的一個(gè)技術(shù)困局,使?jié)h語(yǔ)語(yǔ)音識(shí)別相對(duì)錯(cuò)誤率再次大幅下降15%以上;基于這一技術(shù),在安靜環(huán)境下,漢語(yǔ)普通話語(yǔ)音識(shí)別的準(zhǔn)確率接近97%。因?yàn)檫@一重大突破,賈磊還受邀在全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC2015,注:NCMMSC是中國(guó)人機(jī)語(yǔ)音領(lǐng)域最權(quán)威的學(xué)術(shù)會(huì)議)上發(fā)表演講。
更簡(jiǎn)潔來(lái)講,我們看到的好處就是:
1. 語(yǔ)音識(shí)別準(zhǔn)確率提升。
2. 語(yǔ)音識(shí)別速度提升。
3. 語(yǔ)音服務(wù)提供者的投入成本降低。
4. 語(yǔ)音技術(shù)領(lǐng)域研究人員可參考百度技術(shù)模型,改善自己的研究,從而在語(yǔ)音領(lǐng)域獲得更大突破。
還是不明白?想象一個(gè)場(chǎng)景:
你在大街上一邊走,一邊想查找附近的百貨大樓怎么走,于是,你打開(kāi)地圖APP,點(diǎn)開(kāi)語(yǔ)音按鈕,說(shuō)著“百貨大樓”。1秒、2秒、3秒……終于,APP返回了結(jié)果——“白佛大羅”??吹竭@些字,你的內(nèi)心此時(shí)是不是很崩潰?
當(dāng)然,上面這個(gè)場(chǎng)景描述地夸張了點(diǎn),現(xiàn)在的語(yǔ)音識(shí)別技術(shù)已經(jīng)能比較準(zhǔn)、比較快地識(shí)別出來(lái)了。而百度研發(fā)的這個(gè)新技術(shù),能夠比現(xiàn)有識(shí)別能力識(shí)別地更準(zhǔn)、更快,而且能降低噪音、口音、說(shuō)話距離遠(yuǎn)近等因素對(duì)識(shí)別率造成的不良影響。
作為開(kāi)發(fā)者,這個(gè)能力帶來(lái)的效果是顯著的。在調(diào)用百度的這一能力后,能讓APP的語(yǔ)音識(shí)別服務(wù)更精準(zhǔn)、更快速,從而提升整體用戶體驗(yàn)。你是不是也想試一試了呢?