語音識別:對未來人機(jī)交互的顛覆與改變
想象一下,當(dāng)你駕駛一輛奧迪A8L行駛在路上,只需說出幾個(gè)簡單的詞語,便可獲得旅途所需的一切,車載MMI 人機(jī)交互系統(tǒng)可智能識別語音指令,輕松控制導(dǎo)航,語音通話,娛樂系統(tǒng)等各項(xiàng)功能,汽車也仿佛不再是冰冷的交通工具,而變得更有智慧。電子設(shè)備從過去的智能工具,開始成為與人交互的“伙伴”。
語音識別正以磅礴之勢占據(jù)著一個(gè)時(shí)代的智能高點(diǎn)。美國谷歌公司發(fā)布的一項(xiàng)調(diào)查報(bào)告顯示,13歲到18歲之間的青少年中,每天都要使用語音搜索的人數(shù)比率約55%,尤其是在每天使用智能手機(jī)時(shí)間在11小時(shí)以上的青少年用戶中,比率激增至75%;而在成年人中,約有56%的人表示使用語音搜索會令他們感覺自己很懂技術(shù)。谷歌傳統(tǒng)搜索副總裁斯科特?霍夫曼如此感言:對年輕人而言,使用語音搜索猶如應(yīng)用社交媒體一樣自然,并且會找到很多創(chuàng)新的使用方法。
隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)、云計(jì)算、人工智能等技術(shù)的發(fā)展,語音識別在一步步解放用戶的雙手,語音輸入框也大有取代鼠標(biāo)、鍵盤之勢。伴隨著智能移動(dòng)設(shè)備的普及,語音交互作為一種新型的人機(jī)交互方式,正越來越引起整個(gè)IT業(yè)界的重視。
業(yè)內(nèi)機(jī)構(gòu)預(yù)計(jì),整個(gè)人工智能市場可在2018年達(dá)到1800億美元的水平,其中的語音識別市場將占到整個(gè)大蛋糕中極有分量的一大塊。2015年,全球語音識別市場規(guī)模約為61.9億美元,預(yù)計(jì)到2020年可以接近200億美元。
讓智能語音如何從“聽到”,進(jìn)化到“聽懂”,實(shí)現(xiàn)語音服務(wù)的通用化,更多服務(wù)于現(xiàn)實(shí)生活場景,更好地普惠于移動(dòng)互聯(lián)網(wǎng)用戶,盡管仍有障礙亟待逾越,但這必將是規(guī)模工業(yè)化的重點(diǎn)突破方向。
在智能語音專家賈磊看來,剝離了諸多衍生服務(wù)、僅集中于語音技術(shù)的時(shí)代已經(jīng)過去了,未來的規(guī)模工業(yè)化發(fā)展趨勢已然顯現(xiàn),下一階段的變革之旅正在開啟。
互聯(lián)網(wǎng)的“語音”入口
2016年年初,美國麻省理工學(xué)院(MIT)主辦的知名科技期刊《麻省理工科技評論》,評選出了“2016年十大突破技術(shù)”,語音識別位列第三項(xiàng),與其他技術(shù)一起“到達(dá)一個(gè)里程碑式的階段或即將到達(dá)這一階段。”
語音識別技術(shù),也被稱為自動(dòng)語音識別,其目標(biāo)是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語音識別的目的就是讓機(jī)器賦予人的聽覺特性,聽懂人說什么,并做出相應(yīng)的動(dòng)作。
與計(jì)算機(jī)進(jìn)行語音交流,并讓其明白用戶在說什么,這是人們長期以來夢寐以求的事情。深度學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展,讓這一夢想照進(jìn)現(xiàn)實(shí)。百度語音前首席架構(gòu)師賈磊預(yù)測,語音識別技術(shù)將在語音搜索領(lǐng)域、O2O領(lǐng)域、傳媒信息等領(lǐng)域發(fā)揮巨大作用。
作為人工智能界的技術(shù)大咖,賈磊的“技術(shù)路線”著實(shí)是一條“語音路”。
1993年,賈磊保送進(jìn)入西北工業(yè)大學(xué)教育改革班學(xué)習(xí),大學(xué)期間他就對數(shù)學(xué)、計(jì)算機(jī)和聲音信號處理技術(shù)產(chǎn)生了濃厚的興趣。此后的20多年,賈磊一路與“語音”結(jié)緣。
2003年,在中科院拿到博士學(xué)位的賈磊加入松下中國研究開發(fā)有限公司,在工業(yè)界從事語音技術(shù)相關(guān)的研究工作,其間成功研發(fā)了手機(jī)上的英語、日語和漢語的人命數(shù)字撥號系統(tǒng);兩年后,賈磊離開松下,加入IBM中國研究院。在IBM工作期間,賈磊和IBM美國研究部門的同事一起構(gòu)建了漢語廣播識別系統(tǒng)。
2006年初,賈磊回到松下中國研究開發(fā)有限公司,擔(dān)任松下語音技術(shù)部的高級經(jīng)理,承擔(dān)整合松下內(nèi)部語音技術(shù)的工作,并領(lǐng)導(dǎo)松下中國部門,研發(fā)了日語汽車導(dǎo)航系統(tǒng)產(chǎn)品原型;四年后,賈磊回到中科院自動(dòng)化研究所,主導(dǎo)了中科院自動(dòng)化所的第一版本的云計(jì)算條件下的機(jī)器翻譯系統(tǒng)構(gòu)建工作。
2011年6月,賈磊加入百度,開始擔(dān)任百度語音技術(shù)部負(fù)責(zé)人、首席研究員,負(fù)責(zé)百度語音技術(shù)的核心技術(shù)研發(fā)和互聯(lián)網(wǎng)產(chǎn)業(yè)化工作。短短的6個(gè)月內(nèi),賈磊帶領(lǐng)技術(shù)團(tuán)隊(duì),實(shí)現(xiàn)了百度完全自主研發(fā)的語音搜索系統(tǒng)上線。此后,賈磊的技術(shù)團(tuán)隊(duì)又備受矚目地相繼完成了手機(jī)語音輸入法系統(tǒng)、智能語音手機(jī)助手等系統(tǒng)的研發(fā)與上線。
2015年年底,伴隨著“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的熱潮,賈磊離開百度,投身到與人工智能相關(guān)的創(chuàng)業(yè)領(lǐng)域中。“高技術(shù)人才創(chuàng)業(yè)是為國家作貢獻(xiàn)的另一種方式,美國硅谷的很多公司都是從創(chuàng)業(yè)中誕生的,比如微軟、谷歌,都是從最初的創(chuàng)業(yè)公司最終成長為行業(yè)巨頭。”賈磊如此描述自己的創(chuàng)業(yè),“在以后的人工智能時(shí)代,人類的很多活動(dòng)或許會被機(jī)器替代,但置身這個(gè)行業(yè)的工作人員,一定要精準(zhǔn)掌握制造機(jī)器、提升機(jī)器的方法。”
語音識別可規(guī)模工業(yè)化的未來
過去的20多年,語音識別技術(shù)與賈磊們的“技術(shù)腦”共同進(jìn)行著自我進(jìn)化,而這種進(jìn)化,也在潛移默化地改變著互聯(lián)網(wǎng)、尤其是移動(dòng)互聯(lián)網(wǎng)的形態(tài)。
微軟研究院首席研究員俞棟認(rèn)為,在很多應(yīng)用場合,語音識別成為一個(gè)入口,如果沒有這個(gè)入口,大家都會覺得智能機(jī)器不夠智能,或者用戶會覺得與智能機(jī)器交互有困難。
新興的萬物互聯(lián)時(shí)代需要新的交互方式,人們將開始從智能手機(jī)的觸摸模式轉(zhuǎn)向智能家居所必需的遠(yuǎn)場語音交互,這樣的交互離不開智能語音語言技術(shù)作為支撐。阿里云iDST技術(shù)總監(jiān)初敏認(rèn)為,語音交互將會成為數(shù)據(jù)智能的第一個(gè)爆發(fā)點(diǎn),“下一輪的入口之爭將再次出現(xiàn)”。
從互聯(lián)網(wǎng)誕生之日起,搜索框便成為人們進(jìn)入互聯(lián)網(wǎng)的重要入口,但語音識別一經(jīng)出現(xiàn),搜索框的地位受到動(dòng)搖,在未來或?qū)⒅鸩奖蝗〈?。微軟雷德蒙德研究院副院長杜麥斯認(rèn)為,深度學(xué)習(xí)技術(shù)將助力2017年的網(wǎng)絡(luò)搜索結(jié)果,到2027年,搜索框?qū)⑾?,被無所不在、嵌入式以及具備語境感知能力的搜索取代。
如今,這種“取代”已經(jīng)開始萌發(fā)。11月底,搜狗、百度和科大訊飛三家公司接連召開了三場發(fā)布會,向外界展示了自己在語音識別和機(jī)器翻譯等方面的最新進(jìn)展,三家公司均宣布的旗下語音識別系統(tǒng)正確率已達(dá)到97%左右,同時(shí)有不少智能語音產(chǎn)品支持不同地區(qū)的方言識別。
此前,百度研發(fā)出了基于多層單向LSTM(長短時(shí)記憶模型)的漢語聲韻母整體建模技術(shù),并成功把連接時(shí)序分類(CTC)訓(xùn)練技術(shù)嵌入到語音識別傳統(tǒng)技術(shù)建??蚣苤?。該技術(shù)能夠使機(jī)器的語音識別相對錯(cuò)誤率降低15%,使安靜環(huán)境下的普通話語音識別的準(zhǔn)確率接近97%,未來將大規(guī)模應(yīng)用在百度語音搜索等產(chǎn)品上。
賈磊表示,語音識別技術(shù)特別適合于語音識別大規(guī)模工業(yè)化,“因?yàn)檫@個(gè)技術(shù)應(yīng)用點(diǎn)很多,它不但是解碼速度快,而且對口音、對遠(yuǎn)場都有一定的作用,有口音的人識別率會改善很多,距離較遠(yuǎn)的時(shí)候識別率也會改善很多。”
業(yè)內(nèi)人士判斷,作為信息技術(shù)的重要組成部分,向更聰慧的水平進(jìn)化的智能語音技術(shù),將在人工智能、移動(dòng)互聯(lián)網(wǎng)、智能終端、智能家居、可穿戴設(shè)備等領(lǐng)域日益深入運(yùn)用,并將在更多垂直行業(yè)深入發(fā)展,帶動(dòng)智能語音以及相關(guān)產(chǎn)業(yè)的發(fā)展,形成新的業(yè)態(tài)、新的增長點(diǎn)。
一甲子打磨“語音”利劍
如今的語音識別有多聰明?百度首席科學(xué)家吳恩達(dá)認(rèn)為,目前的語音識別已經(jīng)超過了正常人的語音識別能力。以情感合成為例,基于深度學(xué)習(xí)和大數(shù)據(jù)處理技術(shù)的語音識別,在數(shù)據(jù)采集、處理、建模等環(huán)節(jié)完成了一系列創(chuàng)新,可以實(shí)現(xiàn)更富有表現(xiàn)力的自然朗讀效果。
在普通公眾的眼里,語音識別似乎是一項(xiàng)橫空出世的新技術(shù),據(jù) TechCrunch 統(tǒng)計(jì),僅美國至少就有26家公司在開發(fā)語音識別技術(shù)。但在科學(xué)家與工業(yè)界人士看來,語音識別并不是一個(gè)新興的行業(yè)。
早在1952年,美國貝爾實(shí)驗(yàn)室的Davis等人就研制了世界上第一個(gè)能識別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年,英國的Denes等人研制了第一個(gè)計(jì)算機(jī)語音識別系統(tǒng)。發(fā)展至今,語音識別技術(shù)早已走過了一甲子的歷程。
上世紀(jì)50年代,科學(xué)家們認(rèn)為要讓計(jì)算機(jī)實(shí)現(xiàn)語音識別這類只有人才能做的事情,必須先讓其理解自然語言。這使得人類探索語音識別的路線,局限在用電腦模擬人腦上,即讓計(jì)算機(jī)學(xué)習(xí)人類學(xué)習(xí)語言的方式。在這一思路的指引下,此后的20年,科學(xué)界在語音識別領(lǐng)域鮮有科研成果出現(xiàn)。
直到1970年后,統(tǒng)計(jì)語言學(xué)的出現(xiàn)讓語音識別重獲新生。推動(dòng)這個(gè)技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物是現(xiàn)代語音識別和自然語言處理研究的先驅(qū)、美國工程院院士德里克·賈里尼克和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室。IBM采用統(tǒng)計(jì)的方法,將當(dāng)時(shí)的語音識別率從70%提升到90%,同時(shí)語音識別的規(guī)模從幾百單詞上升到幾萬單詞。這使得語音識別有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。
此后,隨著研究思路的變化,大規(guī)模的語音識別研究得以實(shí)現(xiàn),科學(xué)家們在小詞匯量、孤立詞的識別研究方面取得了實(shí)質(zhì)性的進(jìn)展。20世紀(jì)80年代以后,語音識別研究的重點(diǎn)則逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。
20世紀(jì)90年代以后,科學(xué)界在語音識別的系統(tǒng)框架方面并沒有什么重大突破,但在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。始于20世紀(jì)70年代的DARPA系統(tǒng),是由美國國防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語言理解系統(tǒng)的研究開發(fā)工作,進(jìn)入90年代, DARPA計(jì)劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識別裝置中的自然語言處理部分,識別任務(wù)設(shè)定為“航空旅行信息檢索”。
在這個(gè)時(shí)期,英國劍橋大學(xué)的HTK系統(tǒng)對語音識別貢獻(xiàn)巨大,為很多從事語音識別的研究單位提供了結(jié)構(gòu)完整、全面的一套軟件基線系統(tǒng)。從此,語音識別研究的門檻大大降低,從而更加有效地推動(dòng)了語音識別技術(shù)的快速發(fā)展和相互交流。
90年代以后直到現(xiàn)在,計(jì)算機(jī)界對于語音識別的研究逐漸地由朗讀式語音轉(zhuǎn)移到了現(xiàn)實(shí)生活中“真實(shí)對話語音”。進(jìn)入21世紀(jì),互聯(lián)網(wǎng)得到普及,移動(dòng)互聯(lián)網(wǎng)技術(shù)也得到了快速發(fā)展,手機(jī)上網(wǎng)速度越來越快,這給語音識別技術(shù)的發(fā)展和應(yīng)用帶來了新的平臺;硬件設(shè)備越來越廉價(jià)以及云計(jì)算技術(shù)的出現(xiàn),也大大推動(dòng)了語音識別的研究和應(yīng)用。
中國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)研究所利用電子管電路識別10個(gè)元音,但此后,中國的語音識別研究工作一直處于緩慢發(fā)展階段。直至1973年,中國科學(xué)院聲學(xué)研究所開始了計(jì)算機(jī)語音識別。
進(jìn)入80年代以來,隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進(jìn)一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時(shí),國際上語音識別技術(shù)在經(jīng)過多年的沉寂之后重又成為研究熱點(diǎn)。在這種形式下,國內(nèi)許多單位紛紛投入到這項(xiàng)研究中去。
2011年深度學(xué)習(xí)技術(shù)引入語音識別領(lǐng)域,推進(jìn)整個(gè)工業(yè)界的人工智能技術(shù)應(yīng)用進(jìn)入深度學(xué)習(xí)時(shí)代。隨后的幾年里,CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長短時(shí)記憶模型)、CNN混合LSTM的建模技術(shù)在語音識別工業(yè)產(chǎn)品中不斷涌現(xiàn),并持續(xù)提升語音識別產(chǎn)品效果。
技術(shù)難關(guān)有待突破
2016年6月2日,被譽(yù)為“互聯(lián)網(wǎng)女王”的瑪麗·米克爾(Mary Meeker)發(fā)布了2016年《互聯(lián)網(wǎng)趨勢報(bào)告》。報(bào)告認(rèn)為,語音是最有效的計(jì)算輸入形式,將成為人機(jī)交互的新范式。相比打字,語音交互的優(yōu)勢明顯,既簡單又方便,一個(gè)麥克風(fēng)即可解決,尤其適合物聯(lián)網(wǎng)的場景。
然而,任何一項(xiàng)新技術(shù)研發(fā),都避免不了需要逾越和突破更多的障礙。早在2008年,比爾·蓋茨就在多個(gè)場合預(yù)測“今后5年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過語音來完成”。到如今,語音搜索方興未艾,但遠(yuǎn)沒實(shí)現(xiàn)比爾·蓋茨的猜想?,旣?middot;米克爾預(yù)測,未來的計(jì)算界面將從鍵盤進(jìn)化成麥克風(fēng)及鍵盤,“不過現(xiàn)在才剛剛上路”。
賈磊認(rèn)為,目前語音識別技術(shù)遇到的主要難度,是對口音、噪音、遠(yuǎn)場的識別。其中基于深度學(xué)習(xí)的個(gè)性化識別,是未來語音識別技術(shù)全面普及與應(yīng)用的重大挑戰(zhàn)。
如今在多個(gè)大型科技會議現(xiàn)場,主辦方都會安排嘗試各家公司研發(fā)的語音速錄系統(tǒng),這大有取代傳統(tǒng)的實(shí)時(shí)速錄員之勢。起初,這一高效、吸引眼球的技術(shù)著實(shí)讓人們眼前一亮,但一旦會場中的演講者帶有口音,語音速錄系統(tǒng)便頻頻犯錯(cuò),即使有技術(shù)人員現(xiàn)場實(shí)時(shí)調(diào)試,也常常另其呈現(xiàn)在會場大屏幕上的文字語法不通、不知所云。
賈磊認(rèn)為,人的口音千差萬別,不可能有一個(gè)語音識別器識別所有的聲音,一定要實(shí)現(xiàn)個(gè)性化。而這種基于深度學(xué)習(xí)的個(gè)性化識別,一定需要海量的存儲空間和很大的數(shù)據(jù)吞吐傳輸能力,而這只有具備大數(shù)據(jù)和云計(jì)算這種服務(wù)能力的公司能夠提供。
語音識別歷來是人工智能和機(jī)器學(xué)習(xí)中的十大經(jīng)典難題之一,該技術(shù)面臨著說話人、環(huán)境、設(shè)備三方面的不確定性難點(diǎn)。
說話人常常來自不同的方言區(qū)、有不同的口音,說話時(shí)又有不同的方式、運(yùn)用不同的情感,目前的語音識別往往難以完美識別。此外,真實(shí)的語言環(huán)境是非常復(fù)雜的,會被各種各樣的噪聲環(huán)繞,包括汽車?yán)嚷?、飛機(jī)的噪聲、馬路上人的聲音,還有一些會場的回聲;而發(fā)言者使用的設(shè)備也是五花八門,除了自然發(fā)聲,人們可以用手持麥克風(fēng)、領(lǐng)夾麥克風(fēng)、耳戴麥克風(fēng)、近場遠(yuǎn)場的麥克風(fēng)等。
在真實(shí)的應(yīng)用場景下,說話人、環(huán)境、設(shè)備三個(gè)因素疊加在一起,使語音識別的應(yīng)用場景更加復(fù)雜。如何處理這些不確定性,成為擺在研發(fā)人員面前的一項(xiàng)重大挑戰(zhàn)。
口語化的識別需要訓(xùn)練語料,口音的有利信息歸根結(jié)底需要大量的口音的數(shù)據(jù)才能解決。“未來會出現(xiàn)更大規(guī)模的語料庫,要訓(xùn)練更大規(guī)模的語音識別系統(tǒng)。”賈磊認(rèn)為,多種數(shù)據(jù)源的混合訓(xùn)練仍然是解決口音、噪音和遠(yuǎn)場問題的必要手段。
從嚴(yán)格意義上,目前的語音識別系統(tǒng),顯然還難堪完美。峰瑞資本早期項(xiàng)目負(fù)責(zé)人朱祎舟認(rèn)為,盡管各家科技公司根據(jù)實(shí)驗(yàn)數(shù)據(jù)得出的語音識別準(zhǔn)確率達(dá)到95%甚至更高,但在實(shí)際使用時(shí)并沒有那么高。
阿里云智能語音技術(shù)總監(jiān)鄢志杰也認(rèn)為,“夸張”的準(zhǔn)確率只可能在非常受限的場景下獲得,“如果在一個(gè)熱烈討論的會議室,掏出手機(jī)做會議記錄,別說97%,斷斷續(xù)續(xù)勉強(qiáng)看懂就不錯(cuò)了”。
“語音識別的準(zhǔn)確率遠(yuǎn)沒有新聞標(biāo)題上宣傳的那么高,脫離現(xiàn)實(shí)場景去談準(zhǔn)確率統(tǒng)統(tǒng)都是耍流氓。”鄢志杰認(rèn)為,智能語音行業(yè)應(yīng)該更嚴(yán)肅去思考,在學(xué)術(shù)研究上到底取得了哪些實(shí)質(zhì)性的進(jìn)展,應(yīng)用上到底在哪些方面實(shí)實(shí)在在幫助到大眾。
從“聽到”到“聽懂”的進(jìn)化變革
語音識別、語音搜索,已然成為了移動(dòng)互聯(lián)網(wǎng)時(shí)代的“剛需”?;ヂ?lián)網(wǎng)帶來的用戶體驗(yàn)卻并非人人平等,在互聯(lián)網(wǎng)用戶中,仍然有相當(dāng)一部分人無法暢享互聯(lián)網(wǎng)。他們因?yàn)榧夹g(shù)水平的差異,無法利用電腦和手機(jī),通過“精確的文字”與互聯(lián)網(wǎng)時(shí)代的產(chǎn)物發(fā)生“聯(lián)動(dòng)”。比如讓年邁的父母重新去學(xué)習(xí)“打字”,著實(shí)不易。
智能語音很可能讓以往的不平等體驗(yàn)趨回平衡。如今,智能客服與智能助理等已經(jīng)成為互聯(lián)網(wǎng)上的典型應(yīng)用場景。接電話的客服人員,可能要漸次被人工智能和機(jī)器人替代,不少科技公司已經(jīng)使用了語音自動(dòng)轉(zhuǎn)接、情感識別與關(guān)鍵詞識別、語音識別和關(guān)鍵信息提取,還有自動(dòng)化的全量檢驗(yàn);而智能助理則可以采用對話的聲控方式,幫助用戶找餐館、安排行程、點(diǎn)歌、導(dǎo)航、找菜譜等。
為了利用語音交互的新穎和便利模式迅速占領(lǐng)客戶群,互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開語音識別的研究和應(yīng)用,但如果讓語音識別更好地服務(wù)于諸多的真實(shí)生活場景中,顯然還有長路要走。
賈磊認(rèn)為,想解決口音、噪音的問題,語音識別系統(tǒng)的訓(xùn)練數(shù)據(jù)還會繼續(xù)加大,現(xiàn)在幾萬個(gè)小時(shí)訓(xùn)練數(shù)據(jù)是工業(yè)現(xiàn)狀,在不久的未來一定能達(dá)到十萬小時(shí)。如果出現(xiàn)這么大的計(jì)算量,對計(jì)算能力的需求會更加強(qiáng)烈,“大數(shù)據(jù)和高性能計(jì)算,是語音識別發(fā)展到目前最明顯和清晰的趨勢”。
“語音識別正處于產(chǎn)業(yè)化爆發(fā)的邊緣,但機(jī)器計(jì)算成本是一個(gè)很大的瓶頸。如果線上50%的搜索都由語音完成,而計(jì)算成本還和過去一樣,那么沒有公司能承擔(dān)得起。”賈磊表示,語音服務(wù)要想大規(guī)模普及、服務(wù)大眾,必須降低后臺服務(wù)器開銷。
在賈磊看來,作為明顯的行業(yè)趨勢,語音識別技術(shù)會和語意理解、交互技術(shù)等形成一整套語音的解決方案。
讓人工智能系統(tǒng)根據(jù)自己被告知的內(nèi)容回答問題或采取行動(dòng),真正的難度在于語義識別。目前的語音識別技術(shù),只是把“聽到”的語音高正確率轉(zhuǎn)化成文字,這對于未來的需求還遠(yuǎn)遠(yuǎn)不夠。從“聽到”,到“聽懂”,盡管一字之差,卻考驗(yàn)重重。
如果讓語音識別系統(tǒng)變得更加聰慧,其突破依賴于計(jì)算機(jī)硬件的進(jìn)步。近幾年計(jì)算機(jī)飛速的發(fā)展,特別是通用計(jì)算的發(fā)展,使人類有了強(qiáng)大的計(jì)算能力,使得一些過去不可能實(shí)現(xiàn)的人工智能算法成為可能,但如果要實(shí)現(xiàn)語音服務(wù)的通用化,計(jì)算能力還有提升空間。
更重要的是,人使用語音識別的目的,不只是把語音轉(zhuǎn)成文字,而是使用語音去進(jìn)行交互,并獲得其所需的服務(wù)結(jié)果。賈磊認(rèn)為,“這是未來的工業(yè)發(fā)展趨勢,單純地脫離了服務(wù)、脫離了平臺、脫離了計(jì)算能力去做語音技術(shù)的時(shí)代已經(jīng)過去了”。
語音識別雖然為現(xiàn)代生活帶來了各種便捷,但距離真正實(shí)現(xiàn)精確無誤,自主思考,顯然還有很長一段路要走,只有研究者們不斷執(zhí)著進(jìn)取,突破藩籬,才能為語音識別技術(shù)的未來帶來真正的顛覆與改變。