語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)成為了人工智能的核心
語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)、語(yǔ)音合成 數(shù)據(jù)庫(kù)是人工智能的關(guān)鍵技術(shù),讓機(jī)器能聽(tīng)會(huì)說(shuō)、能像人一樣的學(xué)習(xí)、理解和思考,成為人類(lèi)生活和工作的得力的幫手、親密的伴侶,一直是人類(lèi)的夢(mèng)想。隨著近半 個(gè)世紀(jì)智能語(yǔ)音技術(shù)的進(jìn)步和深度神經(jīng)網(wǎng)絡(luò)技術(shù)(DNN)的工程化應(yīng)用,人類(lèi)正不斷的接近這個(gè)夢(mèng)想,這個(gè)夢(mèng)想也同時(shí)極大的驅(qū)動(dòng)著智能語(yǔ)音技術(shù)的發(fā)展。最初, 人們只能讓機(jī)器發(fā)出類(lèi)似人的聲音,比如18世紀(jì)后半葉歐洲人制造的Kempelen講話機(jī),它能說(shuō)出有限的詞和短句。經(jīng)歷了兩個(gè)多世紀(jì),現(xiàn)在的“聊天機(jī)器 人”不僅能以自然度很高的聲音與人交流、還會(huì)調(diào)侃、賣(mài)萌。20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry,它可以識(shí)別十個(gè)英文數(shù)字?,F(xiàn)在,語(yǔ)音 識(shí)別技術(shù)的自然語(yǔ)言識(shí)別正確率已經(jīng)高于95%。
微軟發(fā)布的“小冰”,和百度發(fā)布的“度秘”,再一次在人群中掀起人工智能和人機(jī)交互的熱潮。
為了深刻的了解在“小冰”和“度秘”聰明伶俐、能聽(tīng)會(huì)說(shuō)背后的秘密,記者專(zhuān)訪了”北京海天瑞聲科技有限公司”的CEO唐滌飛先生。作為國(guó)內(nèi)、乃至亞洲***的人工智能數(shù)據(jù)資源供應(yīng)商,“海天瑞聲”在語(yǔ)音合成(TTS)、語(yǔ)音識(shí)別(ASR)、自然語(yǔ)言理解(NLP)和機(jī)器翻譯(MT)等技術(shù)領(lǐng)域的基礎(chǔ)數(shù)據(jù)資 源開(kāi)發(fā)領(lǐng)域,積累了17年的專(zhuān)業(yè)經(jīng)驗(yàn)。就智能語(yǔ)音基礎(chǔ)數(shù)據(jù)資源而言,目前已經(jīng)擁有116種語(yǔ)言、覆蓋70多個(gè)國(guó)家和地區(qū)的數(shù)據(jù)資源制造能力。
小冰和度秘對(duì)人發(fā)出的指令的理解能力,比之前的語(yǔ)音助手表現(xiàn)要好很多。在百度世界大會(huì)上,面對(duì)李彥宏的種種刁難,度秘應(yīng)對(duì)自如,不僅幫“廠長(zhǎng)”在網(wǎng)上訂 了 兩杯拿鐵,還訂好了可以帶寵物的餐廳,在網(wǎng)上團(tuán)購(gòu)了動(dòng)畫(huà)片電影票。那么,“小冰”和“度秘”能準(zhǔn)確理解人的指令的提問(wèn)背后的秘密是什么呢?
唐滌飛先生說(shuō),這是由于語(yǔ)音識(shí)別(ASR)技術(shù)和自然語(yǔ)言理解(NLP)技術(shù)的巨大創(chuàng)新和進(jìn)步,從最初的 DNN 模型到現(xiàn)在的 LSTM 模型,從機(jī)器學(xué)習(xí)(ML)到深度學(xué)習(xí)(DL),每次技術(shù)創(chuàng)新都給用戶帶來(lái)了全新的體驗(yàn)。不僅如此,在訓(xùn)練語(yǔ)音識(shí)別引擎中所使用的基礎(chǔ)語(yǔ)音語(yǔ)料庫(kù),也是至關(guān) 重要的因素。在設(shè)計(jì)語(yǔ)料時(shí),需要專(zhuān)業(yè)的語(yǔ)言學(xué)家根據(jù)特定語(yǔ)言的語(yǔ)言學(xué)現(xiàn)象,全面考慮語(yǔ)料領(lǐng)域分布、應(yīng)用場(chǎng)景分布、語(yǔ)料時(shí)效性等因素,同時(shí)借助相應(yīng)的NLP 處理技術(shù)和標(biāo)注團(tuán)隊(duì)來(lái)確保數(shù)據(jù)庫(kù)語(yǔ)料池的規(guī)模和結(jié)構(gòu)科學(xué)合理、音素覆蓋與平衡、句意完整、語(yǔ)義連貫、拼寫(xiě)正確且易讀可懂,***再按照發(fā)音人分布、口音分 布、文本分布、音素分布、場(chǎng)景分布等條件通過(guò)采用相應(yīng)的算法如DTW動(dòng)態(tài)規(guī)則算法對(duì)發(fā)音人的文本進(jìn)行抽取形成特定發(fā)音的文本。
由于口音、年 齡、教育背景和生活地區(qū)的不同,不同的人表達(dá)同一個(gè)意思、問(wèn)同一個(gè)問(wèn)題,甚至說(shuō)同一句話,都會(huì)有細(xì)微的千差萬(wàn)別。比如,在智能客服應(yīng)用中,機(jī)器人不僅要聽(tīng) 懂客戶的話,還要能識(shí)別客戶的情緒,比如,根據(jù)其情緒是焦躁還是平靜,或根據(jù)客戶情緒的變化,來(lái)判斷他是變得生氣了,還是慢慢消氣了,而采取不同的處理優(yōu) 先級(jí)和反饋方式。這就涉及要在訓(xùn)練語(yǔ)料中引入情緒因素。但目前小冰和度秘還不能完全做到這一點(diǎn)。
據(jù)唐滌飛先生介紹,為了讓“小冰”能用自然甜 美流暢的聲音說(shuō)話,大規(guī)模的語(yǔ)音合成(TTS)數(shù)據(jù)庫(kù)的設(shè)計(jì)和開(kāi)發(fā),從根本性上決定了用戶對(duì)她的體驗(yàn)。在數(shù)據(jù)庫(kù)的設(shè)計(jì)上,首先要選擇年齡和音質(zhì)合適的發(fā)言 人,她的聲音要年輕、陽(yáng)光、伶俐且充滿活力。其次,在數(shù)據(jù)庫(kù)的設(shè)計(jì)上,要充分考慮到語(yǔ)言和音素的全面覆蓋,語(yǔ)料主要來(lái)自海量的聊天對(duì)話語(yǔ)料。為了強(qiáng)調(diào)小冰 是個(gè)有情感的小姑娘,她不僅會(huì)一本正經(jīng)的說(shuō)話,也會(huì)生氣、賣(mài)萌,因此,需要在語(yǔ)料設(shè)計(jì)中增加很多口語(yǔ)化的句子和網(wǎng)絡(luò)用語(yǔ),甚至還有網(wǎng)絡(luò)小說(shuō)里的段落。同 時(shí),還要有常用的英語(yǔ)詞匯、中英混合詞匯、數(shù)字串、地名等專(zhuān)用語(yǔ)料。在人的自然語(yǔ)言中,同一句話在不同的情境里,說(shuō)出來(lái)的語(yǔ)調(diào)和韻律是不一樣的。因此,在 語(yǔ)料設(shè)計(jì)中,還要考慮到這些因素。如此一來(lái),語(yǔ)料庫(kù)的規(guī)模往往就要在上萬(wàn)句甚至數(shù)萬(wàn)句。從某種程度上說(shuō),語(yǔ)音合成語(yǔ)料庫(kù)設(shè)計(jì)的失敗,會(huì)極大的抵消掉語(yǔ)音合 成技術(shù)的進(jìn)步。
從小冰和度秘這樣的聊天機(jī)器人,到真正的機(jī)器伴侶,人類(lèi)還有一段很長(zhǎng)的路要走,還有許多困難需要克服。她必須能更準(zhǔn)確的聽(tīng)懂并 響應(yīng)對(duì)她發(fā)出的各種指令,還要能“理解”人的情緒變化和情感需要,能進(jìn)行 “思考“,從而為人提供更接近于真實(shí)的人的服務(wù),包括情感支持和慰藉。在語(yǔ)言表達(dá)方面,也要更接近人類(lèi)的真實(shí)情感和情緒的表達(dá),要更自然流暢。造成這種困 難的原因當(dāng)然是多方面的,唐滌飛先生從其中一個(gè)方面做了解釋?zhuān)蔷褪腔A(chǔ)數(shù)據(jù)資源的缺乏和成本居高不下。如上面所提到的,為了讓聊天機(jī)器人能夠盡可能的聽(tīng) 懂、甚至真正能“理解”人的語(yǔ)言和情緒,對(duì)基礎(chǔ)數(shù)據(jù)資源設(shè)計(jì)者和開(kāi)發(fā)者,就提出了更高的要求。