Windows語音功能,微軟無法言說的痛
原創(chuàng)【51CTO.com原創(chuàng)稿件】在這個AI橫行的科技時代,盛行著一種叫做語音輸入功能,它可以使人們脫離鍵盤或輸入設(shè)備的支配,設(shè)想一下,你所說的每一個字都能被輸入成文本,簡直開心到起飛。這項功能逐漸被手機軟件所吸收,卻看不到PC端有任何動作,作為編輯可是非常期待PC端可以有強大的語音輸入功能呢。其實Windows Vista那時候起就有了語音輸入功能,作者用過那天殺的Vista系統(tǒng),看系統(tǒng)介紹的時候說可以與系統(tǒng)進行語音溝通,當(dāng)時覺得炫酷,可實際用起來才知道比訓(xùn)練哈士奇要難的多,哪怕我一字一頓的和系統(tǒng)說他也識別不出來,默默地留下了淚水后我就放棄了。
但其實微軟也在努力一雪前恥。
在硬件上,Surface Book等PC產(chǎn)品中的集成式麥克風(fēng)陣列的質(zhì)量,意味著無需使用專用麥克風(fēng)語音識別就可以達到很高的準(zhǔn)確率。在使用語音輸入軟件輸入長度為1028個單詞的文章時,95%的準(zhǔn)確率意味著用戶必須修正逾15個錯誤。在測試中,Windows語音輸入準(zhǔn)確率為93.6%,從理論上說這一數(shù)值并不高,低于測試的其他專用語音輸入軟件。Windows有個奇怪的習(xí)慣,在輸入逗號時,它會在文檔中插入“comma”(逗號)這個詞匯。語音輸入社區(qū)似乎對這類相對較小的失誤是否有重要影響有不同看法。
就像作者前面所說的,Windows語音識別技術(shù)是需要用戶來訓(xùn)練的,隨著時間推移,語音輸入軟件會了解用戶口音,“apricot”中“a”的發(fā)音與“bad”還是“ape”中的“a”相同,和如何過濾無意識的痙攣性語言障礙。微軟員工曾聲稱,經(jīng)過適當(dāng)訓(xùn)練,Windows語音識別技術(shù)的準(zhǔn)確率可以達到99%。1000個單詞出現(xiàn)10個錯誤還不算太壞,但是很少有人愿意去訓(xùn)練一個系統(tǒng)……然而小娜和Siri不要求用戶進行訓(xùn)練,那是因為它們已經(jīng)被訓(xùn)練了數(shù)以百萬計的語音樣本。
其實,如果微軟有心,必定能做出一款出色的語音識別系統(tǒng),不難發(fā)現(xiàn)語音正在慢慢替代文字。
了解更多熱點新聞,請關(guān)注51CTO《科技新聞早報》欄目!
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】




























