Google出了一款A(yù)pp,能幫助聽力受損的人自由交流
1882 年,一場突如其來的疾病奪走了剛 19 個月的海倫凱勒生活中所有的色彩、聲音、動作。和她的生活一樣,這個塔斯坎比亞小鎮(zhèn)的家庭從此也進(jìn)入了一個黑暗而寂靜的世界。直到 6 年后,沙利文老師出現(xiàn)在海倫的生活,事情才出現(xiàn)了轉(zhuǎn)機(jī)。在沙利文的幫助下,海倫凱勒不僅學(xué)會了盲文閱讀,還在成年后寫下了那句「唯有失聰者才會珍視聽覺」。
這個故事幾乎每個人在小學(xué)都已熟悉,因為語文老師們總會布置一篇《讀<假如給我三天光明>有感》的作文。但并不是所有聽力受損的人都能和海倫凱勒一樣幸運,擁有沙利文的獨特幫助。
目前,在全世界 4.66 億遭遇耳聾和聽力障礙的人士中,只有極少人能支付起與他人進(jìn)行即時交流時需要采購的手動轉(zhuǎn)錄服務(wù),如美國的 CART,英國的 Palantypist 或其他國家的 STTR。更多的人,在無聲對話。
為了改變這一情況,2019 年 2 月 4 日,Google 推出了一款全新的基于 App——Live Transcribe 的內(nèi)測版,這是一款即時轉(zhuǎn)錄真實世界語音的應(yīng)用程序,只需使用手機(jī)的麥克風(fēng)即可將其轉(zhuǎn)換為實時字幕。3 月,其正式在 Play 商店正式上線。
設(shè)計背后:ARS 帶來的實時轉(zhuǎn)錄
一歲時失聰?shù)亩砹_斯人 Dimitri 現(xiàn)在是 Google 的一名科學(xué)家。他說話有些吃力,在告訴店員「今天過得不錯」時,詞句之間的停頓明顯。不過,現(xiàn)在他并不需要任何的人工幫助。手機(jī)上的 Live Transcribe,正在黑色背景上實時同步店員說的每一個單詞:你想喝點什么?右上角的小圓圈也不停地變換大小來暗示周圍環(huán)境的嘈雜程度。
「Live Transcribe 的轉(zhuǎn)錄延遲低于 200 毫秒,接近于實時?!乖?App 的產(chǎn)品經(jīng)理 Sagar Salva 對極客公園說。這樣的延時就像 50HZ 的交流電方向的改變一樣,難以察覺,保證了雙方交流的互動性。同時,據(jù) Salva 介紹,它能支持 70 多種語言和方言,覆蓋了世界上 80% 的人群。針對雙語家庭,App 里還設(shè)有在兩種語言間進(jìn)行快速切換的按鍵。
兩年前,他帶著 30 年的語音識別經(jīng)驗加入了谷歌的 AI 研究組時,這款產(chǎn)品還未誕生。每次開會他都需要提前預(yù)定 CART 服務(wù),靠字幕員虛擬地加入會議,來將語音對話敲到屏幕上,進(jìn)行轉(zhuǎn)錄。Salva 和同事們便設(shè)想如何能通過使用現(xiàn)在 Google 的技術(shù)來減少他準(zhǔn)備過程。
而今,從山景城到臺北,這個模型被不斷優(yōu)化,最終演進(jìn)成了 Live Transcribe。
在短時間里開發(fā)出全新 App 還是得益于谷歌本身的技術(shù)積累。據(jù) Salva 介紹,Live Transcribe 背后的核心技術(shù)是谷歌各種語音搜索應(yīng)用一直在使用自動語音識別(Automatic Speech Recognition,ASR)技術(shù)。ASR 主要包含特征提取、聲學(xué)模型,語言模型以及字典與解碼四大部分。簡而言之,其任務(wù)是準(zhǔn)確、高效的將語音信號轉(zhuǎn)化為文字信息。目前,YouTube 上準(zhǔn)確率極高的實時字幕轉(zhuǎn)錄便是得益于谷歌這項技術(shù)的支持。
Live transcribe:每個人的沙利文老師
但開發(fā)過程并非一帆風(fēng)順。
Salva 說,一個便是用戶實際使用場景的選擇。他們可以選擇在電腦、平板設(shè)備、或者手機(jī)等硬件設(shè)備上展現(xiàn)轉(zhuǎn)錄結(jié)果,也可以有更大膽的設(shè)計。例如,他還嘗試用小型投影設(shè)備將轉(zhuǎn)錄出來的字幕打在 Salva 的 T 恤上。
但對于聽力受損的人來講,勞動力回報以及收入都相對較低。據(jù)中國殘聯(lián)發(fā)布的《2018 年殘疾人事業(yè)發(fā)展統(tǒng)計公報》,全國城鄉(xiāng)持證殘疾人就業(yè)人數(shù)為 948.4 萬人,其中靈活就業(yè)(含社區(qū)、居家就業(yè))254.6 萬人,從事農(nóng)業(yè)種養(yǎng)加 480.1 萬人,幾乎占了絕大部分。在殘疾人家庭人均可支配收入上也與社會平均水平有較大差距。
考慮到這些原因,在所有智能設(shè)備中,Salva 和團(tuán)隊最終選擇了智能手機(jī):「目前全球已經(jīng)有 20 億人在使用安卓的手機(jī),這樣的硬件平臺選擇是成本低廉的。」
為了讓較為低配的手機(jī)也能使用 Live Transcribe,Salva 和團(tuán)隊選擇在這款 App 背后使用兩種不同的神經(jīng)網(wǎng)絡(luò)。一個是在設(shè)備上運行神經(jīng)網(wǎng)絡(luò),主要完成聲音分類的工作,例如嬰兒哭聲、玻璃破碎聲音等。在對這些聲音的實時轉(zhuǎn)錄中,能夠快速地進(jìn)行分類和辨析。第二個是用于完成語音轉(zhuǎn)錄成文字工作的云端神經(jīng)網(wǎng)絡(luò)模型。
「事實上,在云端,在 Google 的服務(wù)器上,利用機(jī)器學(xué)習(xí)和這些神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語音的識別是非常重要的,這意味著這款產(chǎn)品在一些低配的手機(jī)上也能夠運行?!筍alva 說?!府?dāng)它在運行的時候,只會消耗大概 4M 左右的內(nèi)存空間。我們做了電量使用優(yōu)化,單次充電可以使用 10 個小時左右?!?/p>
谷歌想做的是讓每個聽力受損的都能真正使用得起這個免費的 App。實際上,這個想法早已有跡可循。
有跡可循:20% 的創(chuàng)新項目
在 2016 年 3 月,Google 就推出了 Accessibility Scanner,這是一款自動化工具,用于評估應(yīng)用程序,并為視覺和聽覺障礙用戶提供改進(jìn)方法,例如,通過擴(kuò)大小型觸摸目標(biāo)或更改對比度。
2018 年 8 月,Google 又發(fā)布了一項新的開放式規(guī)范,旨在啟動助聽器的開發(fā),這種助聽器能夠在藍(lán)牙低功耗(LE)的 Android 手機(jī)上運行,充足的低延遲和對電池壽命的影響最小。
這些演進(jìn)蹤跡的源頭卻是一個偶然。Salva 介紹說,最初 Live transcribe 只是一個 20% 創(chuàng)新項目。20% 是在谷歌內(nèi)部一個著名的鼓勵文化:鼓勵員工利用 20% 的時間用于創(chuàng)新。比如在一周 5 天的工作中,員工能用 1 天的時間用于研究本職工作外的其他感興趣的項目。如這些創(chuàng)新獲得了進(jìn)一步的證明,便能獲得推廣、完善的機(jī)會,如耳熟能詳?shù)?Google News 和 Gmail 都屬于創(chuàng)新誕生的產(chǎn)物。
當(dāng) Live transcribe 誕生后,在谷歌團(tuán)隊內(nèi)部其他的聽力受損同事之中也廣受好評。因此,才逐漸走向了 Play 商店。
在研發(fā)過程中,為了減少周圍環(huán)境噪音得影響使轉(zhuǎn)錄效果更好,谷歌還推出了另一款相關(guān)的 App:Sound Amplifier。這款應(yīng)用能夠使用聲音放大器,使音頻更清晰,更容易聽到。可以在 Android 智能手機(jī)上使用帶有線耳機(jī)的聲音放大器來過濾,增強(qiáng)和放大環(huán)境中的聲音。
據(jù)世界衛(wèi)生組織估計,到 2055 年,全世界聽力受損的人數(shù)將達(dá)到 9 億。雖然不確定那時的醫(yī)療是否已經(jīng)能夠使人們不再受到聽力受損的困擾,但能肯定的是,至少今天正如谷歌所希望的一樣,Live Transcribe 和 Sound Amplifier,正在幫助數(shù)億聾人溝通得更清楚。