人工智能已經(jīng)離我們?cè)絹?lái)越近
很久以前科學(xué)家們就意識(shí)到,語(yǔ)音和文字信號(hào)進(jìn)入大腦后,會(huì)共享一部分處理路徑,正如你聽(tīng)有歌詞的歌時(shí)很容易干擾你的閱讀。而相關(guān)的探索,可以追溯到一百多年前一個(gè)年輕人的意外發(fā)現(xiàn)。
1874年,卡爾·韋尼克正在著名神經(jīng)病理學(xué)家西奧多·梅內(nèi)特手下學(xué)習(xí)。他記錄下兩位奇特的病人。他們好像患有某種語(yǔ)言表達(dá)障礙,但癥狀和典型的表達(dá)性失語(yǔ)癥截然不同:他們說(shuō)話寫(xiě)字其實(shí)都很流暢,但凈是些胡言亂語(yǔ)。韋尼克最終將這種癥狀(現(xiàn)稱(chēng)感覺(jué)性失語(yǔ)癥)歸因于顳葉后部和頂部的腦損傷。它破壞了病人的語(yǔ)言理解能力,所以患者常常說(shuō)著寫(xiě)著就忘了:“我要說(shuō)啥來(lái)著?現(xiàn)代科學(xué)家們?cè)诘赜^察大腦活動(dòng)的過(guò)程中,最后都佐證了大腦中語(yǔ)音-文本“匯合區(qū)”的存在,這些區(qū)域同時(shí)負(fù)責(zé)著對(duì)語(yǔ)音和文本的理解。
在觀看外語(yǔ)電影時(shí),我們看著字幕也能很流暢的把電影看完,這里的字幕就涉及語(yǔ)音翻譯技術(shù),把源語(yǔ)言的聲音翻譯成目標(biāo)語(yǔ)言(如你的母語(yǔ))的文本。
然而對(duì)于計(jì)算機(jī)而言,語(yǔ)音和文本的表達(dá)形式大不相同。文本通常只是幾十個(gè)符號(hào),但語(yǔ)音都是連續(xù)的聲音波形,長(zhǎng)度可以達(dá)到百萬(wàn)之巨。即使是說(shuō)一個(gè)詞,由誰(shuí)來(lái)說(shuō)、在什么環(huán)境中、何種語(yǔ)境下說(shuō),聽(tīng)起來(lái)也會(huì)大相徑庭。此外,語(yǔ)音與文本的編碼方式也不同。文本單詞由詞根和詞綴構(gòu)成。而語(yǔ)音則包含著一系列的語(yǔ)素,輔以輕重和抑揚(yáng)頓挫。
對(duì)人類(lèi)來(lái)說(shuō)輕而易舉的事情,人工智能來(lái)做卻可能難上加難。文本和語(yǔ)音的差異之大,在文本處理方面的研究碩果累累時(shí),語(yǔ)音上的表現(xiàn)卻落后不少。要想彌合差距,就需要統(tǒng)一理解語(yǔ)音和文本,就像我們的大腦那樣。
現(xiàn)在我們研究人工智能時(shí)就已經(jīng)開(kāi)始從解剖學(xué)和神經(jīng)學(xué)中獲取靈感來(lái)優(yōu)化模型,人工智能已經(jīng)離我們?cè)絹?lái)越近。


























