前沿科技分享:把腦信號(hào)譯成語音 AI算法讓有望讓失語人士正常發(fā)聲
在近期發(fā)表在“自然”雜志上的一項(xiàng)研究中,加利福尼亞大學(xué)舊金山分校的神經(jīng)科學(xué)家團(tuán)隊(duì)介紹了一種神經(jīng)解碼器,可以根據(jù)大腦活動(dòng)合成自然發(fā)聲的語音。
這項(xiàng)研究由演講科學(xué)家Gopala Anumanchipalli和Chang實(shí)驗(yàn)室的生物工程研究生Josh Chartier領(lǐng)導(dǎo)。它正在加利福尼亞大學(xué)神經(jīng)外科教授Edward Chang的實(shí)驗(yàn)室中開發(fā)。
為什么要引入這種神經(jīng)解碼器?
由于中風(fēng),創(chuàng)傷性腦損傷或神經(jīng)退行性疾病(如帕金森病,多發(fā)性硬化癥和肌萎縮側(cè)索硬化癥),讓許多人喪失語言能力
目前,跟蹤非常小的眼睛或面部肌肉運(yùn)動(dòng)的輔助設(shè)備使得嚴(yán)重語言障礙的人能夠通過逐字逐句地表達(dá)他們的想法。然而,用這樣的設(shè)備生成文本或合成語音通常是耗時(shí),費(fèi)力且容易出錯(cuò)的。這些設(shè)備的另一個(gè)限制是它們只允許每分鐘產(chǎn)生最多10個(gè)字。
這項(xiàng)研究表明,有可能生成一個(gè)人的聲音的合成版本,可以通過他們的大腦活動(dòng)來控制。研究人員相信,將來,這種裝置可用于使嚴(yán)重言語障礙的人能夠進(jìn)行流暢的溝通。它甚至可以再現(xiàn)人類聲音的一些“音樂性”,表達(dá)說話者的情感和個(gè)性。
“這項(xiàng)研究表明,我們可以根據(jù)個(gè)人的大腦活動(dòng)生成完整的口語句子,”Chang說。 “這是一個(gè)令人振奮的原理證據(jù),即已經(jīng)觸手可及的技術(shù),我們應(yīng)該能夠構(gòu)建一種在語言丟失患者中具有臨床可行性的設(shè)備。”
這個(gè)系統(tǒng)如何運(yùn)作?
這項(xiàng)研究是基于Josh Chartier和Gopala K. Anumanchipalli的另一項(xiàng)研究,該研究展示了我們大腦中的語音中心如何編排嘴唇,下巴,舌頭和其他聲道組件的運(yùn)動(dòng)以產(chǎn)生流暢的語音。
在這項(xiàng)新的研究中,Anumanchipalli和Chartier要求5名患者大聲朗讀幾個(gè)句子。這些患者將電極植入他們的大腦中以繪制他們病情發(fā)作的來源以準(zhǔn)備神經(jīng)外科手術(shù)。同時(shí),研究人員記錄了已知涉及語言生成的大腦區(qū)域的活動(dòng)。
研究人員使用志愿者聲音的錄音來理解產(chǎn)生這些聲音所需的聲道運(yùn)動(dòng)。通過這個(gè)詳細(xì)的聲音解剖圖譜,科學(xué)家們?yōu)槊總€(gè)志愿者創(chuàng)造了一個(gè)真實(shí)的虛擬聲道,可以通過他們的大腦活動(dòng)來控制。
該系統(tǒng)由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:
- 解碼器,用于將語音期間產(chǎn)生的大腦活動(dòng)模式轉(zhuǎn)換為虛擬聲道的運(yùn)動(dòng)。
- 一種合成器,用于將這些聲道運(yùn)動(dòng)轉(zhuǎn)換為志愿者聲音的合成近似值。
研究人員觀察到,與直接從志愿者的大腦活動(dòng)中解碼的合成語音相比,該系統(tǒng)產(chǎn)生的合成語音要好得多。
該系統(tǒng)仍處于早期階段。 Chartier解釋了它的局限性,他說:“我們?nèi)匀挥修k法完全模仿口語。 我們非常擅長(zhǎng)合成較慢的語音,如“sh”和“z”,以及保持語音的節(jié)奏和語調(diào)以及說話者的性別和身份,但是一些更突然的聲音,如'b'和'p'得到了 有點(diǎn)模糊。 盡管如此,與目前可用的相比,我們?cè)谶@里制作的準(zhǔn)確度水平將是實(shí)時(shí)通信的驚人改進(jìn)。“