偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

《Nature》子刊:不僅是語言,機(jī)器翻譯還能把腦波「翻譯」成文字

新聞 人工智能
如果將人腦的神經(jīng)信號也視為一種語言,那么將機(jī)器翻譯架構(gòu)應(yīng)用于解讀神經(jīng)信號的可行性似乎并不令人驚訝。在《Nature Neuroscience》的一篇論文中,來自加州大學(xué)舊金山分校的研究者實踐了這一想法。

如果將人腦的神經(jīng)信號也視為一種語言,那么將機(jī)器翻譯架構(gòu)應(yīng)用于解讀神經(jīng)信號的可行性似乎并不令人驚訝。在《Nature Neuroscience》的一篇論文中,來自加州大學(xué)舊金山分校的研究者實踐了這一想法。他們用一個編碼器-解碼器框架將大腦神經(jīng)信號轉(zhuǎn)換為文字,在 250 個詞的封閉句子集中將錯誤率降到了 3%。

《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

論文鏈接:https://www.nature.com/articles/s41593-020-0608-8

在過去的十年里,腦機(jī)接口(BMI)已經(jīng)從動物實驗轉(zhuǎn)變?yōu)槿祟悓嶒?,其中具有代表性的結(jié)果是使得四肢癱瘓者恢復(fù)一定的運動能力,在空間維度中的兩個自由度上實現(xiàn)連續(xù)運動。盡管這種類型的控制也可以與虛擬鍵盤結(jié)合使用來生成文本,但即使在理想的光標(biāo)控制下(目前尚無法實現(xiàn)),碼字率仍受限于單指打字。另一種選擇是直接解碼口語,但到目前為止,這種 BMI 僅限于解碼孤立的音素或單音節(jié),或者在中等數(shù)量詞匯(約 100 單詞)構(gòu)成的連續(xù)語音中,正確解碼不到 40% 的單詞。

為了獲得更高的準(zhǔn)確度,來自加州大學(xué)舊金山分校的研究者利用了「從神經(jīng)活動解碼語音」與「機(jī)器翻譯」兩個任務(wù)之間的概念相似性。這兩種任務(wù)的目標(biāo)都是在同一基礎(chǔ)分析單位的兩種不同表示之間建立映射。更確切地說,二者都是將一個任意長度的序列轉(zhuǎn)化為另一個任意長度的序列(任意是指輸入和輸出序列的長度不同,并且彼此之間沒有決定性的聯(lián)系)。

在這項研究中,研究者試圖一次解碼一個句子,就像當(dāng)下大多數(shù)機(jī)器翻譯算法一樣,因此這兩種任務(wù)實際上都映射到相同類型的輸出,即一個單詞序列對應(yīng)于一個句子。另一方面,這兩種任務(wù)的輸入是存在很大區(qū)別的:分別是神經(jīng)信號和文本。但是,當(dāng)前機(jī)器翻譯架構(gòu)可以通過人工神經(jīng)網(wǎng)絡(luò)直接從數(shù)據(jù)中學(xué)習(xí)特征,這表明機(jī)器翻譯的端到端學(xué)習(xí)算法幾乎可以直接運用于語音解碼。

為了驗證這一假設(shè),在語音生成過程中,研究者利用從腦電圖(ECoG)獲得的神經(jīng)信號以及相應(yīng)口語的轉(zhuǎn)錄,訓(xùn)練了一種「序列到序列」的架構(gòu)。此外,這項任務(wù)和機(jī)器翻譯之間最重要的區(qū)別在于,后者的數(shù)據(jù)集可以包含超過 100 萬個句子,但構(gòu)成該研究基礎(chǔ)的腦電圖研究中的單個參與者通常只提供幾千個句子。

為了在相對不足的訓(xùn)練數(shù)據(jù)中利用端到端學(xué)習(xí)的優(yōu)勢,研究者使用了僅包含 30-50 個不同句子的限制性「語言」,并且在某些情況下,采用了其他參與者的數(shù)據(jù)和其他語音任務(wù)的遷移學(xué)習(xí)。

這項研究的參與者從以下兩個數(shù)據(jù)集之一中大聲朗讀句子:一組圖片描述(30 句,約 125 個不同單詞),通常以一個會話的形式描述;或 MOCHATIMIT14(460 句,約 1800 個不同單詞),以 50 句分組的會話進(jìn)行(最后一組 60 句),研究者稱之為 MOCHA-1、MOCHA-2 等等。在時間允許的情況下重復(fù)分組會話。對于測試,研究者只考慮了至少重復(fù)三次的句子集(即提供一組用于測試,至少提供兩組用于訓(xùn)練),這在實踐中將 MOCHA-TIMIT 集限制為 MOCHA-1(50 句,約 250 個不同單詞)。

方法

這里首先簡要描述解碼流程,如下圖所示:

《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

研究者要求參與者大聲朗讀句子,同時利用高密度 ECoG 網(wǎng)格(ECoG grid)記錄他們 peri-Sylvian 皮質(zhì)的神經(jīng)活動。

在每個電極上,ECoG 信號的高頻分量(70-150Hz,即「high-γ」)的包絡(luò)線(即該范圍內(nèi)分析信號的振幅)在大約 200Hz 處提取。然后將所得的序列(每個對應(yīng)于一個句子)作為輸入數(shù)據(jù)傳遞到「編碼器-解碼器」式的人工神經(jīng)網(wǎng)絡(luò)。

網(wǎng)絡(luò)分三個階段處理序列:

  1. 時間卷積:類似的特征很可能在 ECoG 數(shù)據(jù)序列的不同點上重現(xiàn),全連接的前饋網(wǎng)絡(luò)無法利用這樣的特點。
  2. 編碼器 RNN:下采樣序列被 RNN 按序處理。在每個時間步中,編碼器 RNN 的輸入由每個下采樣序列的當(dāng)前樣本以及它自己的先前狀態(tài)組成。然后最終隱藏狀態(tài)(Final hidden state,上圖中的黃色條)提供整個序列的單個高維編碼,與序列長度無關(guān)。為了引導(dǎo)編碼器在訓(xùn)練過程中找到有用的解,研究者還要求編碼器在每個時間步中預(yù)測語音音頻信號的表示,即梅爾頻率倒譜系數(shù)的序列 (MFCCs)。
  3. 解碼器 RNN:最后,高維狀態(tài)必須轉(zhuǎn)換回另一個序列,即單詞序列。因此,我們初始化第二個 RNN,然后訓(xùn)練為在每個時間步驟解碼出一個單詞或序列結(jié)束 token(在該點終止解碼)。在輸出序列的每個步驟中,除了自身先前的隱藏狀態(tài)外,解碼器還以參與者實際說出句子中的前一個單詞作為輸入(在模型訓(xùn)練階段),或者它自己在前一步預(yù)測的單詞作為輸入 (在測試階段)。與以前針對語音音素進(jìn)行語音解碼的方法相比,該方法將單詞作為目標(biāo)。

《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

網(wǎng)絡(luò)架構(gòu)

整個網(wǎng)絡(luò)同時進(jìn)行訓(xùn)練,使編碼器生成值接近目標(biāo) MFCC,并使解碼器為每個目標(biāo)詞分配高概率。請注意,MFCC 目標(biāo)提供了一個「輔助損失」,這是一種多任務(wù)學(xué)習(xí)的形式,其目的僅僅是引導(dǎo)網(wǎng)絡(luò)找到解決詞序解碼問題的足夠好的解。在測試期間,MFCC 預(yù)測被丟棄不管,解碼完全基于解碼器 RNN 的輸出。所有的訓(xùn)練都是通過反向傳播的隨機(jī)梯度下降進(jìn)行的,并將 dropout 應(yīng)用于所有的層。

實驗結(jié)果

在整個實驗過程中,研究者用平均單詞錯誤率 (WER,基于所有測試句子計算) 來量化性能,因此,完美解碼的 WER 為 0%。作為參考,在語音轉(zhuǎn)錄中,5% 的 WER 為專業(yè)水平,20-25% 為可接受的性能。這也是語音識別技術(shù)被廣泛采用的標(biāo)準(zhǔn),盡管它的參考詞匯量要大得多。

我們首先考慮一個示例參與者說 MOCHA-1 的 50 個句子(大約 250 個不同單詞)時的編碼器-解碼器框架的性能(見下圖)。下圖中參與者的平均 WER 約為 3%。以前最先進(jìn)方法的語音解碼 WER 是 60%,并使用較小的詞匯量(100 詞)進(jìn)行實驗。

《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

解碼句子的WERs。

編碼器-解碼器網(wǎng)絡(luò)的卓越性能源自什么?為了量化其各種因素的貢獻(xiàn),研究者系統(tǒng)地刪除或削弱了它們,并從頭開始訓(xùn)練網(wǎng)絡(luò)。上圖中的第二個方框顯示了對數(shù)據(jù)進(jìn)行空間下采樣以模擬較低密度 ECoG 網(wǎng)格的性能。具體來說,只留下了網(wǎng)格兩個維度上四分之一的通道(也就是說,實際上是 64 個通道,而不是 256 個通道)。WER 大約是原來的四倍,仍然在可用范圍內(nèi),這表明了除高密度網(wǎng)格外其它因素對于該算法的重要性。

第三個方框內(nèi)顯示當(dāng) MFCC 在訓(xùn)練過程中未被鎖定時的性能,其 WER 與使用低密度網(wǎng)格數(shù)據(jù)訓(xùn)練的模型的 WER 接近,但仍然明顯優(yōu)于先前的語音解碼方法。

接下來,研究者考慮一個輸入層是全連接而不是卷積的網(wǎng)絡(luò)(第四個框),WER 達(dá)到了原來的 8 倍。

然后考慮實現(xiàn)高性能需要多少數(shù)據(jù)。下圖顯示了四個參與者的 WER,作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練重復(fù)次數(shù)的函數(shù)。沒有任何參與者的訓(xùn)練數(shù)據(jù)總量超過 40 分鐘,當(dāng)至少有 15 次重復(fù)訓(xùn)練時,WER 可能低于 25% 以下。

在下圖中,有兩名參與者,他們在 MOCHA 句子上的訓(xùn)練次數(shù)很少 (參與者 a/綠色實線,參與者 d/棕色實線),因此解碼性能較差。

《Nature》子刊:不仅是语言,机器翻译还能把脑波「翻译」成文字

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI

2022-12-21 17:17:24

2011-08-04 11:02:51

交換機(jī)Nexus思科

2019-03-20 20:26:41

微隔離防火墻

2024-09-19 13:04:41

2021-06-22 18:50:00

機(jī)器翻譯人工智能計算機(jī)

2020-04-01 11:12:43

腦機(jī)接口機(jī)器翻譯人工智能

2020-08-29 18:32:21

物聯(lián)網(wǎng)投資物聯(lián)網(wǎng)IOT

2009-11-05 15:53:32

無線局域網(wǎng)

2019-11-06 11:31:26

刷臉支付支付寶互聯(lián)網(wǎng)

2020-10-27 14:34:42

算法MIT機(jī)器翻譯

2025-04-03 09:45:51

2021-10-13 18:57:59

AI

2021-10-13 18:59:42

AI

2017-03-22 12:39:33

人工智能機(jī)器翻譯

2017-08-21 16:00:14

機(jī)器學(xué)習(xí)機(jī)器翻譯

2014-07-17 10:35:31

游戲引擎代碼工具

2019-07-10 15:10:14

高性能服務(wù)器架構(gòu)

2022-05-26 15:00:36

翻譯模型谷歌

2011-08-04 14:06:25

安全SOC安全運營
點贊
收藏

51CTO技術(shù)棧公眾號