偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="n5m0g"></tr>

<kbd id="n5m0g"></kbd>

<tr id="n5m0g"></tr>

<tr id="n5m0g"></tr>

<meter id="n5m0g"><dfn id="n5m0g"></dfn></meter>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

《Nature》子刊：不僅是語言，機(jī)器翻譯還能把腦波「翻譯」成文字

作者：機(jī)器之心編譯 2020-04-27 10:37:53

新聞人工智能

如果將人腦的神經(jīng)信號也視為一種語言，那么將機(jī)器翻譯架構(gòu)應(yīng)用于解讀神經(jīng)信號的可行性似乎并不令人驚訝。在《Nature Neuroscience》的一篇論文中，來自加州大學(xué)舊金山分校的研究者實(shí)踐了這一想法。

如果將人腦的神經(jīng)信號也視為一種語言，那么將機(jī)器翻譯架構(gòu)應(yīng)用于解讀神經(jīng)信號的可行性似乎并不令人驚訝。在《Nature Neuroscience》的一篇論文中，來自加州大學(xué)舊金山分校的研究者實(shí)踐了這一想法。他們用一個編碼器-解碼器框架將大腦神經(jīng)信號轉(zhuǎn)換為文字，在 250 個詞的封閉句子集中將錯誤率降到了 3%。

ã€ŠNatureã€‹ååˆŠï¼šä¸ä»…æ˜¯è¯è¨€ï¼Œæœºå™¨ç¿»è¯‘è¿˜èƒ½æŠŠè„‘æ³¢ã€Œç¿»è¯‘ã€æˆæ–‡å—

論文鏈接：https://www.nature.com/articles/s41593-020-0608-8

在過去的十年里，腦機(jī)接口（BMI）已經(jīng)從動物實(shí)驗(yàn)轉(zhuǎn)變?yōu)槿祟悓?shí)驗(yàn)，其中具有代表性的結(jié)果是使得四肢癱瘓者恢復(fù)一定的運(yùn)動能力，在空間維度中的兩個自由度上實(shí)現(xiàn)連續(xù)運(yùn)動。盡管這種類型的控制也可以與虛擬鍵盤結(jié)合使用來生成文本，但即使在理想的光標(biāo)控制下（目前尚無法實(shí)現(xiàn)），碼字率仍受限于單指打字。另一種選擇是直接解碼口語，但到目前為止，這種 BMI 僅限于解碼孤立的音素或單音節(jié)，或者在中等數(shù)量詞匯（約 100 單詞）構(gòu)成的連續(xù)語音中，正確解碼不到 40% 的單詞。

為了獲得更高的準(zhǔn)確度，來自加州大學(xué)舊金山分校的研究者利用了「從神經(jīng)活動解碼語音」與「機(jī)器翻譯」兩個任務(wù)之間的概念相似性。這兩種任務(wù)的目標(biāo)都是在同一基礎(chǔ)分析單位的兩種不同表示之間建立映射。更確切地說，二者都是將一個任意長度的序列轉(zhuǎn)化為另一個任意長度的序列（任意是指輸入和輸出序列的長度不同，并且彼此之間沒有決定性的聯(lián)系）。

在這項(xiàng)研究中，研究者試圖一次解碼一個句子，就像當(dāng)下大多數(shù)機(jī)器翻譯算法一樣，因此這兩種任務(wù)實(shí)際上都映射到相同類型的輸出，即一個單詞序列對應(yīng)于一個句子。另一方面，這兩種任務(wù)的輸入是存在很大區(qū)別的：分別是神經(jīng)信號和文本。但是，當(dāng)前機(jī)器翻譯架構(gòu)可以通過人工神經(jīng)網(wǎng)絡(luò)直接從數(shù)據(jù)中學(xué)習(xí)特征，這表明機(jī)器翻譯的端到端學(xué)習(xí)算法幾乎可以直接運(yùn)用于語音解碼。

為了驗(yàn)證這一假設(shè)，在語音生成過程中，研究者利用從腦電圖（ECoG）獲得的神經(jīng)信號以及相應(yīng)口語的轉(zhuǎn)錄，訓(xùn)練了一種「序列到序列」的架構(gòu)。此外，這項(xiàng)任務(wù)和機(jī)器翻譯之間最重要的區(qū)別在于，后者的數(shù)據(jù)集可以包含超過 100 萬個句子，但構(gòu)成該研究基礎(chǔ)的腦電圖研究中的單個參與者通常只提供幾千個句子。

為了在相對不足的訓(xùn)練數(shù)據(jù)中利用端到端學(xué)習(xí)的優(yōu)勢，研究者使用了僅包含 30-50 個不同句子的限制性「語言」，并且在某些情況下，采用了其他參與者的數(shù)據(jù)和其他語音任務(wù)的遷移學(xué)習(xí)。

這項(xiàng)研究的參與者從以下兩個數(shù)據(jù)集之一中大聲朗讀句子：一組圖片描述（30 句，約 125 個不同單詞），通常以一個會話的形式描述；或 MOCHATIMIT14（460 句，約 1800 個不同單詞)，以 50 句分組的會話進(jìn)行（最后一組 60 句），研究者稱之為 MOCHA-1、MOCHA-2 等等。在時間允許的情況下重復(fù)分組會話。對于測試，研究者只考慮了至少重復(fù)三次的句子集（即提供一組用于測試，至少提供兩組用于訓(xùn)練），這在實(shí)踐中將 MOCHA-TIMIT 集限制為 MOCHA-1（50 句，約 250 個不同單詞）。

方法

這里首先簡要描述解碼流程，如下圖所示：

ã€ŠNatureã€‹ååˆŠï¼šä¸ä»…æ˜¯è¯è¨€ï¼Œæœºå™¨ç¿»è¯‘è¿˜èƒ½æŠŠè„‘æ³¢ã€Œç¿»è¯‘ã€æˆæ–‡å—

研究者要求參與者大聲朗讀句子，同時利用高密度 ECoG 網(wǎng)格（ECoG grid）記錄他們 peri-Sylvian 皮質(zhì)的神經(jīng)活動。

在每個電極上，ECoG 信號的高頻分量（70-150Hz，即「high-γ」）的包絡(luò)線（即該范圍內(nèi)分析信號的振幅）在大約 200Hz 處提取。然后將所得的序列（每個對應(yīng)于一個句子）作為輸入數(shù)據(jù)傳遞到「編碼器-解碼器」式的人工神經(jīng)網(wǎng)絡(luò)。

網(wǎng)絡(luò)分三個階段處理序列：

時間卷積：類似的特征很可能在 ECoG 數(shù)據(jù)序列的不同點(diǎn)上重現(xiàn)，全連接的前饋網(wǎng)絡(luò)無法利用這樣的特點(diǎn)。
編碼器 RNN：下采樣序列被 RNN 按序處理。在每個時間步中，編碼器 RNN 的輸入由每個下采樣序列的當(dāng)前樣本以及它自己的先前狀態(tài)組成。然后最終隱藏狀態(tài)（Final hidden state，上圖中的黃色條）提供整個序列的單個高維編碼，與序列長度無關(guān)。為了引導(dǎo)編碼器在訓(xùn)練過程中找到有用的解，研究者還要求編碼器在每個時間步中預(yù)測語音音頻信號的表示，即梅爾頻率倒譜系數(shù)的序列 (MFCCs)。
解碼器 RNN：最后，高維狀態(tài)必須轉(zhuǎn)換回另一個序列，即單詞序列。因此，我們初始化第二個 RNN，然后訓(xùn)練為在每個時間步驟解碼出一個單詞或序列結(jié)束 token（在該點(diǎn)終止解碼）。在輸出序列的每個步驟中，除了自身先前的隱藏狀態(tài)外，解碼器還以參與者實(shí)際說出句子中的前一個單詞作為輸入（在模型訓(xùn)練階段)，或者它自己在前一步預(yù)測的單詞作為輸入 (在測試階段）。與以前針對語音音素進(jìn)行語音解碼的方法相比，該方法將單詞作為目標(biāo)。

ã€ŠNatureã€‹ååˆŠï¼šä¸ä»…æ˜¯è¯è¨€ï¼Œæœºå™¨ç¿»è¯‘è¿˜èƒ½æŠŠè„‘æ³¢ã€Œç¿»è¯‘ã€æˆæ–‡å—

網(wǎng)絡(luò)架構(gòu)

整個網(wǎng)絡(luò)同時進(jìn)行訓(xùn)練，使編碼器生成值接近目標(biāo) MFCC，并使解碼器為每個目標(biāo)詞分配高概率。請注意，MFCC 目標(biāo)提供了一個「輔助損失」，這是一種多任務(wù)學(xué)習(xí)的形式，其目的僅僅是引導(dǎo)網(wǎng)絡(luò)找到解決詞序解碼問題的足夠好的解。在測試期間，MFCC 預(yù)測被丟棄不管，解碼完全基于解碼器 RNN 的輸出。所有的訓(xùn)練都是通過反向傳播的隨機(jī)梯度下降進(jìn)行的，并將 dropout 應(yīng)用于所有的層。

實(shí)驗(yàn)結(jié)果

在整個實(shí)驗(yàn)過程中，研究者用平均單詞錯誤率 (WER，基于所有測試句子計(jì)算) 來量化性能，因此，完美解碼的 WER 為 0%。作為參考，在語音轉(zhuǎn)錄中，5% 的 WER 為專業(yè)水平，20-25% 為可接受的性能。這也是語音識別技術(shù)被廣泛采用的標(biāo)準(zhǔn)，盡管它的參考詞匯量要大得多。

我們首先考慮一個示例參與者說 MOCHA-1 的 50 個句子（大約 250 個不同單詞）時的編碼器-解碼器框架的性能（見下圖）。下圖中參與者的平均 WER 約為 3%。以前最先進(jìn)方法的語音解碼 WER 是 60%，并使用較小的詞匯量（100 詞）進(jìn)行實(shí)驗(yàn)。

ã€ŠNatureã€‹ååˆŠï¼šä¸ä»…æ˜¯è¯è¨€ï¼Œæœºå™¨ç¿»è¯‘è¿˜èƒ½æŠŠè„‘æ³¢ã€Œç¿»è¯‘ã€æˆæ–‡å—

解碼句子的WERs。

編碼器-解碼器網(wǎng)絡(luò)的卓越性能源自什么？為了量化其各種因素的貢獻(xiàn)，研究者系統(tǒng)地刪除或削弱了它們，并從頭開始訓(xùn)練網(wǎng)絡(luò)。上圖中的第二個方框顯示了對數(shù)據(jù)進(jìn)行空間下采樣以模擬較低密度 ECoG 網(wǎng)格的性能。具體來說，只留下了網(wǎng)格兩個維度上四分之一的通道（也就是說，實(shí)際上是 64 個通道，而不是 256 個通道）。WER 大約是原來的四倍，仍然在可用范圍內(nèi)，這表明了除高密度網(wǎng)格外其它因素對于該算法的重要性。

第三個方框內(nèi)顯示當(dāng) MFCC 在訓(xùn)練過程中未被鎖定時的性能，其 WER 與使用低密度網(wǎng)格數(shù)據(jù)訓(xùn)練的模型的 WER 接近，但仍然明顯優(yōu)于先前的語音解碼方法。

接下來，研究者考慮一個輸入層是全連接而不是卷積的網(wǎng)絡(luò)（第四個框），WER 達(dá)到了原來的 8 倍。

然后考慮實(shí)現(xiàn)高性能需要多少數(shù)據(jù)。下圖顯示了四個參與者的 WER，作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練重復(fù)次數(shù)的函數(shù)。沒有任何參與者的訓(xùn)練數(shù)據(jù)總量超過 40 分鐘，當(dāng)至少有 15 次重復(fù)訓(xùn)練時，WER 可能低于 25% 以下。

在下圖中，有兩名參與者，他們在 MOCHA 句子上的訓(xùn)練次數(shù)很少 (參與者 a/綠色實(shí)線，參與者 d/棕色實(shí)線)，因此解碼性能較差。

ã€ŠNatureã€‹ååˆŠï¼šä¸ä»…æ˜¯è¯è¨€ï¼Œæœºå™¨ç¿»è¯‘è¿˜èƒ½æŠŠè„‘æ³¢ã€Œç¿»è¯‘ã€æˆæ–‡å—

責(zé)任編輯：張燕妮來源：機(jī)器之心

機(jī)器翻譯腦機(jī)接口腦波

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="gu9xn"><p id="gu9xn"></p></blockquote>