偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI 看唇語,在嘈雜場景的語音識別準確率高達75%

人工智能 語音識別
為了研究視覺效果,尤其是嘴部動作的鏡頭,是否可以提高語音識別系統(tǒng)的性能。Meta 的研究人員開發(fā)了 Audio-Visual Hidden Unit BERT (AV-HuBERT),這是一個通過觀看學習和聽人們說話來理解語言的框架。

人們通過聆聽和觀察說話者的嘴唇動作來感知言語。

那么,AI 也可以嗎?

 

AI 看唇語,在嘈雜場景的語音識別準確率高達75% 

事實上,研究表明視覺線索在語言學習中起著關(guān)鍵的作用。相比之下,人工智能語言識別系統(tǒng)主要是建立在音頻上。而且需要大量數(shù)據(jù)來訓(xùn)練,通常需要數(shù)萬小時的記錄。

為了研究視覺效果,尤其是嘴部動作的鏡頭,是否可以提高語音識別系統(tǒng)的性能。Meta 的研究人員開發(fā)了 Audio-Visual Hidden Unit BERT (AV-HuBERT),這是一個通過觀看學習和聽人們說話來理解語言的框架。

Meta 聲稱 AV-HuBERT 比使用相同數(shù)量轉(zhuǎn)錄量的最佳視聽語音識別系統(tǒng)準確率高 75%。此外,該公司表示,AV-HuBERT 使用十分之一的標記數(shù)據(jù)優(yōu)于以前最好的視聽語言識別系統(tǒng),這使得它可能對音視頻數(shù)據(jù)很少的語言具有潛在的用途。

Meta AI 研究科學家 Abdelrahman Mohamed 表示:“在未來,像 AV-HuBERT 這樣的 AI 框架可用于提高語音識別技術(shù)在嘈雜的日常條件下的性能,例如,在聚會上或在熙熙攘攘的街頭中進行的互動。智能手機中的助手、增強現(xiàn)實眼鏡和配備攝像頭的智能揚聲器,例如 Alexa Echo Show 也可以在這項技術(shù)中受益。”

目前,Meta 已將相關(guān)代碼開源到 GitHub。

AV-HuBERT

Meta 并不是第一個將人工智能應(yīng)用于讀唇語問題的公司。2016年,牛津大學的研究人員創(chuàng)建了一個系統(tǒng),該系統(tǒng)在某些測試中的準確率幾乎是經(jīng)驗豐富的唇讀者的兩倍,并且可以實時地處理視頻。2017年,Alphabet 旗下的 DeepMind 在數(shù)千小時的電視節(jié)目中訓(xùn)練了一個系統(tǒng),在測試集上可以正確翻譯約 50%的單詞而沒有錯誤,遠高于人類專家的 12.4%。

但是牛津大學和 DeepMind 的模型,與許多后續(xù)的唇讀模型一樣,在它們可以識別的詞匯范圍內(nèi)受到限制。這些模型還需要與轉(zhuǎn)錄本配對的數(shù)據(jù)集才能進行訓(xùn)練,而且它們無法處理視頻中任何揚聲器的音頻。

有點獨特的是, AV-HuBERT 利用了無監(jiān)督或自我監(jiān)督的學習。通過監(jiān)督學習,像 DeepMind 這樣的算法在標記的示例數(shù)據(jù)上進行訓(xùn)練,直到它們可以檢測到示例和特定輸出之間的潛在關(guān)系。例如,系統(tǒng)可能會被訓(xùn)練在顯示柯基的圖片時寫出單詞「dog」。然而,AV-HuBERT 自學對未標記的數(shù)據(jù)進行分類,處理數(shù)據(jù)以從其固有結(jié)構(gòu)中學習。 

AI 看唇語,在嘈雜場景的語音識別準確率高達75% 

AV-HuBERT 也是多模態(tài)的,因為它通過一系列的音頻和唇部動作提示來學習感知語言。通過結(jié)合說話過程中嘴唇和牙齒的運動等線索以及聽覺信息,AV-HuBERT 可以捕捉這兩種數(shù)據(jù)類型之間的細微關(guān)聯(lián)。

最初的 AV-HuBERT 模型在 30 小時的 TED Talk 視頻上進行了訓(xùn)練,大大少于之前最先進模型的 31,000 小時的訓(xùn)練時間。但是,盡管在較少的數(shù)據(jù)上進行了訓(xùn)練,AV-HuBERT 的單詞錯誤率 (WER)(衡量語音識別性能的指標)在可以看到但聽不到說話者的情況下略好于舊模型的 33.6%,前者為 32.5%。(WER 的計算方法是將錯誤識別的單詞數(shù)除以總單詞數(shù);32.5% 轉(zhuǎn)化為大約每 30 個單詞出現(xiàn)一個錯誤。)在 433 小時的 TED 演講訓(xùn)練進一步將 AV-HuBERT 的 WER 降低到 28.6%。

一旦 AV-HuBERT 很好地了解了數(shù)據(jù)之間的結(jié)構(gòu)和相關(guān)性,研究人員就能夠在未標記的數(shù)據(jù)上進一步訓(xùn)練它。上傳到 YouTube 的 2,442 小時名人英語視頻,這不僅使 WER 下降到 26.9%,而且 Meta 表示,它表明只需要少量標記數(shù)據(jù)來訓(xùn)練特定應(yīng)用程序(例如,當多人同時說話時)或不同語言的框架。

事實上,Meta 聲稱當背景中播放響亮的音樂或噪音時,AV-HuBERT 在識別一個人的語音方面比純音頻模型好約 50%,當語音和背景噪音同樣響亮時,AV-HuBERT 的 WER 為 3.2%,而之前的最佳多模式模型為 25.5%。

潛在的缺點

在許多方面來看,AV-HuBERT 象征著 Meta 在用于復(fù)雜任務(wù)的無監(jiān)督、多模式技術(shù)方面不斷增長的投資。

Meta 表示 AV-HuBERT 可以為開發(fā)“低資源”語言的對話模型開辟可能性。該公司建議,AV-HuBERT 還可用于為有語言障礙的人創(chuàng)建語音識別系統(tǒng),以及檢測深度偽造和為虛擬現(xiàn)實化身生成逼真的嘴唇運動。

在各方面數(shù)據(jù)上,新方法的變現(xiàn)著實很精彩,但也有學者有一些擔憂。

其中,華盛頓大學的人工智能倫理學專家Os Keye就提到,對于因患有唐氏綜合征、中風等疾病而導(dǎo)致面部癱瘓的人群,依賴讀唇的語音識別還有意義嗎?

在微軟和卡內(nèi)基梅隆大學的一篇論文中,提出了人工智能公平性研究路線圖,指出類似于 AV-HuBERT 的面部分析系統(tǒng)的某些方面可能不適用于患有唐氏綜合癥、軟骨發(fā)育不全(損害骨骼生長)和“導(dǎo)致特征性面部差異的其他條件”等。

Mohamed 強調(diào) AV-HuBERT 只關(guān)注唇部區(qū)域來捕捉唇部運動,而不是整個面部。他補充說,與大多數(shù) AI 模型類似,AV-HuBERT 的性能將“與訓(xùn)練數(shù)據(jù)中不同人群的代表性樣本數(shù)量成正比”。

“為了評估我們的方法,我們使用了公開可用的 LRS3 數(shù)據(jù)集,該數(shù)據(jù)集由牛津大學研究人員于 2018 年公開提供的 TED Talk 視頻組成。由于該數(shù)據(jù)集不代表殘疾說話者,因此我們沒有預(yù)期性能下降的特定百分比,”Mohamed 說。

Meta 表示,它將“繼續(xù)在背景噪聲和說話者重疊很常見的日常場景中進行基準測試和開發(fā)改進視聽語音識別模型的方法。”

 

責任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2018-06-12 07:15:18

阿里巴巴技術(shù)語音識別

2023-06-21 09:15:30

AI 技術(shù)神經(jīng)網(wǎng)絡(luò)

2020-10-09 08:31:00

AI

2023-04-10 16:06:25

人工智能唇語

2023-04-10 12:51:17

人工智能唇語

2018-11-14 10:01:30

谷歌開源機器學習

2019-01-03 09:04:04

谷歌系統(tǒng)機器

2023-08-15 14:55:57

2023-05-04 09:39:16

AI模型

2024-09-29 16:00:26

2020-04-17 10:35:28

微軟AI系統(tǒng)安全漏洞

2024-11-11 10:00:00

ChatGPT模型

2017-07-20 17:25:42

互聯(lián)網(wǎng)

2021-01-15 14:40:47

人臉識別數(shù)據(jù)技術(shù)

2023-08-08 13:54:15

2025-02-17 10:37:27

2017-09-26 14:07:16

2020-10-29 15:58:43

阿里AI雙11

2020-10-18 12:27:35

人工智能人臉識別技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號