偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于注意力長短期記憶的語音可理解度分類系統(tǒng)

人工智能
基于 LSTM 網(wǎng)絡(luò)和 log-mel 譜圖的自動語音清晰度分類系統(tǒng),結(jié)合注意力機制,能夠有效地預(yù)測語音清晰度水平。該系統(tǒng)在性能上顯著優(yōu)于傳統(tǒng)的 SVM 模型,并展現(xiàn)出良好的應(yīng)用前景。

引   言

在大多數(shù)人生活中,語音是最主要的交流方式。然而,不幸的是,語音質(zhì)量常受多種因素影響,包括聽力損失、背景噪音干擾、設(shè)備故障,甚至是某些生理狀況導(dǎo)致的語音系統(tǒng)障礙。語音的清晰度則是衡量在特定條件下(如上述影響因素)語音可理解程度的重要標準。

本文探討了由于生理因素導(dǎo)致的語音質(zhì)量下降,尤其是在構(gòu)音障礙的情況下,如何自動估計語音的清晰度水平。文章翻譯自《An attention Long Short-Term Memory based system for automatic classification of speech intelligibility》[1]。

構(gòu)音障礙(dysarthria)是指由于神經(jīng)病變,與言語有關(guān)的肌肉麻痹、收縮力減弱或運動不協(xié)調(diào)所致的言語障礙,它是一種運動性言語障礙,其特征包括音素發(fā)音相關(guān)肌肉運動的失控,導(dǎo)致說話速度改變、言語不連貫、音素重復(fù)、音量和音調(diào)變化過大以及鼻音等癥狀。這種障礙可能由多種疾病引起,如腫瘤、腦損傷、中風、帕金森病或肌萎縮性側(cè)索硬化癥等退行性疾病。

構(gòu)音障礙不僅阻礙了患者的正常交流,還可能對患者心理造成傷害,因為他們無法有效表達自己的想法和感情。在這種情況下,準確測量語音的清晰度對于治療和監(jiān)測手段至關(guān)重要,例如評估患者接受特定言語治療或醫(yī)療干預(yù)后的效果。

目前,確定語音清晰度的“金標準”包括一系列標準測試,患者在測試中發(fā)出特定的單詞或聲音組合,然后由專家進行主觀評估,評估語音的可理解程度。然而,這些測試可能存在主觀性問題,因為醫(yī)生的評估依賴于其聽力技能和對病理性言語的熟悉程度,導(dǎo)致可能高估或低估語音清晰度。

為了解決這些問題,本研究旨在開發(fā)一種客觀、自動且非侵入式的系統(tǒng),通過分析構(gòu)音障礙患者的語音來預(yù)測其語音清晰度水平(低、中、高)。該系統(tǒng)基于深度學習(DL)范式,特別是基于長短期記憶(LSTM)網(wǎng)絡(luò)。LSTM 網(wǎng)絡(luò)與注意力機制結(jié)合,能夠有效建模每個時間幀對最終決策的貢獻,從而提高系統(tǒng)的性能和預(yù)測精度。

通過這種方法,自動化測量語音清晰度不僅可以節(jié)省醫(yī)生的時間,使其可以更好地關(guān)注其他患者或進行其他醫(yī)療活動,還能提供更一致和客觀的評估結(jié)果。這對于改善言語治療的效果評估以及促進構(gòu)音障礙患者的生活質(zhì)量具有重要意義。

相關(guān)工作

先前關(guān)于病理性語音清晰度自動預(yù)測的研究可分為兩大類方法:侵入式或非盲方法,以及非侵入式或盲方法。侵入式方法通常依賴于健康參考語音模型,如高斯混合模型、iVectors或頻譜基,通過比較病理性語音與健康模型的差異來評估清晰度。另一種方法假設(shè)病理性語音會降低基于健康語音訓(xùn)練的自動語音識別性能,如通過詞錯誤率等特征進行評估。然而,這些方法需要大量平衡的健康數(shù)據(jù),這在實際應(yīng)用中可能限制了其可行性。

非侵入式或盲方法則通常涉及手工特征提取和機器學習算法,如支持向量機或隨機森林,用于分析語音特征并預(yù)測清晰度水平。這些方法的優(yōu)勢在于不需要健康語音數(shù)據(jù),但需要精心設(shè)計的特征提取和分類器選擇來獲得良好的性能。

文章致力于開發(fā)一種新型的自動且非侵入式系統(tǒng),用于評估病理性語音的清晰度水平,特別是在沒有健康語音參考數(shù)據(jù)的情況下。這一創(chuàng)新方法基于深度學習技術(shù),具體使用了長短期記憶網(wǎng)絡(luò)(LSTM),這些網(wǎng)絡(luò)能夠有效地建模語音信號的時間序列特征。同時,引入注意力模型進一步改善了系統(tǒng)的性能,通過對每個時間幀的重要性進行建模,使得系統(tǒng)能夠更精確地預(yù)測語音清晰度。

深度學習技術(shù)在語音處理領(lǐng)域已經(jīng)取得了顯著進展,例如在自動語音識別、語音情感識別和認知負荷分類中的成功應(yīng)用。這些技術(shù)的高效性和靈活性使它們成為處理復(fù)雜語音數(shù)據(jù)和識別語音障礙的理想工具。通過文中提出的方法,研究人員可以更準確地評估病理性語音的清晰度,從而為言語治療和醫(yī)療干預(yù)提供更可靠的評估工具。

總結(jié)而言,該文章的創(chuàng)新在于提出了一種基于深度學習和注意力機制的自動語音清晰度評估系統(tǒng),該系統(tǒng)克服了傳統(tǒng)方法中對健康語音數(shù)據(jù)依賴的限制,并在實驗結(jié)果中顯示出顯著的性能優(yōu)勢,這對于未來進一步研究和臨床應(yīng)用具有重要意義。

語音清晰度分類系統(tǒng)

文中開發(fā)的兩種系統(tǒng),旨在將說話者的清晰度分為三類:低、中和高。一方面,第一種系統(tǒng)用作參考,包括提取不同的手工聲學特征集和 SVM 作為分類器。另一方面,第二種系統(tǒng),即我們對該任務(wù)的提議,使用對數(shù)梅爾譜圖作為輸入,并使用 LSTM 網(wǎng)絡(luò)進行分類。這兩種方法都遵循類似的步驟序列,為了更清晰地了解這項工作,圖 1 顯示了一個包含這些階段的框圖。

圖 1 語音可理解程度分類系統(tǒng)的框圖圖 1 語音可理解程度分類系統(tǒng)的框圖

1.預(yù)處理

預(yù)處理步驟包括對原始音頻信號應(yīng)用語音活動檢測器 (VAD),以去除靜音/噪聲幀。此階段背后的基本原理是,理論上,非語音幀不會傳達有關(guān)清晰度水平的信息。但是,正如前面所述,去除非語音區(qū)域會對系統(tǒng)的性能產(chǎn)生負面影響。因此,在兩種情況下都進行了實驗:有 VAD 和沒有 VAD。

2.特征提取

對于參考系統(tǒng),提取了三組不同的聲學特征:(i) 梅爾頻率倒譜系數(shù) (MFCC) 及其一階導(dǎo)數(shù);(ii) 調(diào)制譜的平均能量;(iii) 在中提出的特征集。對于基于 LSTM 的系統(tǒng),使用對數(shù)梅爾譜圖作為聲學特征。以下小節(jié)中,將簡要介紹所有這些特征。

 MFCC 及其一階導(dǎo)數(shù)

MFCC是自動語音和說話人識別以及音頻分類任務(wù)中最流行的特征提取程序。因此,這些參數(shù)已針對所考慮的任務(wù)進行了嘗試。MFCC 是通過對語音信號的對數(shù)梅爾譜圖應(yīng)用離散余弦變換 (DCT) 來逐幀提取的。計算出 MFCC 后,將它們的一階導(dǎo)數(shù)添加到最終的聲學向量中。

調(diào)制譜的平均能量

這組特征源自語音信號的調(diào)制譜,該譜測量了語音信號在不同調(diào)制頻率下的波動。調(diào)制譜包含有關(guān)病理性語音中可能出現(xiàn)的幾種現(xiàn)象的信息,例如非習慣性的強度和速度變化、不精確的共發(fā)音或中斷和不流暢。

調(diào)制譜是通過使用 Falk 等人提出的方法,從音頻信號的頻譜時間表示中計算出來。其中,對應(yīng)于每個聲學頻帶的時間包絡(luò)用特定的調(diào)制濾波器組進行濾波,從而獲得所謂的調(diào)制能量。最終的特征集由這些能量在所有語音幀上的平均值組成。圖 2 顯示了兩個不同語音記錄中調(diào)制能量平均值的兩個示例,其中橫軸和縱軸分別表示調(diào)制頻率和聲學頻率??梢杂^察到,對于病理性說話者,調(diào)制能量通常高度集中在低調(diào)制頻率,如圖 2 (b) 中的示例所示,而對于高清晰度說話者,調(diào)制能量分布在更寬的頻率區(qū)域,如圖 2 (a) 中的示例所示。

圖2  (a)高清晰度和(b)低清晰度語音記錄的調(diào)制頻譜的平均能量。這兩句話都對應(yīng)于“jowls”這個詞

Falk 的特征

這組聲學特征最初是Falk 等人提出的,用于清晰度水平預(yù)測。它包含以下六個特征:

零階 MFCC 一階導(dǎo)數(shù)的標準差。該參數(shù)與信號的對數(shù)能量相關(guān),可用于檢測語音強度中的異常。

線性預(yù)測殘差的峰度。該特征可以提供有關(guān)聲音嘶啞、音量損失或聲音氣喘的信息。

低調(diào)制與高調(diào)制比率 (LHMR)。該參數(shù)是對語音信號調(diào)制譜中包含的信息的總結(jié)。特別是,它是一個商,比較了低調(diào)制頻率(小于 4 Hz)和高調(diào)制頻率(大于 4 Hz)處的調(diào)制譜能量。

三個與韻律相關(guān)的特征:話語中濁音段的百分比,以及基頻的標準差和范圍。第一個特征可以提供有關(guān)由于發(fā)聲器官障礙導(dǎo)致的濁音發(fā)音異常的信息。第二個和第三個參數(shù)有助于檢測單調(diào)語音(構(gòu)音障礙的一種癥狀)以及聲音中的顫抖和震顫。

對數(shù)梅爾譜圖

最后一組特征對應(yīng)于音頻信號的譜圖,該譜圖首先使用由梅爾尺度濾波器組成的聽覺濾波器組映射到梅爾頻率間距,然后轉(zhuǎn)換為對數(shù)尺度。梅爾尺度是一種頻率扭曲,試圖模擬人類聽覺在不同頻率下的非均勻敏感性。

3.分類器

一般的分類器主要分為SVM和LSTM。SVM主要采用一對一策略和高斯核。LSTM 是一種專門設(shè)計用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),具有記憶單元和門控機制,可以有效地處理長期依賴關(guān)系。在文章中,作者設(shè)計了幾種不同的 LSTM 架構(gòu)來進行分類任務(wù),包括基本 LSTM、LSTM with Mean-Pooling 和 LSTM with Attention-Pooling。

這些 LSTM 架構(gòu)會接受音頻記錄中的特征作為輸入,并通過訓(xùn)練學習特征之間的關(guān)系,從而對音頻記錄進行分類。訓(xùn)練過程中,使用了隨機梯度下降和 Adam 優(yōu)化方法來調(diào)整網(wǎng)絡(luò)參數(shù),以使模型能夠更好地擬合數(shù)據(jù)。此外,在某些架構(gòu)中還實施了 dropout 技術(shù),以減少過度擬合現(xiàn)象。

在實現(xiàn) LSTM with Attention-Pooling 架構(gòu)時,還引入了注意力機制,用于動態(tài)地計算每個 LSTM 幀的權(quán)重,以便更加關(guān)注對分類任務(wù)有重要影響的幀。這有助于提高模型的性能和準確率。

實    驗

1.數(shù)據(jù)庫

用于實驗的數(shù)據(jù)集是 UA-Speech 數(shù)據(jù)庫,包含 15 人患有不同程度構(gòu)音障礙和 13 名健康對照組人員的錄音。音頻以 16 KHz 頻率使用 7 個麥克風錄制,包括數(shù)字、計算機命令、簡單詞語、復(fù)雜詞語和無線電字母表。數(shù)據(jù)庫中的語音根據(jù)專家聽錄音并寫下理解的單詞百分比進行醫(yī)學測試,得到清晰度得分,范圍為 0 到 100,經(jīng)修改后分為低清晰度、中等清晰度和高清晰度三個類別。實驗未使用健康對照組的音頻,僅考慮第六個麥克風上的語音信號,總文件數(shù)量為 9,140 個。實驗以說話者無關(guān)方式配置,訓(xùn)練集、驗證集和測試集中包含不同的說話者,避免模型學習說話者身份或環(huán)境聲學條件而非清晰度水平。

2.預(yù)處理和特征提取

在預(yù)處理階段,對語音信號進行分幀和加窗,并使用 VAD(語音活動檢測)來去除靜音片段。特征提取方面,參考系統(tǒng)使用了三種特征:MFCC 和其一階導(dǎo)數(shù)、調(diào)制譜的平均能量以及 Falk’s features。LSTM 系統(tǒng)則使用 log-mel spectrogram 特征,該特征包含 32 個 log-Mel 濾波器能量,每 10 毫秒計算一次。

3.分類器

參考系統(tǒng)使用 SVM 分類器,采用 one-vs-all 策略和高斯核函數(shù)。LSTM 系統(tǒng)則使用了三種不同的 LSTM 架構(gòu):Basic LSTM、LSTM Mean-Pooling 和 LSTM Attention-Pooling。

4.結(jié)果

實驗結(jié)果表明,LSTM 系統(tǒng)在該任務(wù)中取得了更好的性能,特別是 LSTM Attention-Pooling 架構(gòu),其準確率達到了 76.97%±0.28%,顯著優(yōu)于參考系統(tǒng)。Mean-Pooling 策略進一步也提升了 LSTM 模型的性能,表明 LSTM 框架中的所有幀都包含有價值的信息,不應(yīng)完全舍棄。而注意力機制通過學習語音片段的重要性,進一步提升了 LSTM 模型的性能,表明該機制在處理語音清晰度分類任務(wù)中具有顯著的優(yōu)勢。最后,VAD 預(yù)處理步驟對于語音清晰度分類任務(wù)的性能提升并不顯著,甚至可能導(dǎo)致性能下降。這表明沉默片段和語音中的其他人工制品(如口吃或猶豫)可能包含有關(guān)語音清晰度的重要信息。

圖片圖片

表:基于lstm的分類器實現(xiàn)的分類率[%]

結(jié)論

研究表明,基于 LSTM 網(wǎng)絡(luò)和 log-mel 譜圖的自動語音清晰度分類系統(tǒng),結(jié)合注意力機制,能夠有效地預(yù)測語音清晰度水平。該系統(tǒng)在性能上顯著優(yōu)于傳統(tǒng)的 SVM 模型,并展現(xiàn)出良好的應(yīng)用前景。

參考文獻

1. Fernández-Díaz M, Gallardo-Antolín A. An attention Long Short-Term Memory based system for automatic classification of speech intelligibility[J]. Engineering Applications of Artificial Intelligence, 2024, 96: 103976.

責任編輯:武曉燕 來源: 中國保密協(xié)會科學技術(shù)分會
相關(guān)推薦

2025-02-20 00:28:59

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機器學習

2025-01-13 08:23:07

LLMMHAMLP

2022-02-21 09:25:57

VR研究Nature

2024-09-19 10:07:41

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡(luò)算法

2025-03-06 09:25:00

DeepSeek模型訓(xùn)練

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2011-07-07 13:12:58

移動設(shè)備端設(shè)計注意力

2025-02-10 00:00:55

MHAValue向量

2023-10-07 07:21:42

注意力模型算法

2021-05-06 15:55:01

谷歌Android開發(fā)

2025-02-17 13:00:00

2024-06-28 08:04:43

語言模型應(yīng)用

2024-02-19 00:12:00

模型數(shù)據(jù)

2024-10-31 10:00:39

注意力機制核心組件

2022-03-25 11:29:04

視覺算法美團

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡(luò)PyTorch

2025-02-07 16:15:27

2024-11-08 15:00:00

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號