從數(shù)據(jù)集到模型:視頻和音頻情緒分析的綜合研究
情緒分析作為自然語言處理和人工智能領(lǐng)域的重要研究方向,近年來受到了廣泛關(guān)注。情緒分析技術(shù)能夠自動識別和理解文本、音頻、視頻等多種數(shù)據(jù)中的情緒信息,在社交媒體監(jiān)控、客戶服務(wù)、心理健康評估等多個領(lǐng)域具有重要應(yīng)用價值。例如,通過情緒分析,企業(yè)可以更好地了解客戶反饋,改進產(chǎn)品和服務(wù);心理健康專家可以通過分析患者的情緒變化,提供更精確的診斷和治療建議。
然而,單一模態(tài)的情緒分析(如純文本或純音頻)存在一定的局限性。文本情緒分析往往難以捕捉語調(diào)、語速等音頻信息,而音頻情緒分析則可能忽略面部表情、肢體語言等視頻信息。這些信息的缺失可能導(dǎo)致情緒識別的準確性下降。因此,單一模態(tài)的情緒分析在處理復(fù)雜情緒表達時,往往顯得力不從心。
多模態(tài)情緒分析通過綜合利用文本、音頻、視頻等多種數(shù)據(jù)源,能夠更全面、準確地識別和理解情緒信息。12 月 14 日,來自西班牙馬德里IE大學(xué)科學(xué)技術(shù)學(xué)院,銀河生命、機器人和人工智能實驗室研究團隊提出了一種基于視頻和音頻輸入的多模態(tài)情緒分析方法,通過融合視頻和音頻數(shù)據(jù),提升情緒識別的準確性和魯棒性。具體而言,研究團隊設(shè)計了一種多模態(tài)融合模型,能夠有效地整合視頻和音頻特征,從而實現(xiàn)更高效的情緒分析。
研究團隊由來自知名高校和研究機構(gòu)西班牙馬德里IE大學(xué)科技學(xué)院Cyphy Life機器人與人工智能實驗室的專家Antonio Fernandez和Suzan Awinata組成,他們的技術(shù)論文《Multimodal Sentiment Analysis based on Video and Audio Inputs》在第 15 屆新興普適系統(tǒng)和普適網(wǎng)絡(luò)國際會議 (EUSPN 2024) 上以全文形式發(fā)表,展示了研究團隊在多模態(tài)情緒分析領(lǐng)域的最新成果和技術(shù)突破。
研究背景
多模態(tài)情緒分析是一種利用多種數(shù)據(jù)源(如文本、音頻、視頻)來識別和分析情緒的技術(shù)。相比于單一模態(tài),多模態(tài)情緒分析能更全面、準確地捕捉和理解復(fù)雜的情緒表達。隨著計算機視覺、自然語言處理和深度學(xué)習(xí)技術(shù)的發(fā)展,多模態(tài)情緒分析逐漸成為一個重要的研究領(lǐng)域。
早期的情緒分析主要集中在文本數(shù)據(jù)上,通過分析文本內(nèi)容來推測情緒。然而,文本情緒分析受限于缺乏語調(diào)、語速等音頻信息,這些信息在情緒表達中扮演著重要角色。隨之而來的音頻情緒分析,雖然彌補了這一缺陷,但仍然忽略了面部表情和肢體語言等視頻信息。因此,單一模態(tài)的情緒分析在處理復(fù)雜情緒時常常力不從心。
近年來,研究人員開始探索多模態(tài)情緒分析,通過綜合利用音頻、視頻和文本數(shù)據(jù),提高情緒識別的準確性和魯棒性。例如,某些研究利用視頻中的面部表情和音頻中的語調(diào)信息來識別情緒,取得了顯著效果。其他研究則嘗試融合多種模態(tài)的信息,進一步提升模型的性能。
在這一背景下,研究團隊提出了一種基于視頻和音頻輸入的多模態(tài)情緒分析方法。通過使用先進的音頻和視頻模型,他們旨在證明這種多模態(tài)情緒分析方法的有效性。具體而言,他們選用了CREMA-D數(shù)據(jù)集用于音頻模型訓(xùn)練,RAVDESS數(shù)據(jù)集用于視頻模型訓(xùn)練,并分別使用了Facebook的wav2vec2-large模型和Google的vivit-b-16x2-kinetics400模型。
研究團隊的目標是通過綜合利用視頻和音頻數(shù)據(jù),提升情緒識別的準確性和魯棒性。他們設(shè)計了多種融合策略,包括加權(quán)平均法、置信水平閾值法、基于置信度的動態(tài)加權(quán)法和規(guī)則邏輯法,旨在找到最佳的決策框架。
方法論
在多模態(tài)情緒分析的研究中,數(shù)據(jù)集的選取和特征提取方法至關(guān)重要。研究團隊選用了兩個具有代表性的數(shù)據(jù)集,分別用于音頻和視頻情緒識別任務(wù),并采用先進的模型進行特征提取和多模態(tài)融合。
圖1:模塊的整個過程
數(shù)據(jù)集選取及其特點
CREMA-D數(shù)據(jù)集(Crowd-sourced Emotional Multimodal Actors Dataset)是一套廣泛使用的音頻數(shù)據(jù)集,專門用于情緒識別研究。該數(shù)據(jù)集包含7442個聲音片段,由91名演員錄制,這些演員年齡從20到74歲不等,涵蓋了多種種族和族裔背景,如非裔美國人、亞裔、白人、拉丁裔等。
在錄制過程中,演員們被要求大聲朗讀12個預(yù)選句子,每個句子用六種不同情緒(憤怒、厭惡、恐懼、快樂、悲傷、中性)和不同強度(低、中、高、不明確)來表達。音頻片段的標簽包含在文件名中,例如“1001 IEO ANG HI.wav”,其中包括演員ID、句子、情感和情感強度的信息。為了與視頻數(shù)據(jù)集的標簽統(tǒng)一,情感標簽被標準化為anger、disgust、fearful、happy、neutral和sad。
RAVDESS數(shù)據(jù)集(Ryerson Audio-Visual Database of Emotional Speech and Song)是一套高質(zhì)量的視頻數(shù)據(jù)集,用于情緒識別和分析。該數(shù)據(jù)集包含7356個文件,分別由24名專業(yè)演員錄制,這些演員均以標準的北美口音發(fā)音,并表達多種情感。
數(shù)據(jù)集分為四個主要類別:音頻演講、音頻歌曲、視頻演講和視頻歌曲。情感類別包括中性、冷靜、快樂、悲傷、憤怒、恐懼、驚訝和厭惡,每種情感有兩種強度(正常和強烈)。視頻數(shù)據(jù)集中特殊之處在于,每個含音頻的視頻都有一個不含音頻的變體,研究團隊訓(xùn)練時僅使用不含音頻的視頻,以專注于視覺情感的分析。
特征提取方法
在多模態(tài)情緒分析中,音頻和視頻特征的提取是至關(guān)重要的一步。研究團隊分別使用了先進的音頻和視頻模型來提取特征,確保了高質(zhì)量的輸入數(shù)據(jù)。
音頻特征提取采用了Facebook的wav2vec2-large模型。該模型是一種基于多層卷積特征編碼器的音頻模型,可以接收原始音頻輸入,并在固定的時間步內(nèi)輸出潛在的語音表示。通過使用這種模型,可以有效地捕捉和表示音頻中的情感信息,為情緒分析提供強有力的支持。
視頻特征提取使用了Google的vivit-b-16x2-kinetics400模型。這是一種基于變換器的先進視頻分類模型,可以接收視頻幀樣本,并基于訓(xùn)練標簽進行分類。該模型能夠有效地從視頻中提取面部表情、肢體語言等視覺特征,為情緒分析提供了豐富的信息。
多模態(tài)融合策略
為了綜合利用音頻和視頻特征,研究團隊設(shè)計了多種多模態(tài)融合策略,以提升情緒識別的準確性和魯棒性。
加權(quán)平均法通過對每種情感的概率進行縮放和平均,以綜合音頻和視頻模型的預(yù)測結(jié)果。這種方法在兩個模型準確性相似的情況下效果較好,因為可以平衡兩種輸入的權(quán)重,從而提高整體預(yù)測的準確性。
置信水平閾值法根據(jù)視頻模型的置信度優(yōu)先級別來進行決策。如果視頻模型的置信水平超過0.7,則直接采用視頻模型的預(yù)測結(jié)果;否則,使用音頻和視頻概率的平均值作為最終預(yù)測結(jié)果。這種方法在視頻模型較為準確時,能夠充分利用其高置信度的預(yù)測,提高整體預(yù)測的可靠性。
基于置信度的動態(tài)加權(quán)法通過根據(jù)預(yù)測結(jié)果的置信度進行動態(tài)加權(quán)。當模型的預(yù)測置信度較高時,賦予其更大的權(quán)重;當置信度較低時,則賦予較小的權(quán)重。這樣可以根據(jù)不同情感的置信度動態(tài)調(diào)整模型的影響力,提高預(yù)測的精度。
規(guī)則邏輯法通過設(shè)定一系列規(guī)則來綜合模型的預(yù)測結(jié)果。例如,當兩個模型對情感的預(yù)測一致且置信度均超過0.5時,返回一致的情感預(yù)測結(jié)果;否則,根據(jù)置信度較高的模型進行決策。這種方法能夠充分利用模型的一致性,提高預(yù)測的準確性和魯棒性。研究團隊在多模態(tài)情緒分析中,通過選取高質(zhì)量的數(shù)據(jù)集、使用先進的模型進行特征提取,并設(shè)計多種融合策略,力求提高情緒識別的準確性和魯棒性。
實驗設(shè)計與結(jié)果
在研究過程中,實驗設(shè)計和設(shè)置是確保結(jié)果可靠性的關(guān)鍵因素。研究團隊利用Kaggle平臺進行模型訓(xùn)練,有效解決了CUDA環(huán)境問題,保障了模型訓(xùn)練的順利進行。
圖 2:在Kaggle筆記本電腦的多模態(tài)情緒分析測試框架V1[25]、多模態(tài)情感分析測試框架V2[26]和下圖中看到這些測試的結(jié)果。
實驗環(huán)境和設(shè)置
為了確保實驗的可重復(fù)性和可靠性,研究團隊在Kaggle平臺上進行了模型訓(xùn)練。Kaggle提供了良好的硬件資源和環(huán)境支持,特別是在處理CUDA環(huán)境時,可以避免環(huán)境沖突和內(nèi)存溢出等問題。然而,由于免費版本的Kaggle在GPU內(nèi)存方面的限制,研究團隊在訓(xùn)練過程中必須謹慎處理內(nèi)存管理,以防止內(nèi)存超載。
音頻模型訓(xùn)練結(jié)果
音頻模型的訓(xùn)練過程分為幾個關(guān)鍵步驟,首先對數(shù)據(jù)進行探索性數(shù)據(jù)分析(EDA),以深入了解數(shù)據(jù)的分布和特點。隨后,加載模型及其處理器,并修改模型配置以適應(yīng)六種情感標簽。研究團隊創(chuàng)建了兩個函數(shù),分別用于從數(shù)據(jù)中提取特征和標簽,并將其轉(zhuǎn)換為Dataset對象。數(shù)據(jù)集被分為訓(xùn)練集和測試集,測試集占比20%。
在音頻數(shù)據(jù)的預(yù)處理過程中,創(chuàng)建了數(shù)據(jù)整理器和預(yù)處理函數(shù),以確保輸入數(shù)據(jù)的格式正確。最后,研究團隊定義了模型訓(xùn)練的參數(shù),并選擇了步數(shù)作為評估策略,以便持續(xù)監(jiān)測模型性能。在訓(xùn)練過程中,每500步記錄一次模型性能,以跟蹤模型的改進情況。
音頻模型的訓(xùn)練持續(xù)了約1小時15分鐘,共進行了6個epoch,這是在內(nèi)存限制下可以訓(xùn)練的最大epoch數(shù)。訓(xùn)練結(jié)束后,模型在測試集上的準確率達到了72.59%。訓(xùn)練過程中模型性能的詳細數(shù)據(jù)記錄在Kaggle筆記本中,顯示了每500步的訓(xùn)練損失、驗證損失和準確率的變化情況。
視頻模型訓(xùn)練結(jié)果
視頻模型的訓(xùn)練過程采用了類似的步驟。首先,對數(shù)據(jù)進行EDA,以了解數(shù)據(jù)的基本分布情況。由于RAVDESS數(shù)據(jù)集中情感類別較多,研究團隊刪除了冷靜和驚訝情感,以保持與音頻數(shù)據(jù)集一致的六種情感標簽。
隨后,創(chuàng)建了用于處理標簽預(yù)處理的函數(shù),并從vivit transformers文檔中修改了兩個函數(shù),以將視頻幀調(diào)整為224x224像素,確保與模型兼容。另一個函數(shù)則用于從視頻中選擇合適的幀進行訓(xùn)練。數(shù)據(jù)集被分為訓(xùn)練集和測試集,測試集占比20%,并創(chuàng)建了數(shù)據(jù)加載器,以防止Kaggle GPU過載。
視頻模型的訓(xùn)練持續(xù)了約7小時,共進行了10個epoch。訓(xùn)練結(jié)束后,模型的訓(xùn)練損失為0.1460,驗證損失為0.4049,顯示了模型在訓(xùn)練過程中的穩(wěn)定性和良好的性能。
多模態(tài)框架的測試結(jié)果
在測試多模態(tài)情緒分析框架時,研究團隊設(shè)計了多種融合策略,包括加權(quán)平均法、置信水平閾值法、基于置信度的動態(tài)加權(quán)法和規(guī)則邏輯法。每種方法的性能進行了詳細的對比分析。
加權(quán)平均法通過對每種情感的概率進行縮放和平均,綜合了音頻和視頻模型的預(yù)測結(jié)果。在兩個模型準確性相似的情況下,這種方法表現(xiàn)出色。
置信水平閾值法根據(jù)視頻模型的置信度優(yōu)先級別進行決策。如果視頻模型的置信水平超過0.7,則直接采用視頻模型的預(yù)測結(jié)果;否則,使用音頻和視頻概率的平均值作為最終預(yù)測結(jié)果。該方法在視頻模型較為準確時,能夠充分利用其高置信度的預(yù)測。
基于置信度的動態(tài)加權(quán)法通過根據(jù)預(yù)測結(jié)果的置信度進行動態(tài)加權(quán)。當模型的預(yù)測置信度較高時,賦予其更大的權(quán)重;當置信度較低時,則賦予較小的權(quán)重。這樣可以根據(jù)不同情感的置信度動態(tài)調(diào)整模型的影響力,提高預(yù)測的精度。
規(guī)則邏輯法通過設(shè)定一系列規(guī)則來綜合模型的預(yù)測結(jié)果。例如,當兩個模型對情感的預(yù)測一致且置信度均超過0.5時,返回一致的情感預(yù)測結(jié)果;否則,根據(jù)置信度較高的模型進行決策。
討論
多模態(tài)情緒分析通過結(jié)合視頻和音頻輸入,能夠更全面地捕捉情感信息,從而顯著提升情緒識別的效果。這一優(yōu)勢在于能夠利用多種信號源,彌補單一模態(tài)的局限性。例如,音頻信號中的語調(diào)和語速可以揭示語者的情感狀態(tài),而視頻信號中的面部表情和肢體語言則提供了視覺上的情感線索。兩者結(jié)合,使得情緒識別變得更加準確和魯棒。
多模態(tài)情緒分析也面臨著一些挑戰(zhàn)。首先是數(shù)據(jù)的多樣性和質(zhì)量問題。現(xiàn)有的數(shù)據(jù)集往往是在控制環(huán)境下收集的,這意味著模型可能難以在實際應(yīng)用中推廣。這種數(shù)據(jù)集的局限性主要表現(xiàn)為兩個方面:文化背景的單一性和環(huán)境條件的穩(wěn)定性。在單一文化背景下收集的數(shù)據(jù),可能無法代表不同文化中的情感表達方式,從而導(dǎo)致模型在跨文化應(yīng)用中的泛化能力不足。而在控制環(huán)境下收集的數(shù)據(jù),缺乏自然環(huán)境中的變化,如不同的光線條件、背景干擾等,這也可能限制模型在實際環(huán)境中的適用性。
為了克服這些局限性,未來的研究需要在數(shù)據(jù)多樣性和自然環(huán)境采集方面進行改進。一方面,增加數(shù)據(jù)集的多樣性,特別是收集來自不同文化背景和環(huán)境條件的數(shù)據(jù),可以幫助模型更好地適應(yīng)各種情感表達方式。另一方面,在自然環(huán)境中收集數(shù)據(jù),有助于模型處理復(fù)雜的現(xiàn)實場景,提高其魯棒性。此外,結(jié)合更多模態(tài)信息(如文本數(shù)據(jù))和改進多模態(tài)融合策略,也是未來研究的重要方向。
目前的多模態(tài)情緒分析模型雖然在特定條件下表現(xiàn)良好,但其實際應(yīng)用還需進一步驗證和優(yōu)化。例如,在模型的設(shè)計和訓(xùn)練過程中,可以引入更多的優(yōu)化技術(shù),如增強學(xué)習(xí)、自適應(yīng)學(xué)習(xí)等,以提高模型的適用性和泛化能力。同時,進一步的研究也應(yīng)關(guān)注多模態(tài)情緒分析在實際應(yīng)用中的可行性和效果,如在心理健康輔助、客戶服務(wù)提升等領(lǐng)域的具體應(yīng)用。
未來工作與展望
在基于視頻和音頻輸入的多模態(tài)情緒分析研究中,還有許多可探索的方向和潛在應(yīng)用。通過不斷創(chuàng)新和改進,我們可以進一步提升模型的性能和實際應(yīng)用效果。
引入第三個基于音頻轉(zhuǎn)錄文本的情緒識別模型
目前的研究主要集中在音頻和視頻輸入的融合上,而忽略了文本信息的潛力。音頻的轉(zhuǎn)錄文本可以提供豐富的語義信息,對于情緒識別也有重要的輔助作用。未來的研究可以考慮引入一個基于自然語言處理技術(shù)的情緒識別模型,對音頻的轉(zhuǎn)錄文本進行分析。這種方法可以綜合三種模態(tài)的信息,進一步提高情緒識別的準確性。例如,可以結(jié)合BERT等先進的文本分析模型,對轉(zhuǎn)錄文本進行細致的情感分析,與音頻和視頻模型的結(jié)果進行融合。通過實驗,測量三種模型的組合效果,以及音頻-文本、音頻-視頻、文本-視頻等不同對組合的性能,找出最佳的融合方案。
結(jié)合多模態(tài)模型在心理健康輔助機器人中的應(yīng)用前景
多模態(tài)情緒分析不僅在情緒識別方面具有重要意義,在心理健康領(lǐng)域也有廣泛的應(yīng)用前景。隨著心理健康問題日益受到關(guān)注,智能助手和輔助機器人在心理健康干預(yù)中的作用也越來越重要。通過將多模態(tài)情緒分析模型應(yīng)用于輔助機器人中,可以幫助其更好地理解和響應(yīng)用戶的情感狀態(tài),為心理健康治療提供支持。
例如,未來可以開發(fā)一種智能心理健康輔助機器人,通過實時視頻和音頻輸入,分析用戶的情緒變化,提供及時的心理干預(yù)。這種機器人可以在與用戶對話時,實時捕捉和分析用戶的表情、語音特征和語義信息,生成對用戶情感狀態(tài)敏感的回應(yīng),增強用戶的心理舒適感和信任度。同時,這種機器人還可以記錄和分析用戶的情緒變化數(shù)據(jù),為心理健康專家提供參考,幫助制定更有效的治療方案。
法律和倫理考慮
在開發(fā)和應(yīng)用情緒識別技術(shù)時,必須考慮法律和倫理問題。尤其是在歐盟,情緒識別系統(tǒng)被認為是高風(fēng)險技術(shù)。根據(jù)2024年歐洲議會通過的人工智能法案,情緒識別系統(tǒng)由于其有限的泛化能力和潛在的歧視風(fēng)險,被認為是高風(fēng)險技術(shù)。因此,研究團隊在開發(fā)和應(yīng)用這些技術(shù)時,必須確保符合倫理和法律要求,避免濫用和隱私侵犯。
為了確保技術(shù)的合法和倫理應(yīng)用,未來的研究需要與法律專家密切合作,確保技術(shù)的開發(fā)和應(yīng)用符合相關(guān)法規(guī)。同時,在設(shè)計和應(yīng)用情緒識別系統(tǒng)時,應(yīng)重視用戶隱私保護,建立透明的數(shù)據(jù)使用和管理機制,確保用戶數(shù)據(jù)的安全性和隱私性。此外,在應(yīng)用于心理健康輔助領(lǐng)域時,必須確保技術(shù)的使用不對用戶造成二次傷害,建立嚴格的倫理審查和監(jiān)管機制,保障用戶的權(quán)益。
基于視頻和音頻輸入的多模態(tài)情緒分析在未來具有廣泛的研究和應(yīng)用前景,通過引入更多模態(tài)的信息、結(jié)合心理健康輔助機器人等實際應(yīng)用,并在法律和倫理框架內(nèi)進行技術(shù)開發(fā),可以進一步提升情緒識別的性能和應(yīng)用效果,推動這一領(lǐng)域的發(fā)展與創(chuàng)新。(END)
參考資料:https://arxiv.org/abs/2412.09317
