偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM

發(fā)布于 2024-7-19 12:21
瀏覽
0收藏

Transformer憑借強大的自注意力機制,成為文本、音頻、視頻等模型的基礎(chǔ)架構(gòu)之一。但其計算復雜度隨著序列長度的增加而呈指數(shù)級增長,這在處理長序列數(shù)據(jù)時會出現(xiàn)嚴重的效率問題。


韓國高等科學技術(shù)院的研究人員受最新的Mamba架構(gòu)啟發(fā),開發(fā)了首個沒有自注意力機制純粹狀態(tài)空間的音頻分類模型Audio Mamba(下面簡稱“AUM”)。


狀態(tài)空間是Mamba架構(gòu)的核心功能之一,這是一種用于描述和預測系統(tǒng)狀態(tài)隨時間變化的數(shù)學模型,通過維護一個隱藏狀態(tài)來映射輸入序列到輸出,可幫助模型能夠以線性時間復雜度高效處理數(shù)據(jù),無論序列多長都沒有問題。


論文地址:https://arxiv.org/abs/2406.03344

基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

AUM架構(gòu)簡單介紹

在AUM架構(gòu)中,先通過傅里葉變換方法,將原始的音頻波形首先被轉(zhuǎn)換成頻譜圖。把得到的頻譜圖隨后被劃分成一系列規(guī)則的 “patches”塊。每個patch都是一個正方形矩陣,代表了音頻信號的一個局部特征區(qū)域。通過這種方式,將音頻信號被分解為一系列的局部特征,為后續(xù)的數(shù)據(jù)處理奠定了基礎(chǔ)。

基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

接著,每個patch通過一個線性投影層被嵌入到一個高維空間中。在這個嵌入過程不僅將原始的音頻特征轉(zhuǎn)換為模型可以處理的形式,而且還通過引入一個特殊的分類標記來增強模型的分類能力。


這個分類標記被放置在嵌入序列的中間位置,將作為模型訓練和推理過程中的關(guān)鍵元素,幫助模型集中注意力于音頻數(shù)據(jù)中最重要的部分。


再從序列的末尾開始,通過反向卷積層和狀態(tài)空間模型來提取特征,幫助AUM模型能從不同的角度理解音頻數(shù)據(jù),增強了模型對音頻信號全局上下文的理解能力。

基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

此外,AUM還采用了一種現(xiàn)代化的硬件優(yōu)化掃描方法,能夠從輸入序列的開始到結(jié)束進行單向掃描,同時更新模型的隱藏狀態(tài)。不僅提高了模型的處理效率,還使得模型能夠選擇性地更新其隱藏狀態(tài),從而更有效地捕捉輸入序列中的相關(guān)信息。

實驗測試與數(shù)據(jù)集

為了測試AUM的性能,研究人員使用了AudioSet、VGGSound、VoxCeleb、Speech Commands V2和EPIC-SOUNDS等多個知名音頻數(shù)據(jù)集進行了綜合評估。


這些數(shù)據(jù)集不僅在規(guī)模上有所不同,在音頻樣本的多樣性和復雜性上也各有特點。例如,AudioSet數(shù)據(jù)集包含了超過200萬個10秒長的音頻剪輯,涵蓋了527個不同的標簽;而VGGSound則包含了近20萬個視頻剪輯,每個剪輯都有10秒長,標注了309種不同的聲音類別。

基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

結(jié)果顯示,AuM在AudioSet上的平均精準度達到了32.43%,比知名的Audio Spectrogram Transformers(簡稱“AST”)模型高出3.33%;在VGGSound上,準確率提高到42.58%,比AST提升了5.33%。


在VoxCeleb、Epic-Sounds和Speech Commands V2,AuM也顯示出了卓越的數(shù)據(jù)序列處理性能。

基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

除了性能優(yōu)秀,AuM對計算效率和內(nèi)存消耗也比AST強很多。在處理長序列音頻數(shù)據(jù)時,AuM顯示出了顯著的內(nèi)存效率,這得益于其基于狀態(tài)空間模型的架構(gòu),能夠在保持性能的同時減少內(nèi)存使用。


此外,AuM在推理階段的效率也比AST快,這意味著在實際應用中,AuM能夠提供更快的推理響應,對于需要實時音頻處理的業(yè)務場景尤為重要。


本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/r-03S5PW3l89zphf2IsbyQ??

收藏
回復
舉報
回復
相關(guān)推薦