偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

新聞
快手研究團(tuán)隊(duì)聯(lián)合清華大學(xué)研究人員提出了一種基于音頻信號(hào)的語(yǔ)種識(shí)別新方法。

  [[420599]]

快手研究團(tuán)隊(duì) MMU(Multimedia understanding)聯(lián)合清華大學(xué)研究人員提出了一種基于音頻信號(hào)的語(yǔ)種識(shí)別新方法。該方法自研一種動(dòng)態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)動(dòng)態(tài)卷積核、局部多尺度學(xué)習(xí)和全局多尺度池化技術(shù)來(lái)捕獲全局和局部上下文的語(yǔ)種 / 方言信息。目前該論文已經(jīng)被國(guó)際頂級(jí)語(yǔ)音會(huì)議 Interspeech2021 所接收。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

論文鏈接:https://www.researchgate.net/publication/353652910_Dynamic_Multi-scale_Convolution_for_Dialect_Identification

語(yǔ)種識(shí)別是指從一段說(shuō)話語(yǔ)音中識(shí)別出語(yǔ)種(或方言)的類(lèi)別,如日語(yǔ)、韓語(yǔ)、普通話、粵語(yǔ)等。語(yǔ)種識(shí)別技術(shù)的應(yīng)用非常廣泛,不僅可以作為多語(yǔ)言語(yǔ)音識(shí)別(ASR)和多語(yǔ)言翻譯系統(tǒng)的前端預(yù)處理模塊,也可以用于定向廣告和生物特征驗(yàn)證。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的興起,語(yǔ)種識(shí)別在工業(yè)界和學(xué)術(shù)界都得到廣泛的關(guān)注。幾年前,x-vector 是語(yǔ)種(或方言)識(shí)別的主流方法。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于 DNN 的語(yǔ)種識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了快速的迭代,從最初的 TDNN 到 D-TDNN,再到 Ecapa-TDNN 以及 ResNet 網(wǎng)絡(luò)結(jié)構(gòu),語(yǔ)種(或方言)識(shí)別性能獲得顯著提升。

為了有效捕獲音頻中的上下文語(yǔ)種信息,進(jìn)一步提升語(yǔ)種識(shí)別性能,快手研究團(tuán)隊(duì) MMU(Multimedia understanding)聯(lián)合清華大學(xué)研究人員提出了一種基于音頻信號(hào)的語(yǔ)種識(shí)別新方法。該方法自研一種動(dòng)態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)動(dòng)態(tài)卷積核、局部多尺度學(xué)習(xí)和全局多尺度池化技術(shù)來(lái)捕獲全局和局部上下文的語(yǔ)種 / 方言信息。具體來(lái)說(shuō),引入動(dòng)態(tài)卷積核的方法,模型能夠自適應(yīng)地捕獲短期和長(zhǎng)期上下文之間的特征;局部多尺度學(xué)習(xí)在細(xì)粒度級(jí)別表示多尺度特征,能夠增加卷積運(yùn)算的感受野范圍,同時(shí)使模型參數(shù)量大幅下降;全局多尺度池化用于聚合來(lái)自模型不同瓶頸層的語(yǔ)種 / 方表征。文章的貢獻(xiàn)包括如下 3 點(diǎn):

1. 第一次將動(dòng)態(tài)卷積核引入語(yǔ)種 / 方言識(shí)別領(lǐng)域。

2. 局部多尺度學(xué)習(xí),在更細(xì)粒度層面上對(duì)多尺度特征進(jìn)行表征學(xué)習(xí)。

3. 全局多尺度池化,能夠聚合模型多個(gè)層次的特征。

針對(duì) 2020 年?yáng)|方語(yǔ)種識(shí)別 (OLR2020) 挑戰(zhàn)賽的 AP20-OLR 語(yǔ)種識(shí)別任務(wù),所提語(yǔ)種識(shí)別新方法取得了平均代價(jià)損失 (Cavg) 為 0.067,等誤差率 (EER) 為 6.52% 的成績(jī)。相比 OLR2020 挑戰(zhàn)賽中的最優(yōu)(SOTA,state-of-the-art)識(shí)別系統(tǒng),所提語(yǔ)種識(shí)別新方法獲得了 9% 的 Cavg 和 45% 的 EER 相對(duì)提升,而且模型參數(shù)減少了 91%,性能顯著優(yōu)于 SOTA 系統(tǒng)。目前該論文已經(jīng)被國(guó)際頂級(jí)語(yǔ)音會(huì)議 Interspeech2021 所接收。

方法介紹

快手 MMU 和清華自研的動(dòng)態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu)框圖如圖 1 所示,為了簡(jiǎn)化,批歸一化層 BatchNormalization (BN) 和 ReLU 激活函數(shù)已省略。從圖中可以看出,動(dòng)態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu)采用 D-TDNN 網(wǎng)絡(luò)作為基本骨架,將第一個(gè) D-TDNN 層修改為動(dòng)態(tài)多尺度卷積塊,它在粒度級(jí)別上表示局部多尺度特征,并增加了卷積運(yùn)算的感受野范圍。此外,全局多尺度池化方法聚合了不同的瓶頸層特征,以便從多個(gè)方面收集信息。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

圖 1: 動(dòng)態(tài)多尺度卷積結(jié)構(gòu)。在圖中,"Multi-scale Dk Block" 指的是全局和局部多尺度動(dòng)態(tài)卷積核模塊,"Multi-scale Dk Conv" 指的是局部多尺度動(dòng)態(tài)卷積核操作。綠色的 "C" 定義了 "拼接" 操作。

1. 動(dòng)態(tài)卷積核

動(dòng)態(tài)卷積核(Dk Conv)是一種基于 Softmax 注意力的動(dòng)態(tài)通道選擇機(jī)制,具體結(jié)構(gòu)如圖 2 所示。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

圖 2:動(dòng)態(tài)卷積核 (Dk Conv) 模塊。

從圖中看出,網(wǎng)絡(luò)結(jié)構(gòu)具體描述為:高階統(tǒng)計(jì)池化層(HOSP)- 線性層 - 線性層 - Softmax,其中 HOSP 目的是從空間維度收集通道信息,其它神經(jīng)網(wǎng)絡(luò)模塊是為了評(píng)估不同分支的重要性。卷積的多分支擴(kuò)展能夠使模型自適應(yīng)地捕獲短期和長(zhǎng)期上下文之間不同的方言表征。

2. 局部多尺度學(xué)習(xí)

受 Res2Net 中層內(nèi)殘差連接的啟發(fā),該團(tuán)隊(duì)采用局部多尺度學(xué)習(xí)來(lái)提高卷積操作的表征能力。局部多尺度學(xué)習(xí)是指在卷積中實(shí)現(xiàn)更細(xì)粒度的多個(gè)可用感受野。如圖 3 所示,作者將特征平均分成 s 個(gè)特征子集,用 Xi 表示,其中 i∈[1,2,...,s]。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

圖 3: 局部多尺度學(xué)習(xí)。在圖中,"Dk Conv" 表示動(dòng)態(tài)卷積核操作,⊕表示逐元素相加

一組過(guò)濾器首先從相應(yīng)的特征子集中提取特征。然后將前一組的輸出特征與另一組輸入特征一起發(fā)送到下一組過(guò)濾器:

其中 F 表示 Dk Conv 的操作。在 Multi-scale Dk Block 中,Dk Conv 過(guò)濾器的數(shù)量是 D-TDNN 層通道數(shù)的 1/s 倍。所有的 F 操作完結(jié)后,可以得到 Outi 的串聯(lián)作為當(dāng)前模塊的輸出:

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

最后,在處理完這些特征集合后,將所有組的特征按照通道數(shù)連接起來(lái)并發(fā)送到下一個(gè)操作以融合信息。通過(guò)引入超參數(shù) s,局部多尺度學(xué)習(xí)(在粒度級(jí)別表示多尺度特征)被證明可以有效地增加卷積運(yùn)算的感受野范圍。此外,隨著每一個(gè)尺度卷積濾波器數(shù)量的減少,模型參數(shù)量也得到了顯著下降。

3. 全局多尺度池化

前人的工作得出結(jié)論:不同層的特征聚合可以提高聲紋識(shí)別任務(wù)中說(shuō)話人表征的區(qū)分性。瓶頸特征是一種高層次的信息聚合。因此在通道維度上聚合不同的瓶頸特征并將它們送入統(tǒng)計(jì)池層,以增強(qiáng)語(yǔ)種 / 方言分類(lèi)能力是十分必要的。全局多尺度池化方法的結(jié)構(gòu)如圖 4 所示。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

圖 4: 全局多尺度池化

該團(tuán)隊(duì)重新定義了幀級(jí)特征 h_t,在通道維度上聚合了不同層的瓶頸特征 h_bi (i = 1, · · · , n),其中 n 是瓶頸層的數(shù)量。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

全局多尺度池化層在幀級(jí)特征 h_t(t = 1,... ,T) 上以標(biāo)準(zhǔn)差向量 σ 的形式計(jì)算均值向量 μ 以及二階統(tǒng)計(jì)量。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

該團(tuán)隊(duì)在實(shí)驗(yàn)中使用兩個(gè)瓶頸層用于全局多尺度池化。實(shí)驗(yàn)表明,使用全局多尺度池化方法可以產(chǎn)生更加具有區(qū)分力的語(yǔ)種 / 方言表征。

實(shí)驗(yàn)結(jié)果

為了證明所提模型在語(yǔ)種 / 方言識(shí)別任務(wù)上的有效性,該團(tuán)隊(duì)研究人員在東方語(yǔ)種 OLR2020 挑戰(zhàn)賽識(shí)別任務(wù) 2 的方言識(shí)別任務(wù)上面進(jìn)行了測(cè)試實(shí)驗(yàn),采用了兩個(gè)評(píng)價(jià)指標(biāo):平均損失性能 Cavg 和等錯(cuò)誤率 EER 進(jìn)行性能評(píng)估,并且和主流的語(yǔ)種 / 方言識(shí)別技術(shù)進(jìn)行了性能和參數(shù)量的對(duì)比。

1. 東方語(yǔ)種識(shí)別大賽數(shù)據(jù)介紹

在 2020 年?yáng)|方語(yǔ)言識(shí)別 (OLR) 挑戰(zhàn)賽中,該團(tuán)隊(duì)使用 AP17-OL3、AP17-OLR-test、AP18-OLR-test、AP19-OLR-dev、AP19-OLR-test 和 AP20-OLR-dialect 作為語(yǔ)種 / 方言任務(wù)的訓(xùn)練集。所有訓(xùn)練數(shù)據(jù)包括 16 種語(yǔ)言,包括日語(yǔ)、韓語(yǔ)、閩南話、上海話、四川話等語(yǔ)種 / 方言。組合數(shù)據(jù)集的詳細(xì)信息如表 1 所示。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

表 1: 訓(xùn)練集和評(píng)估集的數(shù)據(jù)。

2. 橫向?qū)Ρ?/strong>

從表 2 中,我們可以觀察到,在相同的語(yǔ)種 / 方言識(shí)別任務(wù)中,動(dòng)態(tài)多尺度卷積方法的性能明顯優(yōu)于東方語(yǔ)種識(shí)別 2020 任務(wù) 2 中 top2 的模型。與 OLR Challenge 2020 排行榜 No.1 (SOTA,state-of-the-art)識(shí)別系統(tǒng)相比,我們的模型僅使用 290 萬(wàn)個(gè)參數(shù)即可分別實(shí)現(xiàn) 9.2% 的 Cavg 和 45% 的 EER 相對(duì)改進(jìn)。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

表 2: 與 top2 系統(tǒng)的比較。在這張表中,Royal Flush 和 Phonexia 分別是 2020 年 OLR 挑戰(zhàn)賽排行榜的第 2 名和第 1 名。該系統(tǒng)相比 top1 分別實(shí)現(xiàn)了 9% 的 Cavg 和 45% 的 EER 相對(duì)改進(jìn)。

3. 縱向?qū)Ρ?/strong>

表 3 顯示在東方語(yǔ)種識(shí)別中語(yǔ)種 / 方言識(shí)別任務(wù)上的消融研究的性能。測(cè)評(píng)分析了福建話、四川話和上海話的 Softmax-output 分?jǐn)?shù)。該方案所有提出的模型在 EER 方面都要優(yōu)于 OLR2020 挑戰(zhàn)賽中 最先進(jìn)系統(tǒng)。值得注意的是,該團(tuán)隊(duì)所提出的動(dòng)態(tài)多尺度卷積方法在包括 Cavg 在內(nèi)的所有指標(biāo)中都取得了最佳性能,這表明該方法對(duì)于語(yǔ)種 / 方言識(shí)別任務(wù)是非常有效的。

動(dòng)態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語(yǔ)種識(shí)別新方法

表 3: 東方語(yǔ)種 2020 比賽賽道二語(yǔ)種 / 方言識(shí)別任務(wù)上的消融實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果表明,與使用 Softmax 損失函數(shù)的模型相比,使用 AAM-Softmax 的模型可以獲得更優(yōu)異的性能。與基線系統(tǒng) D-TDNN 的方法相比,動(dòng)態(tài)卷積核的操作是非常有助于進(jìn)行語(yǔ)種 / 方言識(shí)別的。局部多尺度動(dòng)態(tài)卷積核將多尺度學(xué)習(xí)與動(dòng)態(tài)卷積核相結(jié)合,通過(guò)引入多尺度學(xué)習(xí),進(jìn)一步提高了性能,相對(duì)減少了 36% 的參數(shù),而模型參數(shù)量?jī)H有 250 萬(wàn)。此外卷積內(nèi)的局部多尺度學(xué)習(xí)方法可以有效地通過(guò)超參數(shù) s 減少模型參數(shù)量。全局和局部多尺度動(dòng)態(tài)卷積核方法采用了全局多尺度池化方法,是局部多尺度動(dòng)態(tài)卷積核的變體。將全局和局部多尺度動(dòng)態(tài)卷積核的結(jié)果與局部多尺度動(dòng)態(tài)卷積核結(jié)果進(jìn)行比較,可以看出全局多尺度池化對(duì)于提高語(yǔ)種 / 方言識(shí)別的性能是大有幫助的。

目前,語(yǔ)種 / 方言識(shí)別已應(yīng)用于快手視頻審核、同城直播、推薦、素材挖掘等多個(gè)業(yè)務(wù)場(chǎng)景,為各個(gè)業(yè)務(wù)帶來(lái)顯著收益。

  • 在同城直播業(yè)務(wù),利用方言直播識(shí)別技術(shù)為同城直播打上方言標(biāo)簽,助力同城主播的消費(fèi)指標(biāo)提升。
  • 在推薦業(yè)務(wù)場(chǎng)景,為視頻打上語(yǔ)種(或方言)標(biāo)簽,助力推薦將作品進(jìn)行區(qū)域分發(fā),提升視頻的消費(fèi)效果。

 

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2024-02-06 13:31:55

語(yǔ)義分割損失函數(shù)指標(biāo)

2021-05-17 10:05:08

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2025-10-20 08:50:00

2015-07-20 11:49:56

Wi-Fi

2021-11-26 18:37:39

技術(shù)人工智能計(jì)算機(jī)

2025-01-06 09:30:00

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-04-24 09:38:00

3D模型AI

2025-08-29 09:09:00

AI模型數(shù)據(jù)

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2025-01-23 10:08:00

虛擬數(shù)字AI

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2022-12-08 13:00:10

AI性別偏見(jiàn)

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2021-02-18 14:55:06

FuchsiaAndroidLinux

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2023-08-16 15:25:43

2024-08-30 12:58:43

AI多模態(tài)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)