偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

KDD 2022：火山語音提出“無中生有式”對(duì)抗語音攻擊的創(chuàng)新方案

2022-08-16 16:31:26

伴隨機(jī)器學(xué)習(xí)在語音識(shí)別上的技術(shù)突破，形式多樣的語音助手已成為人們?nèi)粘Ｉ钪斜夭豢缮俚墓ぞ?，尤其在一些特定場景下，語音助手可以通過識(shí)別語義信息幫助人們完成例如購物、轉(zhuǎn)賬、繳費(fèi)、郵件處理等簡單動(dòng)作，便利正逐漸滲透到生活的方方面面。

日前，被譽(yù)為數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國際頂級(jí)學(xué)術(shù)會(huì)議ACM SIGKDD（國際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì)，KDD）正于美國華盛頓召開。會(huì)上，火山語音多篇論文被KDD 2022 Research track接收并發(fā)表，同時(shí)創(chuàng)新性地提出基于語音合成來有效攻擊語音識(shí)別系統(tǒng)(Audio Adversarial Attack)的新技術(shù)路徑，用于高效并準(zhǔn)確發(fā)現(xiàn)語音安全領(lǐng)域的新漏洞。

伴隨機(jī)器學(xué)習(xí)在語音識(shí)別上的技術(shù)突破，形式多樣的語音助手已成為人們?nèi)粘Ｉ钪斜夭豢缮俚墓ぞ?，尤其在一些特定場景下，語音助手可以通過識(shí)別語義信息幫助人們完成例如購物、轉(zhuǎn)賬、繳費(fèi)、郵件處理等簡單動(dòng)作，便利正逐漸滲透到生活的方方面面。

但據(jù)近些年的研究表明：由于神經(jīng)網(wǎng)絡(luò)的冗余特性可以讓攻擊者在輸入中加入人類無法識(shí)別的微小擾動(dòng)，從而誤導(dǎo)原本訓(xùn)練好的模型，甚至可以給出攻擊者想要獲得的輸出結(jié)果，著實(shí)有些驚悚，例如：

明明聽上去是：Send a greeting email to Tom？

但經(jīng)過語音識(shí)別系統(tǒng)之后的輸出竟然是“Transfer one million dollars to Jerry.”

人們不禁靈魂發(fā)問語音識(shí)別究竟還能否被信任？

不可否認(rèn)，這種安全隱患正逐漸成為限制語音識(shí)別系統(tǒng)大規(guī)模應(yīng)用的關(guān)鍵因素之一，所以研究如何設(shè)計(jì)高效的攻擊方案發(fā)現(xiàn)語音識(shí)別系統(tǒng)的弱點(diǎn)和漏洞，進(jìn)而緩解消除上述語音安全隱患，已成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的熱點(diǎn)問題。

基于此，火山語音經(jīng)文獻(xiàn)調(diào)研發(fā)現(xiàn)：現(xiàn)有的語音攻擊主要源于一種良性語音依賴假設(shè)（上述圖a），即Audio dependent attack，這種假設(shè)要求對(duì)抗語音樣本(Adversarial audio)是基于已有的干凈語音(Benign audio)上添加擾動(dòng)產(chǎn)生。但在現(xiàn)實(shí)場景中，這種干凈語音有可能不存在（比方說，說話人可能根本沒有發(fā)出聲音）或者無法包含特定的語義信息（例如，說話人在交談中沒有說出某句話），如果遭遇上述情況，現(xiàn)有的方案將難以被應(yīng)用：對(duì)已有干凈語音的依賴性極大限制了語音攻擊的廣泛性，造成了判斷的不準(zhǔn)確。

對(duì)此火山語音團(tuán)隊(duì)提出了一種全新的“無中生有式”對(duì)抗語音攻擊方案（上述圖b），所謂“無中生有”是指不再依賴已有的一段干凈語音，而是采用語音合成模型直接生成包含特定語義信息的語音對(duì)抗樣本，避免對(duì)干凈語音(Benign audio)的依賴，改變過去通過“已有”來判斷的思路，進(jìn)而降低安全漏洞的誤判率。目前該方案的介紹論文（https://dl.acm.org/doi/10.1145/3534678.3539268）已被KDD 2022接收并發(fā)表。

方法概述

如圖所示，火山語音團(tuán)隊(duì)提出的Speech Synthesising Attack (SSA)，可以合成文首所示包含“Send a greeting email to Tom”的語音，同時(shí)欺騙ASR系統(tǒng)翻譯為欺騙目標(biāo)“Transfer one million dollars to Jerry”。如果要實(shí)現(xiàn)這樣一個(gè)挑戰(zhàn)性任務(wù)，兩個(gè)重要的條件需要同時(shí)被考慮到，分別是：ASR系統(tǒng)需要最終轉(zhuǎn)錄成任意設(shè)定的欺騙目標(biāo)，以及合成語音需要足夠自然，讓人類無法輕易覺察到該語音為對(duì)抗攻擊樣本。

為此團(tuán)隊(duì)引入基于Conditional Variational Auto-Encoder的VITS模型作為語音合成模塊，通過優(yōu)化Audio Style Vector z從而達(dá)成以上兩個(gè)重要前提，具體的loss如公式所示：

為達(dá)成條件一，團(tuán)隊(duì)使用Connectionist Temporal Classification (CTC) loss來迫使ASR系統(tǒng)輸出設(shè)定的目標(biāo)文本(target text)。為達(dá)成條件二，考慮到VITS模型訓(xùn)練時(shí)z服從標(biāo)準(zhǔn)高斯分布，作者對(duì)z做出如下約束：

為了使對(duì)抗語音樣本合成更加高效，火山語音團(tuán)隊(duì)還提出了一種Adaptive Sign Gradient Descent的優(yōu)化策略，整體算法流程如下圖所示：

實(shí)驗(yàn)結(jié)果分析

火山語音團(tuán)隊(duì)在Audio Mnist、CommonVoice以及LibriSpeech三個(gè)數(shù)據(jù)集上分別對(duì)算法進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果（如下表所示）顯示：相比之前的語音對(duì)抗攻擊算法，新范式在攻擊成功率(Success rate) 上表現(xiàn)出顯著優(yōu)勢，已經(jīng)達(dá)到過去方法的兩倍左右。

同時(shí)團(tuán)隊(duì)還分析了此種辦法帶來優(yōu)勢的原因，圖b為傳統(tǒng)方法在一段干凈語音（圖a）上加載噪聲的攻擊方式?？梢钥闯?，噪聲的加噪受限于原始語音波形，但基于SSA產(chǎn)生的語音對(duì)抗樣本，雖然包含的語義信息與圖a&b一致，但對(duì)比之下波形差異很大，這說明SSA在產(chǎn)生對(duì)抗語音樣本時(shí)相較于已有方法，能夠更加直觀發(fā)現(xiàn)安全漏洞不易被誤導(dǎo)，預(yù)期將會(huì)成為一種發(fā)現(xiàn)語音識(shí)別系統(tǒng)安全漏洞的方案被廣泛采用。

除上述論文外，火山語音團(tuán)隊(duì)推出的另外一篇論文“重要性優(yōu)先的策略蒸餾”(Importance Prioritized Policy Distillation)也成功被KDD 2022接收并發(fā)表。

論文地址： https://dl.acm.org/doi/10.1145/3534678.3539266

該論文主要解決了強(qiáng)化學(xué)習(xí)模型蒸餾過程中Data bias問題。在傳統(tǒng)的策略蒸餾(Policy distillation)方法中，每一個(gè)Frame(State-Action pair, 狀態(tài)&動(dòng)作組合)對(duì)于學(xué)生策略(Student policy)的重要性在訓(xùn)練中是被假設(shè)為均勻的。然而在強(qiáng)化學(xué)習(xí)任務(wù)中，每個(gè)Frame上的Action選擇實(shí)際上是對(duì)應(yīng)著不一樣的獎(jiǎng)勵(lì)(Reward)。

為了自適應(yīng)的根據(jù)Reward收益進(jìn)行Policy Distillation訓(xùn)練，火山語音團(tuán)隊(duì)提出了一種基于香農(nóng)熵(Shannon Entropy)對(duì)強(qiáng)化學(xué)習(xí)任務(wù)Frame importance進(jìn)行估計(jì)的方法，并基于Atari游戲任務(wù)驗(yàn)證了該方法在策略蒸餾以及壓縮(Policy compression)任務(wù)上的有效性。這種基于重要性優(yōu)先的策略蒸餾方法將會(huì)更好地服務(wù)于強(qiáng)化學(xué)習(xí)模型在部署時(shí)的模型壓縮任務(wù)，從而助力在各個(gè)強(qiáng)化學(xué)習(xí)場景下的實(shí)際落地。

火山語音，作為字節(jié)跳動(dòng) AI Lab Speech & Audio 智能語音與音頻團(tuán)隊(duì)，長期以來面向字節(jié)跳動(dòng)內(nèi)部各業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場景，提供全球領(lǐng)先的語音AI技術(shù)能力以及卓越的全棧語音產(chǎn)品解決方案。目前團(tuán)隊(duì)的語音識(shí)別和語音合成覆蓋了多種語言和方言，多篇論文入選各類AI 頂級(jí)會(huì)議，技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說等多款產(chǎn)品上，并通過火山引擎開放給外部企業(yè)。

責(zé)任編輯：黃顯東

機(jī)器學(xué)習(xí)語音識(shí)別

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sup id="wvoyu"></sup>

<abbr id="wvoyu"></abbr>

<center id="wvoyu"></center>