偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Soul智能語(yǔ)音技術(shù)實(shí)踐之路

原創(chuàng) 精選
人工智能
近年來(lái),智能語(yǔ)音語(yǔ)言技術(shù)蓬勃發(fā)展,逐步改變著人們生產(chǎn)生活的方式,在社交領(lǐng)域更是對(duì)智能語(yǔ)音技術(shù)提出了更高的要求。

作者 | 劉忠亮

整理 | 盧鑫旺

審校 | 云昭

近年來(lái),智能語(yǔ)音語(yǔ)言技術(shù)蓬勃發(fā)展,逐步改變著人們生產(chǎn)生活的方式,在社交領(lǐng)域更是對(duì)智能語(yǔ)音技術(shù)提出了更高的要求。

日前,在51CTO主辦的AISummit全球人工智能技術(shù)大會(huì)上,Soul語(yǔ)音算法負(fù)責(zé)人劉忠亮,帶來(lái)了主題演講《Soul智能語(yǔ)音技術(shù)實(shí)踐之路》,立足于Soul的一些業(yè)務(wù)場(chǎng)景,分享了Soul在智能語(yǔ)音技術(shù)的一些實(shí)踐經(jīng)驗(yàn)。

現(xiàn)將演講內(nèi)容整理如下,希望對(duì)大家有所啟發(fā)。

Soul的語(yǔ)音應(yīng)用場(chǎng)景

Soul是一個(gè)基于興趣圖譜推薦的具有沉浸感的社交場(chǎng)景,在這個(gè)場(chǎng)景下,語(yǔ)音交流非常多,所以在過(guò)去一段時(shí)間積累了很多的數(shù)據(jù)。目前大概一天有上百萬(wàn)小時(shí)的量級(jí),如果去除掉語(yǔ)音通話當(dāng)中的一些靜音、噪聲等等,只統(tǒng)計(jì)這些有意義的音頻片段的話,大概有六七億條音頻片段。Soul的語(yǔ)音業(yè)務(wù)入口主要是以下幾個(gè):

語(yǔ)音派對(duì)

群組可以創(chuàng)建房間,很多用戶在里面進(jìn)行語(yǔ)音聊天。

視頻派對(duì)

Soul平臺(tái)的用戶,其實(shí)大部分是不希望露臉的,不希望暴露自己的,所以我們就做了一個(gè)自研的3D的Avatar形象或者頭套給用戶使用,幫助用戶更好地去表達(dá)自己或者是無(wú)壓力的表達(dá)自己。

狼人殺游戲

也是一個(gè)房間,里面也可以是好多人一起玩游戲。

語(yǔ)音匹配

一個(gè)比較有特色的場(chǎng)景,就是語(yǔ)音匹配,或者說(shuō)它跟微信打電話一樣,就是可以一對(duì)一的去聊天。

基于這些場(chǎng)景,我們構(gòu)建了自研語(yǔ)音能力,主要圍繞兩大方向:第一是自然的人機(jī)交互,第二是內(nèi)容理解與生成。主要四個(gè)方面:第一是語(yǔ)音識(shí)別和語(yǔ)音合成;其次是語(yǔ)音分析和語(yǔ)音動(dòng)畫(huà),下圖是我們用到的常見(jiàn)的語(yǔ)音工具,主要有語(yǔ)音分析,比如音質(zhì)、音效、音樂(lè)這些方向。然后是語(yǔ)音識(shí)別,比如中文識(shí)別、歌聲識(shí)別、中英混讀。第三是語(yǔ)音合成相關(guān)的,比如文娛轉(zhuǎn)換、語(yǔ)音轉(zhuǎn)換、歌聲合成相關(guān)的事情。第四是語(yǔ)音動(dòng)畫(huà),主要是做了一些文字驅(qū)動(dòng)口形、語(yǔ)音驅(qū)動(dòng)口形等等一些語(yǔ)音動(dòng)畫(huà)的技術(shù)。

基于這些語(yǔ)音算法能力,我們有很多語(yǔ)音應(yīng)用形式,比如語(yǔ)音質(zhì)量的檢測(cè),包括增強(qiáng),語(yǔ)音審核,文字配音、語(yǔ)音話題、虛擬環(huán)境音,比如這些3D的空間音效等等。下面針對(duì)語(yǔ)音審核和虛擬形象兩個(gè)業(yè)務(wù)場(chǎng)景下用到的技術(shù)進(jìn)行介紹。

語(yǔ)音內(nèi)容審核

語(yǔ)音內(nèi)容審核是通過(guò)對(duì)音頻片段進(jìn)行涉政、色情、辱罵、廣告等這些維度的內(nèi)容進(jìn)行打標(biāo)簽,或者是進(jìn)行識(shí)別,通過(guò)這些違規(guī)標(biāo)簽的檢測(cè)和審核,來(lái)保障網(wǎng)絡(luò)安全。這里面用到的最核心的技術(shù)就是端到端語(yǔ)音識(shí)別,它輔助將用戶的音頻轉(zhuǎn)成文字,然后再給下游的審核人員進(jìn)行二次質(zhì)檢。

端到端的語(yǔ)音識(shí)別系統(tǒng)

下圖是我們目前正在使用的一個(gè)端到端語(yǔ)音識(shí)別框架,首先它會(huì)抓取用戶的一個(gè)片段音頻進(jìn)行特征提取,目前用到的特征有很多,我們主要是用了Alfa-Bank特征,在一部分場(chǎng)景下嘗試用了Wav2Letter這種預(yù)訓(xùn)練得到的特征。得到音頻特征之后會(huì)進(jìn)行一個(gè)端點(diǎn)檢測(cè),就是檢測(cè)這個(gè)人是不是在說(shuō)話,這個(gè)音頻片段有沒(méi)有人聲。目前用到的基本上是一些經(jīng)典的能量VD和模型DNVD。

拿到這些特征之后,我們會(huì)送到一個(gè)聲學(xué)打分的模塊,這個(gè)聲學(xué)模型我們?cè)陂_(kāi)始的時(shí)候是用的Transformer CDC,目前已經(jīng)迭代到了Conformer CDC。經(jīng)過(guò)這個(gè)聲學(xué)打分之后,我們會(huì)把一系列的序列的分?jǐn)?shù)送給解碼器,解碼器負(fù)責(zé)解碼出文字來(lái),它會(huì)基于識(shí)別結(jié)果再進(jìn)行二次打分。在這個(gè)過(guò)程中,我們用到的模型基本上還是一些比如傳統(tǒng)的EngelM模型,還有一些目前比較主流的Transformer深度學(xué)習(xí)的模型進(jìn)行重打分。最后,我們還會(huì)做一個(gè)后處理,比如經(jīng)過(guò)一些標(biāo)點(diǎn)的檢測(cè)、文本正則化、語(yǔ)句順滑等這些處理,最終得到一個(gè)有意義的比較準(zhǔn)確的識(shí)別文字結(jié)果,比如“2022年全球人工智能大會(huì)”。

在端到端語(yǔ)音識(shí)別系統(tǒng)里面,其實(shí)我們講的端到端主要是在聲學(xué)打分這部分我們是使用了端到端技術(shù),其他的主要還是一些傳統(tǒng)的和一些經(jīng)典的深度學(xué)習(xí)方式。

在構(gòu)建上面這個(gè)系統(tǒng)過(guò)程中,我們實(shí)際上是遇到了很多問(wèn)題,在這里主要是列舉三個(gè):

  • 有監(jiān)督聲學(xué)數(shù)據(jù)太少 這也是大家通常都遇到的事情。主要原因就是,一是音頻你必須要的聽(tīng)完才能做標(biāo)注。第二,它的標(biāo)注成本也是非常高的。所以這部分?jǐn)?shù)據(jù)少是一個(gè)大家都共性的問(wèn)題。?
  • 模型識(shí)別效果差 這個(gè)有很多原因。第一個(gè)是比如在中英混讀或者多領(lǐng)域的時(shí)候,用通用模型去識(shí)別它會(huì)存在比較差的現(xiàn)象。
  • 模型速度慢

針對(duì)這幾個(gè)問(wèn)題,我們主要是通過(guò)如下三個(gè)方式去解決的。

數(shù)據(jù)預(yù)處理

Soul的場(chǎng)景多且比較復(fù)雜。比如群聊派對(duì),它會(huì)出現(xiàn)多個(gè)人交疊的情況或者AB一直在對(duì)話。比如在在線KTV,它會(huì)出現(xiàn)一些邊唱歌邊說(shuō)話的情況。但是我們?cè)跇?biāo)注數(shù)據(jù)的時(shí)候,因?yàn)樗容^昂貴,所以我們會(huì)選取這些場(chǎng)景下面比較干凈的數(shù)據(jù)進(jìn)行標(biāo)注,比如可能會(huì)標(biāo)注一萬(wàn)小時(shí)干凈數(shù)據(jù)。但是干凈的數(shù)據(jù)跟真實(shí)場(chǎng)景的數(shù)據(jù)的復(fù)雜性是不一樣的,所以我們會(huì)基于這些干凈數(shù)據(jù)做一些數(shù)據(jù)預(yù)處理。比如一些經(jīng)典的加噪、加混響、調(diào)速,比較把速度調(diào)快一些或者調(diào)慢一些,調(diào)能量,把能量調(diào)大、調(diào)小一些,經(jīng)過(guò)這些比較經(jīng)典的一些數(shù)據(jù)預(yù)處理方式。

除了這些方式,我們會(huì)針對(duì)我們業(yè)務(wù)場(chǎng)景下出現(xiàn)的一些問(wèn)題,我們會(huì)做一些針對(duì)性的數(shù)據(jù)預(yù)處理或者數(shù)據(jù)增廣。比如剛才提到群聊派對(duì)很容易出現(xiàn)多說(shuō)話人交疊的情形,所以我們會(huì)做一個(gè)多說(shuō)話人拼接音頻,也就是說(shuō)把ABC三個(gè)說(shuō)話人的音頻片段我們會(huì)做一個(gè)cut,一起去做數(shù)據(jù)增廣。

因?yàn)樵谝粢曨l通話里面有一些會(huì)在整個(gè)音頻前端做一些基本的3D算法的預(yù)處理,比如自動(dòng)回聲消除、智能降噪等等,所以說(shuō)我們也會(huì)為了適配線上的使用場(chǎng)景也會(huì)做一些3D算法的預(yù)處理。

經(jīng)過(guò)這些方式的數(shù)據(jù)預(yù)處理之后,我們可以得到多樣性的這些數(shù)據(jù),比如帶噪聲的、有一些混響的、多人甚至多風(fēng)格的這種數(shù)據(jù)都會(huì)增廣出來(lái)。比如我們會(huì)把一萬(wàn)小時(shí)增廣成大概五萬(wàn)小時(shí)甚至比如八九萬(wàn)小時(shí)這么一個(gè)量級(jí),這樣的話,數(shù)據(jù)的覆蓋度、廣度就會(huì)非常高。

模型微創(chuàng)新

我們使用的模型的主要框架還是Conformer結(jié)構(gòu)。在這個(gè)Conformer結(jié)構(gòu)左邊就是經(jīng)典的Encoder CDC框架。右邊是一個(gè)Attention Decoder。但是大家注意到,我們?cè)谟疫呥@個(gè)Loss里邊,原來(lái)的Conformer結(jié)構(gòu)是一個(gè)CE Loss,而我們這邊把它換成了Focal Loss。主要是我們是使用Focal Loss去解決稀疏單元、稀疏數(shù)據(jù)訓(xùn)練不收斂的問(wèn)題,或者訓(xùn)練差的問(wèn)題,它是可以解決的。

比如在中英混讀里面,有些英文單詞我們?cè)谟?xùn)練數(shù)據(jù)里面是很少的,這種情況下這個(gè)單元是學(xué)不好的。通過(guò)Focal Loss我們可以把它的Loss權(quán)重給調(diào)高一些,可以緩解一部分?jǐn)?shù)量問(wèn)題或者訓(xùn)練不好的問(wèn)題,能夠解決一部分bad case。

第二個(gè)點(diǎn),我們?cè)谟?xùn)練策略上會(huì)不一樣,比如我們?cè)谟?xùn)練策略也會(huì)采用一些混合訓(xùn)練的方式,比如在前期訓(xùn)練的時(shí)候,我們訓(xùn)練Decode這部分輸入的時(shí)候,我們還是采用精標(biāo)的Label序列數(shù)據(jù)作為輸入。但是隨著訓(xùn)練模型收斂,后期的時(shí)候我們會(huì)按照一定概率去采樣一部分預(yù)測(cè)出來(lái)的Label作為Decoder的輸入,來(lái)做一些Trick,這個(gè)trick主要解決什么?就是訓(xùn)練模型跟線上推理模型的輸入特征不一致的現(xiàn)象,通過(guò)這種方式我們是可以解決一部分的。

但還有一個(gè)問(wèn)題就是,其實(shí)在這個(gè)Conformer模型原來(lái)或者比如Vnet或者ESPnet他們提供的模型里面,默認(rèn)是一個(gè)絕對(duì)位置信息。但是絕對(duì)位置信息它不能解決序列過(guò)長(zhǎng)的時(shí)候的識(shí)別問(wèn)題,所以我們會(huì)把絕對(duì)位置信息改成相對(duì)位置編碼來(lái)解決這個(gè)問(wèn)題。通過(guò)這種方式,可以解決識(shí)別過(guò)程中出現(xiàn)的比如說(shuō)有些詞重復(fù)或者是偶發(fā)的丟字或者丟詞的現(xiàn)象,這個(gè)問(wèn)題也是可以解決的。

推理加速度

第一個(gè)是聲學(xué)模型,我們會(huì)把自回歸的模型改成這種基于Encoder CDC+WFST解碼的方式,先解出一部分識(shí)別結(jié)果,比如NBest、10best或者20best。基于20best,我們會(huì)送到Decorde Rescore去做一個(gè)二遍重打分,這樣的話可以避免時(shí)序依賴的關(guān)系,便于GPT并行的進(jìn)行計(jì)算或推理。

除了經(jīng)典的這種加速的方式,我們還做了混合量化的方式,就是我們?cè)谏疃葘W(xué)習(xí)前向推理的過(guò)程中,我們一部分使用8Bit進(jìn)行計(jì)算,但是在核心的一部分,比如金融函數(shù)這部分我們依然使用16bit,主要是在速度和精度方向上我們會(huì)做一個(gè)適當(dāng)?shù)钠胶狻?/span>

經(jīng)過(guò)這些優(yōu)化之后,整個(gè)推理速度是比較快的。但是在我們的實(shí)際上線過(guò)程中,我們還發(fā)現(xiàn)了一些小問(wèn)題,我覺(jué)得也算是一個(gè)Trick。

在語(yǔ)言模型層面上,在語(yǔ)言模型層面上,比如我們場(chǎng)景閑聊的文本比較多,但是也有唱歌的,我們要同一個(gè)模型既要解決說(shuō)話,又要解決歌聲。在語(yǔ)言模型上面,比如閑聊文本,它通常比較碎、比較短,所以我們經(jīng)過(guò)實(shí)驗(yàn)之后,我們發(fā)現(xiàn)三元的是比較好的,五元反而沒(méi)有帶來(lái)提升。

但是比如歌聲的話,它的文本比較長(zhǎng),且它的句式、文法相對(duì)比較固定,所以在實(shí)驗(yàn)過(guò)程中,五元是比三元好的。出現(xiàn)這種情況,我們使用的是混合文法來(lái)對(duì)閑聊文本和歌聲文本共同進(jìn)行語(yǔ)言模型的建模。使用了“三元+五元”混合的模式,但這個(gè)“三元+五元”混合并不是我們傳統(tǒng)意義上說(shuō)的差值,我們并沒(méi)有做差值,而是把閑聊的三元的文法跟四元的歌聲和五元的文法拿過(guò)來(lái)直接做一個(gè)合并。這么得到的arpa目前是更小的,在解碼的過(guò)程中也比較快,更重要一點(diǎn)就是顯存占用比較小。因?yàn)樵贕PU上解碼的話,顯存大小是固定的。所以說(shuō)我們是需要控制一定的語(yǔ)言模型大小的情況下,來(lái)盡可能通過(guò)語(yǔ)言模型提升識(shí)別的效果。

經(jīng)過(guò)聲學(xué)模型和語(yǔ)言模型的一些優(yōu)化和Trick之后,目前我們的推理速度也是非??斓?。實(shí)時(shí)率基本上能到0.1、0.2的水平。

虛擬仿真

主要是通過(guò)將聲音、口形、表情、姿態(tài)等這些內(nèi)容進(jìn)行生成,來(lái)幫助用戶更無(wú)壓力或者更自然、更自由地去表達(dá),這背后需要的核心技術(shù)之一就是多模態(tài)語(yǔ)音合成。

多模態(tài)語(yǔ)音合成

下圖是目前正在使用的語(yǔ)音合成系統(tǒng)的基本框架。首先我們會(huì)獲取用戶的輸入文字,比如“2022全球人工智能大會(huì)”,然后我們會(huì)送到文本分析這個(gè)模塊,這個(gè)模塊主要是對(duì)文本進(jìn)行一些各方面的分析,比如進(jìn)行文本的正則化,還有一些分詞,最重要一點(diǎn)是自轉(zhuǎn)移,把文字轉(zhuǎn)成音素,還有一些韻律預(yù)測(cè)等等功能。經(jīng)過(guò)這個(gè)文本分析之后,我們就可以拿到用戶的這句話的一些語(yǔ)言學(xué)特征,這個(gè)特征會(huì)送到聲學(xué)模型里面。聲學(xué)模型目前我們主要是使用的基于FastSpeech這個(gè)框架做的一些模型的改進(jìn)和訓(xùn)練。

聲學(xué)模型得到聲學(xué)特征,比如梅爾特征,或者時(shí)長(zhǎng)或者能量等等信息,它的特征流向會(huì)分兩部分。一部分我們會(huì)送到聲碼器里面,主要是用來(lái)生成我們可以聽(tīng)的音頻波形。另外一個(gè)流向是送到唇形預(yù)測(cè)里面,我們通過(guò)唇形預(yù)測(cè)模塊可以預(yù)測(cè)出口形對(duì)應(yīng)的BS系數(shù)。得到BS特征值之后,我們會(huì)送到視頻生成模塊,這部分是由視覺(jué)團(tuán)隊(duì)負(fù)責(zé),可以生成虛擬頭像,就是帶口形、帶表情的這種虛擬形象。最終我們會(huì)把虛擬頭像和音頻會(huì)做一個(gè)合并,最終生成音視頻動(dòng)畫(huà)。這就是我們整個(gè)多模態(tài)語(yǔ)音合成的基本框架、基本流程。

多模態(tài)語(yǔ)音合成過(guò)程中的主要問(wèn)題:

  • 語(yǔ)音音庫(kù)數(shù)據(jù)質(zhì)量比較差。
  • 合成音質(zhì)較差。
  • 音畫(huà)延遲大,口型和聲音對(duì)不上

Soul的處理方式與在改進(jìn)端到端的語(yǔ)音識(shí)別系統(tǒng)中類似。

數(shù)據(jù)預(yù)處理

我們的音庫(kù)來(lái)源是比較多的,左邊這個(gè)圖就是第一我們會(huì)采集錄制。第二,當(dāng)然我們非常感謝開(kāi)源的數(shù)據(jù)公司,它會(huì)開(kāi)源一些音庫(kù),我們也會(huì)用它來(lái)做一些實(shí)驗(yàn)。第三,我們平臺(tái)上在公司級(jí)會(huì)有一些公開(kāi)的營(yíng)銷視頻,在做視頻的時(shí)候,請(qǐng)了一些優(yōu)質(zhì)主播來(lái)做,所以這里面的音色也是非常優(yōu)質(zhì)的。第四,一些公開(kāi)的網(wǎng)絡(luò)數(shù)據(jù),比如在對(duì)話的過(guò)程中,有些音色質(zhì)量比較高,所以我們也會(huì)爬取一些,然后做一些預(yù)標(biāo)注,主要是做一些內(nèi)部的實(shí)驗(yàn)和預(yù)訓(xùn)練。

針對(duì)這些數(shù)據(jù)復(fù)雜性,我們做了一些數(shù)據(jù)預(yù)處理,比如短句的拼接,剛才提到在采集的過(guò)程中,句子是有長(zhǎng)有短的,我們?yōu)榱藬U(kuò)增音庫(kù)的時(shí)長(zhǎng),我們會(huì)把短句做一個(gè)cut,過(guò)程中我們會(huì)去掉一些靜音,靜音太長(zhǎng)的話也會(huì)有一些影響。

第二,就是去噪,比如在拿到的這些網(wǎng)絡(luò)數(shù)據(jù)或者營(yíng)銷視頻,在這里面的噪聲我們會(huì)通過(guò)一些語(yǔ)音增強(qiáng)的方式把噪聲去掉。

第三,其實(shí)現(xiàn)在的標(biāo)注大部分是標(biāo)注的音轉(zhuǎn)字,但音素的邊界現(xiàn)在基本上就不作為標(biāo)注了,所以我們通常是通過(guò)這種MFA強(qiáng)制對(duì)齊的方式去獲得音素的邊界信息。

然后下面人聲分離的話是比較特殊的,因?yàn)槭窃跔I(yíng)銷視頻里面我們是有背景音樂(lè),所以說(shuō)我們會(huì)做一個(gè)人聲分離,會(huì)把背景音樂(lè)給去掉,獲取到干聲數(shù)據(jù)。我們還做一些能量規(guī)整,還有一些VAD,VAD主要是在對(duì)話或者網(wǎng)絡(luò)數(shù)據(jù)里面,我通過(guò)VAD去檢測(cè)到有效的人聲,再拿去做一些預(yù)標(biāo)注或者預(yù)訓(xùn)練。

模型微創(chuàng)新

我們?cè)谧鯢astSpeech的過(guò)程中,我們主要做了三個(gè)方面的改動(dòng)。左邊這個(gè)圖左邊這一類是FastSpeech的基礎(chǔ)模型,我們首先做了第一個(gè)變化就是我們會(huì)把音素和音調(diào)進(jìn)行解耦建模,就是正常情況下大家的文本前端轉(zhuǎn)出來(lái)的是音素序列,像左邊這個(gè)圖一樣,“你好”這種單調(diào)的音素序列。但是我們會(huì)把它拆成右邊這部分,兩部分,就是左邊一部分是音素序列,只有音素,沒(méi)有聲調(diào)。右邊是只有聲調(diào),沒(méi)有音素。這樣的話我們會(huì)分別輸送到一個(gè)ProNet(音)里面,會(huì)得到兩個(gè)Embedding。兩個(gè)Embedding會(huì)cut到一起,來(lái)替代之前的這種Embedding的方式。這樣的話,好處就是它可以解決稀疏發(fā)音的問(wèn)題,或者是有些發(fā)音不在我們的訓(xùn)練語(yǔ)料里面,這種問(wèn)題是基本上都可以解決的。

第二個(gè)我們改動(dòng)的方式是原來(lái)的方式是先預(yù)測(cè)一個(gè)時(shí)長(zhǎng),就是右邊這個(gè)圖,然后再基于這個(gè)時(shí)長(zhǎng)我們把聲音集進(jìn)行擴(kuò)展,然后預(yù)測(cè)能量和Pitch?,F(xiàn)在我們是換了一下順序,我們會(huì)基于音素級(jí)的去預(yù)測(cè)Pitch和Energy,然后預(yù)測(cè)完之后我們才會(huì)去對(duì)它進(jìn)行一個(gè)幀級(jí)別的時(shí)長(zhǎng)的擴(kuò)展。這樣的好處就是,在整個(gè)完整的音素的發(fā)音過(guò)程中,它的發(fā)音就比較穩(wěn)定,這是在我們場(chǎng)景下的一個(gè)變化。

第三個(gè)就是我們?cè)贒ecoder這部分,就是最上面這部分,Decoder這部分我們做了一個(gè)替代變化。原來(lái)的Decoder里面是用的這種Attention的方式,我們現(xiàn)在換成了這種Iconv或者Convolution的方式。這個(gè)好處就是因?yàn)镾elf-Attention它雖然能捕獲很強(qiáng)大的歷史信息、上下文信息,但是對(duì)逐步建模的能力是比較差的。所以說(shuō)換成Convolution之后,我們?cè)谔幚磉@種局部建模的能力會(huì)更好一些。比如在發(fā)音的時(shí)候,剛才提到的這種發(fā)音比較啞音或者模糊的現(xiàn)象,基本上它是可以解決的。這是我們目前的一些主要的變化。

共享聲學(xué)模型

左邊是合成口形,右邊是合成聲音,他們共享聲學(xué)模型里面的一些Encoder和時(shí)長(zhǎng)信息。

我們主要是做了三個(gè)動(dòng)作。第一個(gè)是,我們是真實(shí)的采集了一些高精度的數(shù)據(jù),比如我們會(huì)找一些真人佩戴一些高精度傳感器,去驅(qū)動(dòng)我們已經(jīng)預(yù)測(cè)好的Avatar形象,得到高分辨率的音視頻,做一些標(biāo)注。這樣就會(huì)得到文字、音頻、視頻的三者同步的一些數(shù)據(jù)。

第二個(gè)事情就是,可能也提到我們?cè)趺唇鉀Q音畫(huà)一致性呢?因?yàn)槲覀冏铋_(kāi)始是先通過(guò)合成,文本合成聲音,拿到聲音之后,我們會(huì)做一個(gè)聲音到口形的預(yù)測(cè),這個(gè)過(guò)程中它會(huì)出現(xiàn)幀級(jí)別不對(duì)稱的現(xiàn)象。目前我們是通過(guò)這種合成口形和合成聲音共享聲學(xué)模型的方式,并且在幀級(jí)序列進(jìn)行擴(kuò)展之后去做。目前是可以保證在幀級(jí)上是可以對(duì)齊的,能夠保證音畫(huà)一致性。

最后,我們目前并沒(méi)有基于序列的方式去預(yù)測(cè)口形或者BS基,我們是基于LSTM的這種方式去預(yù)測(cè)BS基。預(yù)測(cè)的BS系數(shù)之后,但是它有可能預(yù)測(cè)得有些異常,我們還會(huì)做一些后處理,比如正則化,比如BS基太大或者太小,都會(huì)導(dǎo)致口形張得太大甚至變化太小,我們都會(huì)設(shè)置一個(gè)范圍,不能太大了,會(huì)控制在一個(gè)合理的范圍之內(nèi)。目前基本上是可以保證音畫(huà)一致性的。

未來(lái)展望

一是多模態(tài)識(shí)別,在高噪情況下,音頻結(jié)合口形做多模態(tài)識(shí)別,提高識(shí)別準(zhǔn)確率。

二是多模態(tài)的語(yǔ)音合成實(shí)時(shí)語(yǔ)音轉(zhuǎn)換,可以保留用戶的情感、風(fēng)格這些特征,只是把用戶的音色轉(zhuǎn)換到另外一個(gè)音色上面。

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2023-01-06 11:05:36

人工智能作業(yè)幫語(yǔ)音技術(shù)

2022-11-03 16:31:08

語(yǔ)音智能語(yǔ)音識(shí)別

2019-06-04 09:26:35

UCloudUDB數(shù)據(jù)庫(kù)

2022-12-01 07:03:22

語(yǔ)音識(shí)別人工智能技術(shù)

2022-12-15 07:35:04

人工智能語(yǔ)音應(yīng)用場(chǎng)景

2020-06-03 07:59:12

2022-12-05 07:17:14

人工智能語(yǔ)音合成

2016-09-29 17:56:51

騰訊云微信智能語(yǔ)音

2023-02-28 12:12:21

語(yǔ)音識(shí)別技術(shù)解碼器

2022-12-05 09:42:21

語(yǔ)音人工智能程序

2024-11-11 08:50:24

2023-11-01 07:44:29

轉(zhuǎn)轉(zhuǎn)Flutter業(yè)務(wù)

2021-01-04 13:50:31

BI商業(yè)智能永洪科技

2020-11-12 17:24:21

微軟智能語(yǔ)音

2022-08-25 18:58:48

MLOps

2017-02-23 08:00:04

智能語(yǔ)音Click

2020-02-10 08:20:48

智能語(yǔ)音人工智能物聯(lián)網(wǎng)

2023-06-12 17:24:40

Web網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)