偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個(gè)通用語(yǔ)音翻譯系統(tǒng)!Meta重磅開源SeamlessM4T:支持100種語(yǔ)言多模態(tài)翻譯,附47萬(wàn)小時(shí)訓(xùn)練數(shù)據(jù)

人工智能 新聞
最近,Meta AI和加州大學(xué)伯克利聯(lián)合發(fā)布了一個(gè)大規(guī)模的多語(yǔ)言、多模態(tài)機(jī)器翻譯系統(tǒng)SeamlessM4T,只用一個(gè)模型實(shí)現(xiàn)支持100種語(yǔ)言的語(yǔ)音到語(yǔ)音翻譯、語(yǔ)音到文本翻譯、文本到語(yǔ)音翻譯、文本到文本翻譯和自動(dòng)語(yǔ)音識(shí)別。

基于文本的翻譯系統(tǒng)已經(jīng)取得了非常大的進(jìn)步,從最早的查詞匹配、語(yǔ)法規(guī)則,再到神經(jīng)翻譯系統(tǒng)、Transformer預(yù)訓(xùn)練等,翻譯結(jié)果越來(lái)越精準(zhǔn),支持的互譯語(yǔ)言數(shù)量也超過(guò)了200種。

但與之相對(duì)的「語(yǔ)音到語(yǔ)音翻譯」模型仍然進(jìn)展緩慢,目前主要依賴多個(gè)子系統(tǒng)級(jí)聯(lián),先對(duì)輸入音頻轉(zhuǎn)換到文本,再逐步得到翻譯結(jié)果。

最近,Meta AI和加州大學(xué)伯克利聯(lián)合發(fā)布了一個(gè)大規(guī)模的多語(yǔ)言、多模態(tài)機(jī)器翻譯系統(tǒng)SeamlessM4T,只用一個(gè)模型實(shí)現(xiàn)支持100種語(yǔ)言的語(yǔ)音到語(yǔ)音翻譯、語(yǔ)音到文本翻譯、文本到語(yǔ)音翻譯、文本到文本翻譯和自動(dòng)語(yǔ)音識(shí)別。

Blog post: https://bit.ly/45z0e6s

Demo鏈接: https://seamless.metademolab.com

論文鏈接: https://ai.meta.com/research/publications/seamless-m4t/

開源鏈接: https://github.com/facebookresearch/seamless_communication

為了訓(xùn)練模型的多項(xiàng)能力,研究人員先使用了100萬(wàn)小時(shí)的開放語(yǔ)音音頻數(shù)據(jù)來(lái)學(xué)習(xí)w2v-BERT 2.0的自監(jiān)督語(yǔ)音表征。

然后過(guò)濾并結(jié)合人工標(biāo)注和偽標(biāo)注數(shù)據(jù),得到了一個(gè)自動(dòng)對(duì)齊的語(yǔ)音翻譯多模態(tài)語(yǔ)料庫(kù)SeamlessAlign,總計(jì)40.6萬(wàn)小時(shí),也是第一個(gè)能同時(shí)將語(yǔ)音和文本翻譯成英語(yǔ)的多語(yǔ)言系統(tǒng)。

在Fleurs上,SeamlessM4T為多種目標(biāo)語(yǔ)言的翻譯設(shè)定了新的標(biāo)準(zhǔn),在直接語(yǔ)音到文本的翻譯方面,BLEU比以前的最高性能模型提高了20%;

與強(qiáng)級(jí)聯(lián)模型相比,SeamlessM4T在語(yǔ)音到文本方面將英譯質(zhì)量提高了1.3 BLEU評(píng)分,在語(yǔ)音到語(yǔ)音方面提高了2.6 ASR-BLEU評(píng)分。

在CVSS上,與用于語(yǔ)音到語(yǔ)音翻譯的2階段級(jí)聯(lián)模型相比,SeamlessM4T-Large的性能強(qiáng)了58%

數(shù)據(jù)準(zhǔn)備

語(yǔ)言識(shí)別(LID)

將原始的音頻數(shù)據(jù)按照語(yǔ)言進(jìn)行分類后,可以提高音頻片段的對(duì)齊質(zhì)量,提高下游翻譯系統(tǒng)的性能。

研究人員選擇ECAPA-TDNN開源架構(gòu)作為基線模型,在VoxLingua107數(shù)據(jù)集上重新訓(xùn)練30個(gè)epoch后,分類錯(cuò)誤率為5.25%;相比之下,開源版模型VL107 HF的錯(cuò)誤率為7%

在模型復(fù)現(xiàn)驗(yàn)證完畢后,研究人員最終在8個(gè)GPU上訓(xùn)練了40個(gè)epoch,總耗時(shí)172小時(shí),累計(jì)使用1.7萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù),平均每種語(yǔ)言171小時(shí),具體為1到600小時(shí)不等。

在100種SeamlessM4T語(yǔ)言以及79種VoxLingua107語(yǔ)言的實(shí)驗(yàn)中,可以看到,對(duì)額外語(yǔ)言的訓(xùn)練會(huì)略微降低通用語(yǔ)言集的整體性能,可以是因?yàn)橐肓烁嘞嗨普Z(yǔ)言,比如祖魯語(yǔ)(zul)經(jīng)常與尼亞雅語(yǔ)(nya)混淆,現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)(arb)與摩洛哥阿拉伯語(yǔ)(arry)和埃及阿拉伯語(yǔ)(arz)混淆等。

總體來(lái)說(shuō),新模型在17種語(yǔ)言的分類能力上平均性能提升14.6%,但有12種語(yǔ)言的分類能力下降(平均9.8%)。

除此之外,為了提高LID標(biāo)簽的質(zhì)量,研究人員還根據(jù)特定語(yǔ)言的可用數(shù)據(jù)量,估算了開發(fā)語(yǔ)料庫(kù)中每種語(yǔ)言正確和錯(cuò)誤分類的LID分?jǐn)?shù)高斯分布,設(shè)定過(guò)濾閾值,使得 p(correct|score) > p(incorrect|score)

在過(guò)濾掉8%的數(shù)據(jù)后,模型的F1指標(biāo)又進(jìn)一步提高了近3%

大規(guī)模收集原始音頻和文本

在文本預(yù)處理時(shí),研究人員遵循NLLB團(tuán)隊(duì)的策略,使用相同的數(shù)據(jù)源、清洗策略、過(guò)濾步驟等。

論文鏈接:https://arxiv.org/abs/2207.04672

在音頻預(yù)處理上,研究人員首先從公開的網(wǎng)絡(luò)數(shù)據(jù)抓取庫(kù)中獲取了400萬(wàn)小時(shí)的原始音頻(其中約100萬(wàn)小時(shí)為英語(yǔ)),然后以16KHz頻率進(jìn)行重采樣,再使用定制的音頻事件檢測(cè)(AED)模型過(guò)濾掉非語(yǔ)音數(shù)據(jù)。

在音頻分割部分, 為了實(shí)現(xiàn)S2TT或S2ST挖掘,研究人員將音頻文件盡可能分割成小塊,使得每個(gè)塊內(nèi)只包含一個(gè)獨(dú)立的句子。

但語(yǔ)音中的語(yǔ)義分割仍然是一個(gè)開放性問(wèn)題,不同語(yǔ)言中的停頓都可能代表不同的含義,所以研究人員先采用語(yǔ)音活動(dòng)檢測(cè)(VAD)模型將音頻文件分割成較短的片段,再在每個(gè)文件上使用語(yǔ)音LID模型,最后為每個(gè)片段創(chuàng)建了多個(gè)可能的重疊片段,并使用挖掘算法選擇最佳片段,過(guò)度分割的策略使得潛在分段數(shù)量增加了八倍。

語(yǔ)音挖掘

在挖掘過(guò)程中,研究人員先訓(xùn)練了一個(gè)文本編碼器和語(yǔ)音編碼器,然后利用兩個(gè)編碼器將文本和語(yǔ)音模態(tài)的數(shù)據(jù)投影到聯(lián)合嵌入空間SONAR(Sentence-level multimOdal and laNguage-Agnostic Representations)中。

文本編碼器的訓(xùn)練方法為,首先訓(xùn)練文本嵌入空間,再利用師生訓(xùn)練策略將其擴(kuò)展到語(yǔ)音模態(tài),初始文本SONAR空間采用了編碼器-解碼器架構(gòu),基于NLLB-1.3B模型,能夠翻譯200種語(yǔ)言。

研究人員使用平均池化(mean-pooling)將中間表示轉(zhuǎn)換為固定大小的向量,即解碼器只需關(guān)注一個(gè)向量,然后利用NLLB的所有 T2TT訓(xùn)練數(shù)據(jù)對(duì)這一架構(gòu)進(jìn)行了微調(diào)。

在語(yǔ)音編碼器的訓(xùn)練中,先通過(guò)預(yù)訓(xùn)練 XLS-R 模型的 BOS 輸出,獲得了固定大小的語(yǔ)音表征,然后對(duì)該模型進(jìn)行微調(diào),以最大化該集合語(yǔ)音表征與相同語(yǔ)言(ASR 轉(zhuǎn)錄)或英語(yǔ)(語(yǔ)音翻譯)句子嵌入之間的余弦損失。

最后根據(jù)文本句子或其他語(yǔ)言的語(yǔ)音片段挖掘語(yǔ)音片段來(lái)生成S2TT和S2ST數(shù)據(jù)對(duì)以訓(xùn)練SeamlessM4T模型。

研究人員進(jìn)行了全局挖掘(global mining),即將一種語(yǔ)言的所有語(yǔ)音片段與另一種語(yǔ)言的所有語(yǔ)音片段進(jìn)行比較,利用faiss庫(kù)對(duì)所有嵌入進(jìn)行索引可以實(shí)現(xiàn)在GPU上高效的大規(guī)模相似度搜索。

SeamlessM4T模型架構(gòu)

研究人員設(shè)計(jì)SeamlessM4T的目標(biāo)之一是,通過(guò)構(gòu)建一個(gè)更強(qiáng)大的直接X2T模型(用于將文本和語(yǔ)音翻譯成文本)來(lái)彌合大型多語(yǔ)言和多模態(tài)設(shè)置中S2TT的直接和級(jí)聯(lián)模型之間的差距,將強(qiáng)大的語(yǔ)音表示學(xué)習(xí)模型與大規(guī)模多語(yǔ)言T2TT模型相結(jié)合。

無(wú)監(jiān)督語(yǔ)音預(yù)訓(xùn)練

語(yǔ)音識(shí)別和翻譯任務(wù)的標(biāo)注數(shù)據(jù)非常難獲得,對(duì)于低資源語(yǔ)言來(lái)說(shuō)更是如此,所以研究人員對(duì)語(yǔ)音翻譯模型的訓(xùn)練思路是先采用自監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練后再用少量數(shù)據(jù)微調(diào),可以在數(shù)據(jù)量不足的情況下提升模型的極限性能。

研究人員在Seamless M4T Large中采用w2v BERT 2.0預(yù)訓(xùn)練語(yǔ)音編碼器的w2v BERT XL架構(gòu),具有24個(gè)Conformer層和大約600M的模型參數(shù)。

w2v BERT 2.0模型基于100萬(wàn)小時(shí)的開放語(yǔ)音音頻數(shù)據(jù)進(jìn)行訓(xùn)練,覆蓋了超過(guò)143種語(yǔ)言。

w2v-BERT 2.0遵循w2v-BERT的設(shè)計(jì)思路,將對(duì)比學(xué)習(xí)和遮罩預(yù)測(cè)學(xué)習(xí)相結(jié)合,不過(guò)調(diào)整了其中兩個(gè)學(xué)習(xí)目標(biāo)。

對(duì)比學(xué)習(xí)模塊用于學(xué)習(xí)Gumbel矢量量化(GVQ)詞表(codebook)和上下文表征,之后用遮罩預(yù)測(cè)學(xué)習(xí)在不同任務(wù)中細(xì)化上下文表征,而不是在遮罩位置對(duì)預(yù)測(cè)概率進(jìn)行極化。

w2v-BERT 2.0沒(méi)有使用單一的GVQ詞表,而是用兩個(gè)GVQ碼本的乘積量化。

X2T:文本翻譯與轉(zhuǎn)錄

多任務(wù)UnitY框架的核心部分X2T是一個(gè)多編碼器序列模型,語(yǔ)音輸入用的是基于Conformer的編碼器,文本使用基于Transformer的編碼器。

X2T模型的訓(xùn)練數(shù)據(jù)為S2TT,即包含一段源語(yǔ)言的音頻和目標(biāo)語(yǔ)言的文本。

研究人員分兩個(gè)階段訓(xùn)練X2T模型:

第一階段在標(biāo)注英語(yǔ)ASR和英語(yǔ)S2TT數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練,這一過(guò)程可以同時(shí)提升X-eng(某個(gè)語(yǔ)言到英語(yǔ))及eng-X的翻譯性能。

在這一過(guò)程中,研究人員猜想,模型只關(guān)注一種目標(biāo)語(yǔ)言,同時(shí)用多語(yǔ)言語(yǔ)音表征進(jìn)行微調(diào)的話,可以避免從目標(biāo)語(yǔ)言反向傳播回來(lái)的干擾信號(hào)。

在第二階段,將標(biāo)注eng-X S2TT和非英語(yǔ)ASR數(shù)據(jù)添加到混合數(shù)據(jù)集中。

語(yǔ)音到語(yǔ)音翻譯(S2ST, Speech-to-Speech Translation)

S2ST問(wèn)題的關(guān)鍵是使用自監(jiān)督離散聲學(xué)單元來(lái)表示目標(biāo)語(yǔ)音,從而將S2ST問(wèn)題分解為語(yǔ)音到單元翻譯(S2UT)和單元到語(yǔ)音(U2S)轉(zhuǎn)換。

對(duì)于S2UT問(wèn)題,使用UnitY作為two-pass解碼框架,首先生成文本,然后預(yù)測(cè)離散的聲學(xué)單元。

與基本UnitY模型相比,SemalessM4T中的UnitY對(duì)初始化的S2TT模型進(jìn)行預(yù)訓(xùn)練來(lái)聯(lián)合優(yōu)化T2TT、S2TT和ASR的X2T模型;T2U模型更深,包含6個(gè)Transformer層;使用預(yù)訓(xùn)練T2U模型而非從頭初始化。

預(yù)訓(xùn)練X2T具有更強(qiáng)的語(yǔ)音編碼器和更高質(zhì)量的first-pass文本解碼器,并且更大規(guī)模的預(yù)訓(xùn)練T2U模型可以在不受干擾的情況下,更好地處理多語(yǔ)言單元生成。

在微調(diào)的最后階段,用預(yù)訓(xùn)練X2T模型和預(yù)訓(xùn)練T2U模型對(duì)多任務(wù)UnitY模型初始化后,使用總計(jì)12.1萬(wàn)小時(shí)的X-ENG和ENG-X S2ST翻譯數(shù)據(jù)對(duì)T2U組件進(jìn)行微調(diào),確保模型對(duì)先前微調(diào)階段任務(wù)的性能保持不變。

SeamlessM4T模型

經(jīng)過(guò)前面三個(gè)階段的訓(xùn)練后,最終得到的SeamlessM4T-Large模型具有2.3B參數(shù),在T2TT任務(wù)上針對(duì)95種與英語(yǔ)配對(duì)的語(yǔ)言進(jìn)行了微調(diào),在ASR任務(wù)上針對(duì)96種語(yǔ)言進(jìn)行了微調(diào),在S2TT任務(wù)上針對(duì)89種與英語(yǔ)配對(duì)的語(yǔ)言進(jìn)行了微調(diào)。

為了提供不同尺寸的模型,研究人員遵循相同的步驟來(lái)訓(xùn)練得到SeamlessM4T-Medium,參數(shù)量比SeamlessM4T-Large少57%,可以更方便地測(cè)試和微調(diào)以進(jìn)行實(shí)驗(yàn)分析和改進(jìn)。

實(shí)驗(yàn)評(píng)估

研究人員在四個(gè)有監(jiān)督任務(wù)(T2TT、ASR、S2TT和S2ST)以及文本到語(yǔ)音翻譯的零樣本任務(wù)(T2ST,跨語(yǔ)言文本到語(yǔ)音合成)上評(píng)估了SeamlessM4T模型。

在S2ST和T2ST推理過(guò)程中,模型進(jìn)行two-pass beam search解碼,寬度為5,先用文本解碼器找到最佳假設(shè)(best hypothesis),然后輸入到T2U中搜索最佳單位序列假設(shè)。

級(jí)聯(lián)方法對(duì)比

在SeamlessM4T和Whisper支持的語(yǔ)言集上,研究人員對(duì)比了Whisper ASR模型和NLLB T2TT模型的組合。

可以看到,SeamlessM4T-Large在x-eng方向上比參數(shù)小于3B的級(jí)聯(lián)模型高出2個(gè)BLEU評(píng)分,在eng-x方向上比參數(shù)小于3B的級(jí)聯(lián)模型高出0.5個(gè)BLEU評(píng)分。

當(dāng)使用大型NLLB-3.3B T2TT模型(超40億參數(shù)量)的級(jí)聯(lián)模型時(shí),也只在eng-X方向上優(yōu)于SeamlessM4T-Large

在S2ST任務(wù)的對(duì)比中,SeamlessM4T-Large在Fleurs X-Eng方向上比2級(jí)級(jí)聯(lián)模型高出9個(gè)ASR-BLEU點(diǎn),比3級(jí)級(jí)聯(lián)模型高出2.6個(gè)ASR BLEU評(píng)分。

在CVSS上,SeamlessM4T-Large比2級(jí)級(jí)聯(lián)模型高出14個(gè)ASR-BLEU評(píng)分;在Fleurs Eng-X方向上,SeamlessM4T-Large在32個(gè)X-Eng方向上的平均ASR-BLEU為21.5,比Whisper-Large-v2(用于ASR-BLEU的ASR模型)的WER高于100。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-08-23 11:15:20

2022-10-21 09:29:37

2020-10-21 15:24:42

阿里AI翻譯

2023-05-25 16:24:13

2023-12-03 08:57:54

開源模型

2023-08-28 00:33:48

開源語(yǔ)音識(shí)別

2024-03-25 12:30:18

AI訓(xùn)練開源

2021-08-09 10:03:03

數(shù)據(jù)開源語(yǔ)音

2024-08-19 13:35:09

2023-06-12 11:53:00

數(shù)據(jù)集指令

2021-10-12 16:29:16

微軟翻譯服務(wù)人工智能

2025-05-14 08:51:00

2013-06-07 10:41:22

微軟Bing Tansla

2023-02-28 12:38:22

谷歌數(shù)據(jù)集機(jī)器翻譯

2020-06-04 09:22:46

谷歌AI翻譯

2023-09-20 08:37:33

語(yǔ)音翻譯同傳翻譯

2022-07-07 12:38:58

PlatformsMetaNLLB-200

2013-05-27 13:50:07

大數(shù)據(jù)

2010-03-09 19:27:42

Python翻譯腳本

2024-10-14 14:10:00

大模型AI開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)